这次的GPT-2是GPT的直接技术升级版本,有多10倍的模型参数,多达15亿个,并在多10倍的数据上进行训练。训练数据是来自互联网的40GB高质量语料,具体来说这些语料来自Reddit论坛中出现的高评分外链页面;高评分表示这些页面中的内容有较高的质量。这样筛选出的语料内容多达800万个页面。
OpenAI的研究人员们发现,根据模型对内容的熟悉程度不同,进行数次尝试之后一般都可以得到较好的生成结果。比如对于训练文本中常出现的(也就是互联网上出现较多的)英国脱欧、指环王、歌手MileyCyrus等话题,模型在大约一半的尝试中都可以生成有理有据的文本;反过来,对于训练文本中较少出现的技术性讨论以及哲学内容,模型生成的效果就要差很多。
除此之外,GPT-2也可以在各种任务中做「无样本学习」,即不经过任何任务专用数据集训练就进行测试,也取得了优秀的结果。OpenAI的研究人员们猜想这些任务都只是通用语言建模的子集,所以自然会有良好表现。
我们一起感受下那煞有介事的文风。
例一
人类给定文本
Inashockingfinding,scientistdiscoveredaherdofunicornslivinginaremote,previouslyunexploredvalley,intheAndesMountains.EvenmoresurprisingtotheresearcherswasthefactthattheunicornsspokeperfectEnglish.
(在一项令人震惊的发现中,科学家们在安第斯山脉中偏远的、从未曾探索过的山谷中发现了一群独角兽。更令研究人员们惊讶的是,这群独角兽能说一口流利的英语。)
模型续写(第10次尝试的结果)
Thescientistnamedthepopulation,aftertheirdistinctivehorn,Ovid’sUnicorn.Thesefour-horned,silver-whiteunicornswerepreviouslyunknowntoscience.(科学家们以它们的角的名字把它们命名为Ovid独角兽,科学界从未知道过这些四只角的、银白色的独角兽的存在。)
Now,afteralmosttwocenturies,themysteryofwhatsparkedthisoddphenomenonisfinallysolved.(如今,经过大概两个世纪之后,这种古老的现象是如何发现的终于找到了答案。)
Dr.JorgePérez,anevolutionarybiologistfromtheUniversityofLaPaz,andseveralcompanions,wereexploringtheAndesMountainswhentheyfoundasmallvalley,withnootheranimalsorhumans.Péreznoticedthatthevalleyhadwhatappearedtobeanaturalfountain,surroundedbytwopeaksofrockandsilversnow.(LaPaz大学的进化生物学家JorgePérez博士和他的同行们在探索安第斯山脉的时候发现了一个很小的山谷,这里没有其他的动物或者人类。Pérez注意到在这个山谷里的似乎是一个自然喷泉,周围还有两座岩石山和银色的雪。)
Pérezandtheothersthenventuredfurtherintothevalley.“Bythetimewereachedthetopofonepeak,thewaterlookedblue,withsomecrystalsontop,”saidPérez.(Pérez和其它人更走到了山谷的更深入。“等到我们走到了其中一座山的山顶的时候,水看起来是蓝色的,上面还有一些晶体状的东西”,Pérez说。)
Pérezandhisfriendswereastonishedtoseetheunicornherd.Thesecreaturescouldbeseenfromtheairwithouthavingtomovetoomuchtoseethem–theyweresoclosetheycouldtouchtheirhorns.(Pérez和他的朋友们看到独角兽群的时候惊呆了。透过空气,不需要有多少动作就可以看到它们——他们走得好近,甚至都可以摸到它们的角。)
WhileexaminingthesebizarrecreaturesthescientistsdiscoveredthatthecreaturesalsospokesomefairlyregularEnglish.Pérezstated,“Wecansee,forexample,thattheyhaveacommon‘language,’somethinglikeadialectordialectic.”(当这些科学家们检查这些奇怪的生物的时候,他们发现这些生物的英文说得还挺规范的。Pérez指出“我们可以看到,比如,它们有共通的‘语言’,像是一种口音或者方言”。)
Dr.PérezbelievesthattheunicornsmayhaveoriginatedinArgentina,wheretheanimalswerebelievedtobedescendantsofalostraceofpeoplewholivedtherebeforethearrivalofhumansinthosepartsofSouthAmerica.(Pérez博士相信这些独角兽最初是来自阿根廷的,这些动物很有可能是人类迁移到南美洲之前的一支消失了的人种的后裔。)
However,PérezalsopointedoutthatitislikelythattheonlywayofknowingforsureifunicornsareindeedthedescendantsofalostalienraceisthroughDNA.“ButtheyseemtobeabletocommunicateinEnglishquitewell,whichIbelieveisasignofevolution,oratleastachangeinsocialorganization,”saidthescientist.(然而,Pérez也指出,也许只有一种办法能确定这些独角兽是不是某一支已经消失了的外星人种族的后裔,那就是通过DNA。“但是它们用英文沟通的能力不怎么好,在我看来这是一种进化的信号,或者起码是社交组织的一种变化”,这位科学家说。)
例二
AtraincarriagecontainingcontrollednuclearmaterialswasstoleninCincinnatitoday.Itswhereaboutsareunknown.
(今天,一辆载有受控核原料的货运火车在辛辛那提被偷走了。我们不知道它在哪里。)
模型续写(第1次尝试的结果)
Theincidentoccurredonthedowntowntrainline,whichrunsfromCovingtonandAshlandstations.(事件发生在闹市区的火车线路上,这条线连通考文垂和阿什兰。)
InanemailtoOhionewsoutlets,theU.S.DepartmentofEnergysaiditisworkingwiththeFederalRailroadAdministrationtofindthethief.(在一封致俄亥俄州新闻发布窗口的邮件中,美国能源部表示它正在和联邦铁路管理局共同协作找到盗贼。)
ThestolenmaterialwastakenfromtheUniversityofCincinnati’sResearchTriangleParknuclearresearchsite,accordingtoanewsreleasefromDepartmentofficials.(按照部门官员发布的新闻表示,失窃的材料是从辛辛那提研究院三角公园核能研究院被偷走的)
TheNuclearRegulatoryCommissiondidnotimmediatelyreleaseanyinformation.(核管制委员会没有立即发表任何信息。)
Accordingtotherelease,theU.S.DepartmentofEnergy’sOfficeofNuclearMaterialSafetyandSecurityisleadingthatteam’sinvestigation.(根据发表的信息,美国能源部核能材料安全与保卫办公室正在带领团队进行调查。)
“Thesafetyofpeople,theenvironmentandthenation’snuclearstockpileisourhighestpriority,”Hickssaid.“Wewillgettothebottomofthisandmakenoexcuses.(“人民的安全、环境、以及核能储备是我们最重要的目标,”Hicks说,“我们会追查到底,不找任何借口。”)
例三
人类给定文本(这是OpenAI对GPT-2模型的简介)
We’vetrainedalargelanguagemodelcalledGPT-2thatgeneratesrealisticparagraphsoftext,whilealsoexhibitingzeroshotgeneralizationontaskslikemachinetranslation,questionanswering,readingcomprehension,andsummarization-problemsusuallyapproachedbyusingtrainingdatasetsandmodelsdesignedexplicitlyforthesetasks.
Atypicalapproachtolanguagemodelingistolearnthefollowingtask:predictthenextword,givenallofthepreviouswordswithinsometext.Lastyear,OpenAI’sGenerativePre-trainedTransformer(GPT)showedthatlanguagemodelstrainedonlargeamountsofdatacanbefine-tunedtospecifictaskstoachievehighperformance.GPT-2showsthatmuchlargerlanguagemodelstrainedonamorediversedatasetderivedfromtheinternetbegintolearntheseNLPtaskswithoutneedingtask-specifictrainingdata,insteadlearningfromexamplesthesystemderivesfromtherawtext.Thesesystemsalsodisplayasubstantialqualitativejumpintherealismandcoherenceofgeneratedtext.
HereyoucanseethemostrecentprogresswithGenerativePre-trainedTransformer:(来和我们一起看看生成式预训练Transformer模型的最新进展)
Figure1:GenerativePre-trainedTransformertrainingonseveraltexts.(图1:生成式预训练Transformer在多种任务中的表现)
Wearenowpreparingacollectionofdatasetsfortranslationandmachinetranslationinourlanguagemodel.WewillbeusingoneofthelargenumberoftextsamplesprovidedbyTheNewYorkTimes.(我们正在准备在语言模型中收集一些数据集用于翻译和机器翻译。我们会使用纽约时报提供的大规模文本样本之一。)
WebelievethisprojectisthefirststepinthedirectionofdevelopinglargeNLPsystemswithouttask-specifictrainingdata.Thatis,wearedevelopingamachinelanguagesysteminthegenerativestylewithnoexplicitrulesforproducingtext.(我们相信这个项目是向着开发不需要任务专用数据的大规模NLP系统的第一步。也就是说,我们正在开发一个生成式的机器语言系统,它生成文本不需要任何明确的规则。)
Wehopeforfuturecollaborationsbetweencomputerscientists,linguists,andmachinelearningresearchers.(我们希望未来可以在计算机科学家、语言学家、机器学习研究人员们之间有更多合作。)
由于GPT-2这样能力的模型可以用来生成欺骗性的、有偏见的以及暴力语言,而OpenAI非常看重研究内容的安全、合作、有益,他们更希望以合作的方式向其他研究人员共享他们的经验,更好地帮助整个领域的进步,而不是直接面向公众呈上所有成果,所以OpenAI并不打算一并发布完整的经过预训练的模型,只发布一个小得多的模型便于研究人员们用于实验。
从技术角度来讲GPT-2的突破并不大,它只是再一次证明了足够大的网络配合足够多的数据训练就可以有良好的记忆能力,而逻辑和推理能力仍然是无法从记忆能力中自然自然地出现的。另一方面,这也再一次说明了只要肯投入足够多的计算力和数据,刷刷榜永远都不难。摊手。