过去半年内,大模型技术体系迅速演进,引入了100K级长上下文、代码解释、智能体等新技术。浦语团队也推出新一代语言模型-书生·浦语2.0(InternLM2)。其核心特点在于回归语言建模本质,通过更高质量的语料和信息密度,提升模型基座的语言建模能力。文中提到InternLM2在基础语言建模方面的实质性增强,其数理、代码、对话、创作等能力取得显著进步,综合性能领先于其他开源模型。InternLM2延续了第一代的理念:继续支持免费商用;同时包括两种规格:轻量级7B和综合性强大的20B,满足不同使用需求。
一、总览
自2023年7月6日,书生·浦语(InternLM)在世界人工智能大会上正式开源以来,在社区和业界形成越来越大的影响。在过去半年,大模型技术体系也在快速演进,100K级别的长上下文、代码解释、智能体等新技术不断迭代。在技术水平不断进步的同时,大模型在应用上的边界也不断拓宽。在这半年里,浦语团队也在潜心打造新一代的语言模型,近日正式发布书生·浦语2.0(InternLM2)。
相比于第一代InternLM和一些主流开源模型,InternLM2的核心在于回归语言建模的本质,致力于通过更高质量的语料以及更高的信息密度,实现模型基座语言建模能力的质的提升。我们观察到,随着InternLM2在基础语言建模能力的实质性增强,数理、代码、对话、创作等各方面能力都获得了长足进步,综合性能达到开源模型的领先水平。
在此次发布中,沿袭第一代浦语的设定,InternLM2包含两种模型规格:7B和20B。7B为轻量级的研究和应用提供了一个轻便但性能不俗的模型,20B模型的综合性能更为强劲,可以有效支持更加复杂的实用场景。面向不同的使用需求,每个规格包含三个模型版本:
InternLM2-Base:高质量和具有很强可塑性的模型基座,是模型进行深度领域适配的高质量起点;
InternLM2:在Base基础上,在多个能力方向进行了强化,在评测中成绩优异,同时保持了很好的通用语言能力,是我们推荐的在大部分应用中考虑选用的优秀基座;
InternLM2-Chat:在Base基础上,经过SFT和RLHF,面向对话交互进行了优化,具有很好的指令遵循、共情聊天和调用工具等的能力。
二、回归语言建模的本质
InternLM2的核心在于回归语言建模的本质。我们的研究表明,语言建模能力增强的关键在于训练语料质量以及信息密度的提升。为此,我们研发了新一代的数据清洗过滤技术,主要发展了以下几个方面的技术方法:
多维度数据价值评估:基于文本质量、信息质量、信息密度等维度对数据价值进行综合评估与提升;
高质量语料驱动的数据富集:利用高质量语料的特征从物理世界、互联网以及语料库中进一步富集更多类似语料;
有针对性的数据补齐:针对性补充语料,重点加强世界知识、数理、代码等核心能力。
基于新的数据清洗过滤技术,语言建模能力实现了实质性的显著增强。下图比较了初代InternLM和InternLM2在大规模高质量的验证语料上的loss分布。我们看到了整个分布的整体左移,表明了语言建模能力的实质性增强(注:指令微调等虽然可以在下游任务带来明显提升,但是对于整体语言建模能力的影响是非常非常微弱的)
在过去一年的大模型研发历程中,我们的数据清洗技术完成了三轮迭代。下图比较了这三代数据训练的7B模型在下游任务中的性能成长曲线:在新的数据清洗技术(InternData-V3)的加持下,我们只使用约60%的训练数据即可达到上一版模型训练1Ttokens(InternData-V2)的性能表现,而且持续训练后建模能力到达更高的水平。
语言建模能力的增强为各项能力的形成打下坚实的基础。
三、主要亮点
语言建模能力的实质增强,带来了下游任务的全方位性能提升。以下列出了InternLM2的主要亮点:
有效支持20万字超长上下文:模型在20万字长输入中几乎完美地实现长文“大海捞针”,而且在LongBench和L-Eval等长文任务中的表现也达到开源模型中的领先水平。
综合性能全面提升:InternLM2和InternLM2-Chat在各能力维度全面进步,在推理、数学、代码等方面的能力提升尤为显著,综合性能达到同量级开源模型的领先水平,在重点能力评测上InternLM2-Chat-20B甚至可以达到比肩ChatGPT(GPT-3.5)的水平。
优秀的对话和创作体验:InternLM2-Chat可以精准地理解和遵循用户意图,具备较强的共情能力和丰富的结构化创作能力。在最新公布的AlpacaEval2英文主观对话榜单上,InternLM2-Chat-20B超越了GPT-3.5、GeminiPro和Claude-2。
上面的回答不仅提供了一个内容合理的课程大纲,而且在整个结构化输出中,格式和数量上也精准地遵循了用户的要求(7个小节,标题格式、1-5分的星标等),结语对于正文的总结也很准确。
工具调用能力整体升级:基于更强和更具有泛化性的指令理解、工具筛选与结果反思等能力,新版模型可以更可靠地支持复杂智能体的搭建,支持对工具进行有效的多轮调用,完成较复杂的任务。
突出的数理能力和实用的数据分析功能:模型在不使用外部工具的条件下已具备不错的计算能力和推理能力,数理表现超过ChatGPT;在配合代码解释器(code-interpreter)的条件下,InternLM2-Chat-20B在GSM8K和MATH上可以达到和GPT-4相仿的水平。基于在数理和工具方面强大的基础能力,InternLM2-Chat提供了实用的数据分析能力。
下面,我们分别就InternLM2对超长上下文支持、全方位的性能提升、优秀的对话和创作能力、工具调用和交互能力、以及数理分析能力展开介绍。
四、超长上下文支持:200K上下文中近乎完美的“大海捞针”
InternLM2通过拓展训练窗口大小和位置编码改进将对上下文窗口的支持延长到了20万tokens。为了检验这种支持的有效性,我们参考业界范例,对模型进行“大海捞针”试验。该试验通过将关键信息随机插入一段长文本的不同位置构造问题,测试模型是否能从长文本中提取出关键信息。
上面两幅图分别展示InternLM-Chat和InternLM2-Chat在不同长度的上下文(横轴)及上下文中不同位置(纵轴)上召回关键信息的准确率。红色代表较低的召回准确率,而绿色则代表较高的召回率。我们看到,初代模型随着文档长度的增长,召回准确率不断下降,对于超过8K的上下文,平均准确率下降到低于30%的水平。而新一代InternLM2-Chat,召回准确率始终保持在高位,16K以内的平均准确率达到95.65%。
我们继续延长上下文的长度,对InternLM-2提出更大的挑战。试验结果表明,InternLM2-Chat在上下文长度延展到200K时依旧保持了很高的信息召回成功率,验证了InternLM2对于超长上下文的支持能力是十分坚实的。
我们还通过两个主流的长文评测集LongBench和L-Eval检验模型在多种长文任务中的表现。
从上表中我们可以看到,InternLM2在主流长文评测中表现不俗,不仅显著超越了初代InternLM、Qwen和Mistral,而且相比于在长文任务中有很强表现的ChatGLM3也稍胜一筹。
长语境能力可以显著拓展大模型的应用场景,帮助人们应对繁琐的书面工作。比如我们可以让InternLM2总结一段3小时会议的记录并提取出我们关心的信息。尽管这段文本是语音转录存在很多错别字,InternLM2仍然很好地完成了任务。
除此之外,InternLM2整理财报内容表现也不俗。在以下例子中,我们让InternLM2整理一份212页的财报(原文链接财报1):
五、性能全方位提升:推理能力显著增强,综合性能开源领先
语言:考察模型的基础语言能力,包括信息抽取、意图识别、情感分析、内容总结评价、翻译、问答等多个方面。面向这个维度,我们选取了WinoGrande、C3、RACE等评测集。
知识:考察模型在生活常识,自然科学,社会科学,人文科学等多个领域的知识水平。面向这个维度,我们选取了TriviaQA、NaturalQuestions等评测集。
推理:考察模型在常识推理、逻辑推理(包括演绎推理、归纳推理、溯因推理)等多种推理能力。面向这个维度,我们选取了HellaSwag、PIQA、BigBench-Hard(BBH)等评测集。
数学:考察模型在小学,初中,高中,大学等多个学段,多知识点的全方位数学推理能力。面向这个维度,我们选取了GSM8K、MATH、GSM-Hard等评测集。
代码:考察模型在代码分析、代码理解、代码生成、多编程语言掌握等各类代码能力。面向这个维度,我们选取了HumanEval、MBPP等评测集。
考试:以综合化考试的形式考察模型在各学段各学科的中英文学科知识水平。面向这个维度,我们选取了MMLU、AGIEval、C-Eval等评测集。
5.1两代模型的对比
对于上述维度,我们总共选取了55个评测集对模型进行评价。每个维度的评分就是对应评测集得分的平均。
首先,我们比较了初代InternLM和InternLM2在各个能力维度上的表现,如下表所示:
从上表中,我们可以看到,InternLM2相比于初代模型在各个维度上都取得了长足的进步。其中,在推理、数学、代码方面,新一代模型的进步尤为明显。上述结果表明,核心语言建模能力的增强,给下游任务带来的提升是全方位的,不仅语言能力本身得以改善,而且在此基础上也形成了更加扎实的推理、数学和代码能力。
5.2和其它开源模型的性能对比
在过去的几个月,国内外机构开源了多个优秀的大语言模型,包括国外的Llama2、Mistral,国内的Baichuan2、Qwen、ChatGLM3、Yi等。这些模型的表现可圈可点,有力推动了大模型开源生态的繁荣。
下面,我们就相近规格的基座模型和对话模型分别进行比较。下列表格中,每一列为一个模型,每一行为一个能力维度或各维度的总平均,该行的最高成绩以粗体突出。
6B~7B基座模型对比
13B~20B基座模型对比
6B~7B对话模型对比
13B~20B对话模型对比
5.3在主要评测集上的表现
下表列出了InternLM2和InternLM2-Chat在一系列典型评测集上的成绩,并观察它们和业内商用模型标杆ChatGPT(GPT-3.5)以及GPT-4之间的差距。
整体而言,我们看到InternLM2以及InternLM2-Chat的各个规格的模型在关键评测上都有令人惊喜的表现。其中,20B的模型,在多个关键评测中已经很接近甚至部分超越ChatGPT(GPT-3.5),其中在AGIEval、BigBench-Hard(BBH)、GSM8K、MATH等对推理能力有较高要求的评测上,新一代20B模型的表现都优胜于ChatGPT,在代码能力上的表现也远优于同量级开源模型,缩小了和ChatGPT的差距。
我们可以看到InternLM2的表现普遍领先于同量级的开源模型,并且能力均衡发展,没有明显落后于主流模型的短板。这得益于基础语言建模能力的有力支撑。
5.4避免数据污染的努力
六、对话和创作:精准的指令遵循、温暖的对话体验、富有想象力的创作
InternLM2采用了OnlineRLHF,对奖励模型和对话模型进行了三轮迭代更新,在每一轮更新中针对前一轮模型的表现更新偏好数据和训练prompt。在奖励模型训练和PPO阶段都平衡地采用各类prompt,使得模型在安全性进一步提升的情况下,对话的主观体验也能显著提升。为了推动社区对RLHF的探索和研究,我们同时开源了InternLM2-Chat仅SFT和SFT+RLHF的权重,供社区分析对比RLHF前后模型的变化。
为了避免数据泄漏的影响,我们使用了社区最新发布的一些的benchmark进行评估。在斯坦福大学1月份刚发布的AlpacaEval2英文主观对话榜单上,InternLM2-Chat-20B超越了GPT-3.5、GeminiPro和Claude-2。
6.1生活和工作中可靠的助手
在日常生活、工作学习、旅游、社交等各类场景,InternLM2都是贴心又可靠的AI助手。
6.2充满人文关怀的对话
6.3富有想象力的创作
InternLM2既然名为“书生”,自然小有文采,吟诗作对不在话下,剧本小说亦信手拈来。下面InternLM2-Chat-20B将根据用户的简单指示展开畅想,编写《流浪地球3》的电影剧本提纲。
上面的剧本提纲,在保持一个合理自洽的逻辑的同时,想象力也非常丰富,也体现了人类面对挑战时的勇敢精神。
七、工具调用能力升级:更好的工具筛选和多步规划
工具调用能够极大地拓展大语言模型的能力边界,使得大语言模型能够通过搜索、计算、代码解释器等获取最新的知识并处理更加复杂的问题。上一代的书生·浦语模型就已经初步支持了工具调用能力,也展现出了零样本调用工具的泛化能力。InternLM2进一步升级了模型的工具调用能力,能够更稳定地进行工具筛选和多步骤规划,完成复杂任务。我们对模型调用工具流程进行了细粒度的拆解和分析,针对规划、推理、工具选择、理解、执行、反思等步骤,设计了精细的评价方式,并针对性进行增强和优化。
7.1工具调用的评测表现
7.2多步工具调用
八、数理能力突出:不仅能解复杂数学题,还提供实用的数据分析能力
8.1内生的计算能力
计算能力往往是大模型的短板,造成最终推理结果的错误。InternLM2针对性提高了模型的计算能力,在不依靠计算器等外部工具的情况下,在100以内的简单数学运算上能够做到接近100%的准确率,在1000以内达到80%左右的运算准确率。
依赖模型优秀的内生能力,InternLM2不借助外部工具就能够进行部分复杂数学题的运算和求解。
8.2代码解释器:更上一层楼
InternLM2也能很好地支持代码解释器(codeinterpreter)。借助代码解释器,模型能够编写代码进行更复杂的计算,或者对推理的结果进行形式化验证,从而可以解决计算要求更高或者演算过程更加复杂的问题。
在典型的数学评测集GSM8K和MATH上,配合代码解释器,InternLM2都能够在本身已经较高的分数上,进一步获得提升。其中对于难度更高的MATH数据集,借助代码解释器,精度从32.5大幅提升到51.2,甚至超过了GPT-4的表现。
配合代码解释器,20B模型已经能够完成一些例如积分求解等大学级别的数学题目。
8.3数据分析和可视化
除了求解数学题之外,InternLM2还能借助代码解释器进行数据分析和可视化。例如,我们给模型新一份鲜出炉的2023年全国工业产值的数据表格,模型能够根据数据绘制经济数据折线图,并且使用机器学习模型预测未来的数据。
IllustrationFromIconScoutByDelesignGraphics
-TheEnd-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
投稿内容
//前沿资讯解说/心得经历讲述//
投稿须知
投稿方式
发送邮件到
chenhongyuan@thejiangmen.com
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: