本文作者:心灵探险家

罗格斯大学团队提出思想链概念,提高大模型的算数推理能力

罗格斯大学团队提出思想链概念,提高大模型的算数推理能力摘要: 财联社月日讯编辑牛占林据美国国务院委托撰写的一份报告显示快速发展的人工智能可能对人类构成灭绝级威胁因此美国政府必须采取干预措施这份调查报告由撰写该公司为...

财联社3月13日讯(编辑 牛占林)据美国国务院委托撰写的一份报告显示,快速发展的人工智能(AI)可能对人类构成“灭绝级”威胁,因此美国政府必须采取干预措施。这份调查报告由Gladstone AI撰写,该公司为美国政府高层提供关于AI机遇和风险的咨询和报告。美国国务院一名官员表示,其所在机构委托...

日前,美国罗格斯大学博士生金明宇和所在团队,通过引入思想链(CoT,Chain of Thought)的概念,提高了大语言模型(LLM,large language models)在复杂推理任务上的性能,例如算术推理、常识推理和符号推理等。

图 | 金明宇(来源:金明宇)

CoT 的原理是通过提供推理过程的示例,来教会模型处理推理,详细说明导致最终答案的每个步骤。这种提示方法能够有效地教会模型不要匆忙完成推理过程,而是逐步地解决问题。

这符合人类自然解决问题的方式,也就是将复杂的任务分解为更简单、更易于管理的步骤。

与直接将输入映射到输出的指令跟踪模型不同,CoT 将中间推理步骤合并到导致最终输出的提示中。这种方法在涉及常识、算术和符号推理的任务中表现出显著的性能改进。

CoT 通过将复杂的推理分解为逐步的过程来促进工作流程,从而帮助模型按顺序解决问题的每个部分,而这对于需要深思熟虑的推理任务是至关重要的。

研究发现,CoT 提示对于较大的模型特别有效,当模型参数达到至少 100 亿时,性能开始显著提高,在 1000 亿参数时能观察到最明显的好处。

但是,较小的模型似乎没有从 CoT 中获益那么多,通常会产生流畅但不合逻辑的推理链,从而导致错误的结果。

研究中,课题组还发现了大模型推理能力和推理步骤数量有着绝对的线性关系,在示范里推理步骤越多,最后模型做推理题或者逻辑题的正确率越高。

这一能力可以解决一些问题,比如大家设计 prompt 的时候不会注意到步骤的问题,而本次方法可以让大家更加规范地设计 prompt,从而提高大模型推理步骤。

CoT 的工作原理是将复杂的推理任务分解为更小、更易于管理的步骤,即模仿人类解决问题的方式。

这种循序渐进的过程,对于需要详细和细致理解的任务特别有益,例如算术推理、常识推理和符号推理。

它鼓励模型不仅要得出答案,而且要展示得出该结论所采取的路径,从而提供决策过程的透明度。

此外,模型的推理能力与 CoT 示例中提供的推理步骤数之间的线性关系是一个至关重要的发现。

这种关系表明,随着提示中推理步骤数量的增加,模型在推理或逻辑任务中的准确性也会增加。

这会给提示的设计方式带来一定影响,也表明更加结构化和更加逐步的方法,可以提高法学硕士在复杂推理中的表现。

不过,CoT 的应用并非没有挑战。虽然它在任务性能方面提供了相当大的改进,但它需要仔细的平衡。另外,使用太多步骤重载模型可能会导致模型混乱或导致收益递减。

同时,CoT 的有效性还部分取决于所提供示例的质量。推理步骤越清晰、越符合逻辑,模型就能更好地学习并将这种推理应用于新问题。

而这不仅有助于更准确地解决问题,还有助于以人类可以理解的方式解释模型的推理。

研究中,该团队还发现增加推理步骤的数量,可以线性提高性能。这一发现解决了该领域之前的一个问题:缺乏提示设计的标准化方法。

罗格斯大学团队提出思想链概念,提高大模型的算数推理能力

借助 CoT,人们现在拥有了一个框架来创建更有效的提示,从而可以完成复杂的推理任务。

而这种增强解数学题的能力,能帮助用户更好地解数学题。此外,CoT 还可以通过搜索引擎理解和处理多步骤查询,来增强搜索引擎的功能,这样一来不仅能为用户提供答案,还能为用户提供这些答案背后的推理。

日前,相关论文以《推理步长对大型语言模型的影响》(The Impact of Reasoning Step Length on Large Language Models)为题发在 arXiv[1],金明宇是第一作者,美国新泽西理工学院 Du Mengnan 教授担任通讯作者。

图 | 相关论文(来源:arXiv)

金明宇表示:“但是我们需要搞清楚 cot 的一些基本性质,以便确认是否能够帮助他人的研究。目前我们关于 cot 研究还不太成体系,我们觉得应该多给出一些基础的见解。”

未来,课题组准备针对这个问题研究大模型的内部,即分析 LLM 推理的长推理步骤和短推理步骤、以及大模型内部的神经元过程。

他们的终极目标是:希望可以确定较长的推理步骤是否与更广泛的神经元参与相关。因此,他们打算使用可视化技术来分析长推理和短推理之间的激活模式。

参考资料:

1.https://arxiv.org/abs/2401.04925

运营/排版:何晨龙

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享