所有文章 > 正文

LLM大模型:如何让AI在复杂问题中展现出色的链式思考推理能力?

作者: AMiner AI

浏览量: 595

时间: 2024-03-27 02:01

关键词: CoLLEGe的方法,提高预训练大型语言模型(LLM),Arcee的MergeKit工具包,MathVerse的新基准

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。

它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。

今日精选了5篇LLM领域的优秀论文,为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息

1. CoLLEGe: Concept Embedding Generation for Large Language Models

这篇论文介绍了一种名为CoLLEGe的方法,旨在现代化少样本概念学习。CoLLEGe是一个元学习框架,能够使用少量示例句子或定义生成新概念的灵活嵌入。其主要元学习目标是为语言模型提供一个使其能够对即将到来的句子进行下一个词预测的能力,使其与语言模型预训练相兼容。作者设计了一系列任务来测试在具有挑战性的现实世界场景中的新概念学习,包括新词获取、定义推断和口头推理,并证明在没有特定任务训练的情况下,他们的方法在每个设置中都能成功。

链接:CoLLEGe: Concept Embedding Generation for Large Language Models - AMiner

2. LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement

本文提出了一种新的迭代数据增强策略LLM2LLM,用于提高预训练大型语言模型(LLM)在低数据环境下的性能。该策略通过一个教师LLM来增强一个小种子数据集,生成额外的数据用于特定任务的微调。具体步骤包括:1)在初始种子数据上微调一个基础学生LLM;2)评估并提取模型预测错误的数据点;3)使用教师LLM根据这些错误数据点生成合成数据,并将它们重新加入训练数据中。这种方法在训练过程中放大了LLM预测错误的信号,并将其重新整合到数据集中,以使LLM更加关注具有挑战性的例子。实验结果表明,LLM2LLM在低数据环境下显著提高了LLM的性能,优于传统微调和其他数据增强基线。LLM2LLM减少了对外部劳动密集型数据策展的依赖,为更可扩展和性能更好的LLM解决方案铺平了道路,使我们能够处理数据受限的领域和任务。使用LLaMA2-7B学生模型,在低数据环境下实现了高达24.2的改进。

链接:LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement - AMiner

3. Can large language models explore in-context?

这篇论文探讨了当代大型语言模型(LLMs)是否能够在上下文中进行探索,这是强化学习和决策制定中的核心能力。研究聚焦于现有LLMs的本土表现,不进行训练干预。研究者将LLMs作为代理放置在简单的多臂老虎机环境中,完全在上下文中指定环境描述和交互历史,即在LLM提示内。研究使用了GPT-3.5、GPT-4和Llama2,采用各种提示设计进行实验,并发现没有大量干预,模型不会稳定地进行探索:) 在我们的所有实验中,只有一种配置导致了满意的探索性行为:GPT-4结合链式思考推理和外部总结的交互历史,作为充分统计数据呈现;) 其他所有配置都没有导致稳定的探索性行为,包括那些具有链式思考推理但未总结历史的配置。尽管这些发现可以被解释为积极的结果,但它们表明,在外部总结——在更复杂的环境中可能不可能——对于获得LLM代理的期望行为很重要。我们得出结论,非微不足道的算法干预,如微调或数据集策展,可能需要授权基于LLM的复杂环境中的决策制定代理。

链接:Can large language models explore in-context? - AMiner

4. Arcee's MergeKit: A Toolkit for Merging Large Language Models

这篇论文介绍了Arcee的MergeKit工具包,这是一个用于合并大型语言模型的工具包。随着开源语言模型数量的迅速扩大,通过合并它们的参数来合并这些模型的能力变得可行。转移学习的进步导致了大量针对特定任务的前训练模型的发展,这些模型通常专注于单个任务且无法利用彼此的优点。模型合并可以创建多任务模型,而无需进行额外的训练,为提高模型性能和多功能性提供了一条有前景的途径。通过保留原始模型的内在能力,模型合并解决了AI中的复杂挑战,包括灾难性遗忘和多任务学习的问题。为了支持这一研究领域的扩展,我们引入了MergeKit,这是一个全面的开源库,旨在简化模型合并策略的应用。MergeKit提供了一个可扩展的框架,可以高效地在任何硬件上合并模型,为研究人员和从业者提供便利。到目前为止,开源社区已经合并了数千个模型,从而创建了一些世界上最强大的开源模型检查点,如Open LLM排行榜所示。

链接:Arcee's MergeKit: A Toolkit for Merging Large Language Models - AMiner

5. MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?

这篇论文的摘要提出了一个名为MathVerse的新基准,用于全面评估多模态大型语言模型(MLLM)在视觉数学问题解决方面的能力。尽管MLLM在视觉领域表现出色,但在视觉数学问题解决方面的能力尚未得到充分评估和理解。作者调查了现有的基准测试,发现它们在文本问题中包含过多的视觉内容,这可能帮助MLLM推导出答案,而不真正解释输入的图表。MathVerse是一个全面的多模态视觉数学基准,通过公平和深入的评估来检验MLLM是否真正理解视觉图表。作者从公开来源收集了2612个具有图表的高质量多学科数学问题,并将其转化为六种不同版本,每种版本在多模态信息内容上提供不同程度的信息,共形成15000个测试样本。这种方法使MathVerse能够全面评估MLLM是否以及如何真正理解数学推理中的视觉图表。此外,作者还提出了一种链式思考(CoT)评估策略,用于对输出答案进行精细评估。他们不直接判断对或错,而是利用GPT-4(V)提取关键推理步骤,并对每个步骤进行详细错误分析,以揭示MLLM中间CoT推理质量。作者希望MathVerse基准测试能为未来MLLM的发展提供独特见解。

链接:MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? - AMiner

扫码微信阅读
[关于转载]:本文转载于AMiner AI,仅用于学术分享,有任何问题请与我们联系:report@aminer.cn。