谷歌浏览器插件
订阅小程序
在清言上使用
所有文章 > 正文

训练数据匮乏:LLM在正式定理证明中的挑战

作者: AMiner AI

浏览量: 553

时间: 2024-06-03 02:35

关键词: RE-Adapt的方法,微调适配器(LoRAs),科学生成代理(SGA),DeepSeek-Prover的方法

别担心,AMiner AI会帮助你高效检索和阅读文献!

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。

本周精选了5篇LLM领域的优秀论文,为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息。

 1. 本文介绍了一种名为RE-Adapt的方法,该方法可以在不降低已有指令调优的情况下,对大型语言模型在新领域上进行微调。该方法通过反向工程提取一个适配器,这个适配器隔离了指令调优模型相对于其对应的基础预训练模型所学到的内容。重要的是,这不需要额外数据或训练。然后,我们可以对基础模型在新领域上进行微调,并使用反向工程得到的适配器使其遵循指令。RE-Adapt和我们的低秩变体LoRE-Adapt都在多个流行的大语言模型和数据集上超越了其他微调方法,即使这些模型与检索增强生成一起使用也是如此。

链接:RE-Adapt: Reverse Engineered Adaptation of Large Language Models - AMiner

2. 这篇论文探讨了如何构建并复用一系列微调适配器(LoRAs)来提高大型语言模型(LLM)在新任务上的性能。文章研究了如何在多任务数据集上构建适配器库,并设计了零样本和有监督的任务泛化方法。作者提出了基于模型聚类的MBC方法,它根据适配器参数的相似性将任务分组,间接优化跨多任务数据集的迁移。为了复用适配器库,文章还介绍了一种新颖的零样本路由机制“Arrow”,它可以在不重新训练的情况下,动态选择最相关适配器以处理新输入。通过在多个保留任务上对Phi-2和Mistral等LLM进行实验,证明了基于MBC的适配器和Arrow路由能够更好地泛化到新任务上。研究朝着创建可模块化、可适应的LLM迈出了步伐,这些LLM能够与或超越传统联合训练的性能。

链接:Towards Modular LLMs by Building and Reusing a Library of LoRAs - AMiner

3.这篇论文探讨了如何利用大型语言模型(LLM)和仿真模拟的双层优化能力来推进物理科学发现的新范式。近年来,由于其广泛的知识和高级推理能力,大型语言模型在科学发现中受到了广泛关注。然而,它们在有效地模拟观测反馈并与语言相结合以推进物理科学发现方面遇到了挑战。相反,人类科学家通过提出假设、进行实验和通过观测分析修订理论来开展科学发现。受到这一过程的启发,本文提出用仿真的计算能力来增强LLM的知识驱动的抽象推理能力。文章引入了一个双层优化框架——科学生成代理(SGA),其中LLM作为知识丰富、多才多艺的思考者,提出科学假设并对离散组件(如物理方程式或分子结构)进行推理;同时,仿真充当实验平台,提供观测反馈并通过可微性优化连续部分(如物理参数)。作者进行了大量的实验来证明我们的框架在构成定律发现和分子设计方面的有效性,揭示了与传统人类预期不同的创新解决方案,但在分析后仍然保持一致性。

链接:LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery - AMiner

4. LDeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data 

这篇论文介绍了一种名为DeepSeek-Prover的方法,旨在通过大规模合成数据来提高大型语言模型(LLM)在形式定理证明方面的能力。虽然LLM在数学推理方面显示出潜力,但其在正式定理证明方面的发展受到了训练数据缺乏的阻碍。为了解决这个问题,研究者们提出了一种方法,通过将高中和本科水平的数学竞赛问题翻译成正式陈述,筛选出低质量的陈述,并生成证明来生成合成数据。在用这个包含800万 formal statements with proofs的合成数据集微调DeepSeekMath 7B模型后,该模型在整体证明生成准确度上达到了46.3%,并且在Lean 4正式化国际数学奥林匹克(FIMO)基准中的5个问题中成功证明了5个,而GPT-4则未能证明任何问题。这些结果表明,利用大规模合成数据来增强LLM的定理证明能力的潜力。研究还表明,合成数据集和模型将可用于促进这一有前景的领域中的进一步研究。

链接:DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data - AMiner

5.这篇论文介绍了一种名为RAGE的工具,用于解释具有检索能力的大型语言模型(LLM)的解释。具体来说,这种模型能够查询外部资源,并将相关信息拉入其输入上下文中。RAGE的解释是反事实的,它识别输入上下文中的部分,当这些部分被移除时,会改变LLM给出的答案。RAGE包括修剪方法来导航可能的解释的广阔空间,使用户能够查看生成答案的来源。

链接:RAGE Against the Machine: Retrieval-Augmented LLM Explanations - AMiner

扫码微信阅读
[关于转载]:本文转载于AMiner AI,仅用于学术分享,有任何问题请与我们联系:report@aminer.cn。