智能推理新路径 组合优化在生成式AI中的前沿探索
发布时间:2024-11-15 01:07:28点击:
尽管LLMs在生成自然语言文本方面表现出色,但在推理任务中的表现却不尽如人意。推理任务需要模型具备更高层次的认知能力,包括逻辑推理、因果关系分析和战略规划等。然而现有的LLMs在这些方面的能力有限,主要表现在缺乏深度推理能力,LLMs在处理复杂推理任务时,往往依赖于简单的模式匹配和统计规律,缺乏真正的逻辑推理能力。易受幻觉影响,LLMs在生成文本时,有时会产生与事实不符或无意义的内容,这被称为“幻觉”现象。这在推理任务中尤为明显,因为推理任务需要模型生成高度准确和一致的答案。依赖人工提示,现有的许多推理方法,如链式思维(Chain of Thought, CoT)和自一致性(Self-Consistency),都依赖于人工设计的提示和示例,这限制了它们的泛化能力和自动化程度。
为了解决这些问题,纽约cosa Computing Inc.公司、NASA ARC量子人工智能实验室等多个组织的团队提出了一种新的框架——组合推理(Combinatorial Reasoning, CR)。该框架通过组合优化技术,自动生成用于推理任务的提示,从而提高LLMs在推理任务中的表现。CR框架的核心思想是将从LLM管道中采样的理由映射为二次无约束二进制优化(QUBO)问题,通过优化选择有用的理由子集,构建链式思维风格的提示。
本研究由来自多个机构的专家团队合作完成,涵盖了生成式AI、量子计算、数据科学和优化算法等多个领域。研究团队成员有纽约Icosa Computing Inc.公司成员Mert Esencan, Tarun Advaith Kumar, Can Unlu, Alan Ho。Icosa Computing Inc. 是一家位于纽约的公司,专注于计算技术和人工智能的前沿研究与开发。团队成员在生成式AI和优化算法方面具有丰富的经验。NASA ARC的量子人工智能实验室的成员Ata Akbari Asanjan, P. Aaron Lott, Davide Venturelli。NASA ARC的量子人工智能实验室(QuAIL)致力于探索量子计算在人工智能中的应用。该实验室位于加利福尼亚州的Moffett Field,研究重点包括量子优化和量子机器学习。NASA ARC数据科学组的成员Ata Akbari Asanjan,NASA ARC数据科学组是NASA ARC的一部分,专注于数据分析和机器学习技术的研究与应用。团队成员在大数据处理和分析方面具有深厚的专业知识。USRA高级计算科学研究所的成员P. Aaron Lott, Davide Venturelli,USRA高级计算科学研究所(RIACS)与NASA合作,进行高级计算和人工智能领域的研究。研究所位于加利福尼亚州的Moffett Field,致力于推动计算科学的前沿发展。惠普实验室的LSIP(Large-Scale Integrated Photonics)部门成员Masoud Mohseni,惠普实验室的LSIP(Large-Scale Integrated Photonics)部门位于加利福尼亚州Milpitas,专注于大规模集成光子学和量子计算的研究。团队成员在物理学和计算科学方面具有丰富的研究经验。DataStax 公司的成员Alan Ho,>LLMs概述
大型语言模型(Large Language Models, LLMs)是基于深度学习技术的机器学习模型,专门用于处理和生成自然语言文本。与传统的语言模型相比,LLMs拥有极其庞大的参数量,通常达到数十亿甚至上百亿级别。这些模型通过在海量文本数据上进行训练,能够捕捉语言中的复杂模式和结构,从而生成高度连贯和自然的文本。
尽管LLMs在生成和理解自然语言方面表现出色,但在处理需要深度推理的任务时仍存在一定的局限性。为了提高LLMs的推理能力,研究人员提出了多种推理方法,其中最具代表性的是链式思维(Chain of Thought, CoT)和自一致性(Self-Consistency)。
1. 链式思维(CoT)
链式思维是一种通过在提示中加入中间推理步骤来增强LLMs推理能力的方法。具体来说,CoT方法通过手动标注的示例,展示了从问题到答案的推理过程。这些示例被用作提示,指导LLMs生成包含推理路径的回答。
CoT方法能够显著提高LLMs在推理任务中的表现,特别是在需要多步推理的复杂任务中。
局限性是CoT方法依赖于人工标注的示例,这不仅耗时耗力,而且这些示例可能无法泛化到不同类型的任务。此外,手动标注的示例数量有限,难以覆盖所有可能的推理路径。
2. 自一致性(Self-Consistency)
自一致性是一种改进的解码方法,旨在提高CoT提示的性能。与贪婪解码不同,自一致性方法通过在非零温度下收集多个样本,并选择出现次数最多的答案。这种方法基于这样一个直观的假设:推理问题可能有多条正确的推理路径,但错误的推理路径会导致不同的错误答案。
自一致性能够通过对多个推理路径进行边际化处理,生成更准确的答案。这种方法在处理复杂推理任务时表现尤为出色。
自一致性方法同样依赖于手动标注的示例,并且需要大量计算资源来生成和评估多个样本。此外,这种方法在处理具有高度不确定性的任务时,可能会面临性能瓶颈。
尽管这些现有的推理方法在一定程度上提高了LLMs的推理能力,但它们的局限性也显而易见。为了克服这些局限性,本文提出了一种新的框架——组合推理(Combinatorial Reasoning, CR),通过组合优化技术,自动生成用于推理任务的提示,从而进一步提升LLMs在推理任务中的表现。
图1:组合推理的工作流程。LLM对初始提示进行N次处理,并通过语义匹配过程对答案进行过滤,以产生具有不同原因的答案。该系综被映射到由Ising机器解决的QUBO问题中。最终解决方案确定了一组要添加到最终LLM调用提示中的原因,该调用将确定最终答案。
组合推理(CR)框架
CR框架的提出
随着生成式人工智能(Generative AI)和大型语言模型(LLMs)的快速发展,这些模型在自然语言处理任务中展现了强大的能力。然而尽管LLMs在生成自然语言文本方面表现出色,但在处理需要深度推理的任务时仍存在显著的局限性。现有的推理方法,如链式思维(Chain of Thought, CoT)和自一致性(Self-Consistency),虽然在一定程度上提高了LLMs的推理能力,但它们依赖于人工标注的示例,难以实现自动化和泛化。
为了克服这些局限性,研究团队提出了一种新的框架——组合推理(Combinatorial Reasoning, CR)。CR框架的核心思想是通过组合优化技术,自动生成用于推理任务的提示,从而提高LLMs在推理任务中的表现。具体来说,CR框架通过将从LLM管道中采样的理由映射为二次无约束二进制优化(QUBO)问题,并利用优化技术选择有用的理由子集,构建链式思维风格的提示。
CR框架的四个阶段
CR框架包括四个主要阶段:理由采样、QUBO映射、组合优化求解和最终提示创建。以下是每个阶段的详细介绍。
理由采样
在CR框架的第一个阶段,研究团队需要从LLM中采样理由。具体步骤如下:
通过上述步骤,研究团队可以得到以下集合:
这些计数是组合推理的基础,研究团队将使用它们来计算QUBO映射中所需的量。
QUBO映射
在CR框架的第二个阶段,研究团队将采样的理由映射为二次无约束二进制优化(QUBO)问题。具体步骤如下:
通过上述步骤,研究团队可以将采样的理由映射为一个QUBO问题,准备进行组合优化求解。
组合优化求解
在CR框架的第三个阶段,研究团队使用伊辛机和其他优化技术求解QUBO问题。具体步骤如下:
通过上述步骤,研究团队可以得到优化后的理由集合,为最终提示创建做好准备。
最终提示创建
在CR框架的最后一个阶段,研究团队根据优化结果创建最终的提示,并用于LLM的查询。具体步骤如下:
通过上述步骤,研究团队可以生成一个包含优化理由的提示,提高LLM在推理任务中的表现。
组合推理(CR)框架通过组合优化技术,自动生成用于推理任务的提示,克服了现有推理方法的局限性。CR框架包括理由采样、QUBO映射、组合优化求解和最终提示创建四个阶段,通过优化选择有用的理由子集,构建链式思维风格的提示,从而提高LLMs在推理任务中的表现。
实验结果与分析
实验设置
研究团队使用了GPT-3.5-turbo-0125作为实验所用的大型语言模型(LLM)。GPT-3.5-turbo是OpenAI开发的一系列模型之一,专门用于生成类人自然语言文本。该模型具有16,385个上下文窗口,并能返回最多4,096个令牌的输出。为了确保实验的公平性和一致性,研究团队选择了BIG-bench Hard(BBH)任务集进行评估。BBH任务集包含了一系列推理导向的问题,这些问题在过去对LLMs来说一直是具有挑战性的。
为了节省推理时间和成本,研究团队从每个子任务中随机抽取了50个问题,共计1350个问题,组成了一个评估集。在这个评估集上,研究团队将CR框架与以下几种方法进行比较:
在理由采样阶段,研究团队对LLM进行了N=210次采样,温度设为1,以收集足够的独立理由,并计算它们的分布和相关矩阵。相似度阈值ζ设为0.90,这一数值是通过对测试问题的经验确定的。在运行QUBO映射之前,研究团队使用Optuna框架对映射参数进行了调优,选择了最优的参数值。
图2:组合推理(CR)相对于其他方法的性能。人类和USP结果分别来自BBH和USP的出版物。USP在不同但可比较的LLM PaLM 2-M上进行评估。
实验结果
实验结果显示,CR框架在BBH任务集上的表现优于其他零样本方法。具体结果如下:
图3:具有线性CR和随机原因的二次CR(与正文相同)的基线分析。十个数据集的总体性能为二次CR:65.2%,线性CR:68.2%,随机:57.4%. 包括0次和0次CoT结果以供参考。根据0-发射CoT的性能对各个任务进行排序。
此外研究团队还进行了人工评估,验证了CR框架在每个阶段的效果。结果表明,CR框架通过优化显著减少了独立理由的数量,提高了提示的质量。
结果分析
通过对实验结果的分析,研究团队发现CR框架在不同任务上的表现具有以下优势和不足:
优势是
不足的问题是
CR框架通过组合优化技术,显著提高了LLM在推理任务中的表现,展示了其在生成式AI推理任务中的巨大潜力。然而,未来的研究仍需在计算资源优化、复杂任务处理和语义匹配改进等方面进行进一步探索,以充分发挥CR框架的优势。
研究总结
论文提出的组合推理(Combinatorial Reasoning, CR)框架,通过组合优化技术,显著提升了大型语言模型(LLMs)在推理任务中的表现。
CR框架通过将从LLM管道中采样的理由映射为二次无约束二进制优化(QUBO)问题,并利用优化技术选择有用的理由子集,自动生成用于推理任务的提示。这一方法减少了对人工标注示例的依赖,提高了提示生成的自动化程度。
通过选择有用的理由子集,CR框架能够构建链式思维(Chain of Thought, CoT)风格的提示,显著提高了LLM在推理任务中的表现。实验结果显示,CR框架在BIG-bench Hard(BBH)任务集上的平均准确率为59.88%,优于其他零样本方法。
CR框架能够适应不同类型的推理任务,通过优化选择最相关的理由,提高了提示的准确性和相关性。实验结果表明,CR框架在多个推理任务上表现优异,展示了其广泛的适用性。
通过在GPT-3.5-turbo-0125模型上进行实验,验证了CR框架的有效性。实验结果显示,CR框架在平均表现和排名上均优于其他零样本方法,证明了其在推理任务中的优势。
尽管CR框架在推理任务中表现出色,但仍有一些不足之处需要改进。例如,计算资源需求高、复杂任务表现有限以及语义匹配程序有待优化等。这些问题为未来的研究提供了方向和挑战。
CR框架在生成式AI推理任务中的应用前景广阔,未来的研究可以在以下几个方面进行探索和改进。
优化时间和准确性:进一步优化语义匹配程序,通过调整相似度阈值或采用更高级的语义匹配算法,提高QUBO映射的有效性。QUBO映射:优化目标函数的构建,增加对高阶相关性的考虑,研究图的属性和自旋玻璃的物理特性,以提高最终答案的准确性。组合优化求解器:探索使用更高效的求解器,如硬件高效的数字实现和量子求解器,通过混合策略进一步提高求解效率和准确性。
框架的泛化:将定理证明器(如Z3)集成到CR框架中,作为后处理步骤来消除冲突理由,结合概率求解器和确定性求解器的方法,在开放域问题上实现更高效的推理。与检索增强生成(RAG)的集成:将检索增强生成技术集成到CR框架中,通过语义搜索从知识库中检索相关信息,并将其作为上下文加入到理由采样过程中,提高推理的准确性和相关性。
在不同应用场景中的潜力:在金融领域CR框架可以用于风险评估、投资组合优化和市场预测等任务,通过自动生成推理提示,提高决策的准确性和效率。医疗领域:在医疗领域,CR框架可以用于疾病诊断、治疗方案推荐和医学研究,通过结合医学知识库和推理能力,提供更精准的医疗建议。法律领域:在法律领域,CR框架可以用于法律推理、案件分析和法律文书生成,通过自动生成法律推理路径,提高法律工作的效率和准确性。
组合推理(CR)框架通过组合优化技术,显著提高了LLM在推理任务中的表现,展示了其在生成式AI推理任务中的巨大潜力。未来的研究可以在优化时间和准确性、框架的泛化和不同应用场景的扩展等方面进行进一步探索,以充分发挥CR框架的优势。通过不断改进和扩展,CR框架有望在更多领域中实现广泛应用,为复杂推理任务提供更高效和智能的解决方案。(END)
参考资料: