论文待阅读(LLM+CoT):Self-Consistent-保证生成结果的一致性

发布网友

共1个回答

热心网友

SCOTT: Self-Consistent Chain-of-Thought Distillation

文章提出了一种名为SCOTT的方法，通过自洽的知识蒸馏，学习小型、自洽的Chain-of-Thought (CoT)模型，从大规模教师模型中学习。方法通过对比解码从大型语言模型中引出支持黄金答案的基本原理，并鼓励模型在考虑答案时生成更可信的标记。此外，通过使用教师生成的基本原理来学习具有反事实推理目标的学生模型，以确保模型在做出决策时更尊重基本原理。实验结果显示，这种方法在保持与基线相似的最终任务性能的同时，可以生成比基线更忠实的CoT基本原理，有助于提高模型性能。

Amazon提出 | SCOTT：一致性思维链蒸馏

文章提出了一种名为SCOTT的方法，通过使用一种称为“自洽”的新解码策略，取代传统的思想链提示中的天真贪婪解码。该方法通过采样一组多样化的推理路径，而不是只选取贪婪的一条路径，然后通过边缘化采样的推理路径来选择最一致的答案。这种方法利用了复杂推理问题通常存在多种思维方式的直觉，从而导出唯一的正确答案。广泛的实证评估表明，这种方法在一系列流行的算术和常识推理基准上取得了显著优势。

ICLR 2023 | Self-Consistency: Google超简单方法改善大模型推理能力

文章提出了一种名为Progressive-Hint Prompting (PHP)的方法，通过使用先前生成的答案作为提示，实现用户和大规模语言模型之间的自动多重交互，以逐步引导正确的答案。这种方法与Chain-of-Thought (CoT)和自我一致性正交，易于与最先进的技术结合，以进一步提高性能。在七个基准测试中，PHP显着提高了准确性，尤其是在GSM8K、SVAMP、AQuA、StratomeQA和ARC挑战任务上，与现有方法相比，性能提升显著。

Complexity-Based Prompting for Multi-Step Reasoning

文章研究了提示大规模语言模型执行多步骤推理的任务，提出了基于复杂性的提示方法。这种方法通过选择具有更高推理复杂性的示例，即具有更多推理步骤的链，来提高强基线上的多步骤推理任务性能。进一步将基于复杂性的标准从提示扩展到解码，从模型中对多个推理链进行采样，然后从复杂的推理链中选择大部分生成的答案。这种方法在数学基准、多步骤问答和复杂推理任务上实现了新的最先进的性能。

Faithful Chain-of-Thought Reasoning

文章提出了忠实的CoT，这是一个忠实的构造框架，将推理任务分解为翻译和问题解决两个阶段。翻译阶段使用自然语言查询和推理链，问题解决阶段使用推理链和答案。这种方法在来自不同领域的10个推理数据集上展示了有效性，与传统的CoT提示相比，忠实的CoT在多数数据集上表现出更好的性能，尤其是在贪心解码下。

Self-consistency for open-ended generations

文章提出了一种改进大规模预训练语言模型生成输出质量和一致性的新方法，名为自我一致性。该方法在具有固定答案的问题中应用自我一致性的选择投票，以恢复最优或接近最优的生成。此外，文章还提出了一种轻量级无参数相似函数，即使在没有访问令牌日志概率的情况下，也能在代码生成、自动形式化和摘要任务中显示出显着和一致的改进。

以上是关于CoT一致性探索的论文，包括SCOTT、Amazon提出的SCOTT、Google的自我一致性方法、基于复杂性的提示、忠实的CoT以及自我一致性生成方法。这些论文共同探索了如何利用CoT和自我一致性来增强大规模语言模型的推理能力，并在不同领域展示了显著的性能提升。

热心网友

全部栏目

论文待阅读(LLM+CoT):Self-Consistent-保证生成结果的一致性