CoT引爆LLM推理大战：Denny Zhou力挺无极限

2024-09-23

近年来，人工智能领域的发展速度令人瞩目，特别是在长序列模型（LLM）的研究进展中，CoT（Chain of Thought）概念的提出和应用，被认为是推动AI向更高智能迈进的一个重要步骤。然而关于CoT是否真的能够成为通向AGI（强人工智能）的桥梁，学界尚存在分歧。

具体来看，CoT的核心思路是通过生成一系列的中间推理步骤，帮助模型表达和解释其决策过程，类似于人类在面对问题时的思考过程。这种方式在一定程度上帮助模型提升了处理复杂推理任务的能力，甚至在某些任务上展现出了超越人类的表现。

例如，谷歌DeepMind的首席科学家Denny Zhou近期公开了一项研究，展示了CoT在提升Transformer模型处理问题能力上的潜力。研究指出，通过足够多的CoT步骤，Transformer几乎可以解决任何问题，这对于推动模型的应用范围具有重要意义。

但同时，这一理论也引发了一些批评。诸如田渊栋和Yann LeCun等业界知名人士对于CoT的热情持谨慎态度。他们认为，虽然CoT理论上显示了无限的可能，但实际应用中其效率和实用性仍有待观察，特别是在模型需要处理极其复杂或未曾见过的问题时，CoT的实际效果可能并不理想。

田渊栋在一次讨论中指出，尽管通过构建特定权重可以使Transformer模拟任何逻辑过程，但这种方法在实际应用中可能会面临链条过长、计算资源消耗巨大的问题。这意味着，在没有充足计算资源的情况下，模型的效能可能大打折扣。

LeCun也表达了类似观点，他通过比喻解释了只因理论上可行，并不意味着实际中也高效。他举例说，在理论上，简单的2层神经网络可以逼近任何函数，但这并不意味着我们总应使用它来处理各种复杂问题。