【深度学习新浪潮】什么是system 1和system 2?

【深度学习新浪潮】什么是system 1和system 2?_第1张图片

在大模型研究中,System 1和System 2的概念源于心理学家Daniel Kahneman的双系统理论,用于描述人类思维的两种模式。System 1代表快速、直觉、自动化的思维(如模式识别),而System 2代表慢速、有意识、需要努力的逻辑推理(如复杂数学计算)。这一理论被引入AI领域后,成为理解大模型能力边界和优化方向的重要框架。

一、大模型中的System 1与System 2的定义

  1. System 1(快速生成)
    指大模型直接基于输入生成响应,无需显式中间推理步骤。例如,GPT-4等模型在默认状态下通过Transformer直接输出结果,擅长快速回答简单问题或生成连贯文本,但在复杂逻辑任务中可能出错。这类模型的内部计算以向量形式隐式进行,难以处理符号推理等需要离散决策的任务。

  2. System 2(慢速推理)
    指模型通过生成中间token(如思维链、分步推导)或多次调用LLM进行复杂推理。例如,思维链(CoT)要求模型先输出推理步骤再给出答案,系统2注意力通过两次提示消除偏见,分支-解决-合并(BSM)则通过多路径探索优化决策。这类方法显著提升了数学、逻辑等任务的准确率,但通常伴随更高的计算

你可能感兴趣的:(深度学习新浪潮,深度学习,人工智能,大模型,推理模型,COT,模型蒸馏,动态推理)