【文献阅读】 大模型增强的语言与知识推理

语言模型与知识图谱

1 语言模型推理与知识图谱推理

【文献阅读】 大模型增强的语言与知识推理_第1张图片

1.1 语言模型推理

  • 特性一:主要依靠神经网络在参数化空间完成,更多是一种隐式推理,缺乏可解释性
  • 特性二:与模型规模具有强关联,只有模型参数达到一定规模,才能激活推理能力。
  • 特性三:大模型的泛化能力,基于指令驱动和反馈学习等机制实现。
  • 特性四:推理过程依赖生成过程,容易产生幻觉生成问题,导致推理结果缺乏可靠性

1.2 知识图谱推理

  • 特性一:依靠显示获取的符号知识,可解释性好
  • 特性二:知识图谱的只是覆盖没有大模型广,推理过程多依赖符号计算过程,泛化能力差。
    综上,大语言模型能够解决知识图谱的泛化问题,知识图谱可以为大模型提供可解释性。

2 大模型增强的语言模型推理

【文献阅读】 大模型增强的语言与知识推理_第2张图片

2.1 方向一 增强提示中的推理策略

2.1.1 提示工程

  • 单阶段方法:直接提高文本的质量。
  • 多阶段方法:在每个推理阶段将推理过程作为上下文附加到提示中,或者为每个阶段的推理过程设计特定的提示。(常见做法,将一个复杂的问题分解成若干简单的子问题进行逐步推理)

2.1.2 推理过程优化

  • 引入一个参数化的优化器在生成答案时校准推理步骤

2.1.3 集成优化方法

  • 从多个推理过程中联合得到最终结果。
  • 迭代优化方法:整体的优化过程以迭代的方式与语言模型微调相结合。

2.2 方向二 增强提示中的知识

使用大模型中富含的隐式知识帮助模型生成知识、或者推理依据作为知识提示。

2.2.1 策略增强大模型的语言推理

目的是设计更好的推理策略增强大模型的推理表现。

2.2.1.1单阶段提示工程
  1. 使用基于模板的提示进行推理
  2. 使用思维链提示方法(考虑到大模型具有强大的上下文学习能力)
    • 思维链的缺点:通常的推理过程中,人们一般难以一次性想出完整的推理路径,解决办法就是将复杂的问题分解为多个简单的子问题。
2.2.1.2多阶段提示工程
  • Maieutic Prompting 将每个阶段的输出视为独立的新问题。
  • Least-to-most Prompting/Iteratively Prompt将每个阶段的输出添加到上下文中以提示训练模型。
  • Decomposed Prompting将任务分解为多个独立子任务,为子任务设计特定的提示。
    【文献阅读】 大模型增强的语言与知识推理_第3张图片
2.2.1.3 自优化方法

引入额外的模块来纠正推理过程。

  • Calibrator方法,利用校准器调整预测概率,校准器分数反映推理依据的真实性。
  • Human-AI方法,微调Seq2Seq模型,预测生成的推理依据是否可以接受。
2.2.1.4 集成优化方法

为克服单一推理路径的限制,集成校准多个推理路径之间的操作。

  • Self-Consistency方法,通过自然语言生成采样策略,获取多个推理路径,并且通过多数投票产生最一致的答案。
  • DIVERSE方法,考虑到每个推理出的答案并不都是正确的,引入检验器对每一个推理路径进行评分。
  • STaF方法,迭代的方法,让大模型自己生成推理步骤并自行回答问题,正确的答案和推理步骤被直接添加到用于微调的数据集中。
    【文献阅读】 大模型增强的语言与知识推理_第4张图片
2.2.1.5 借助外部工具
  • PAL的方法。将求解步骤从预训练模型中分离出来,交由程序执行。
  • Mind’s Eye方法,利用物理计算引擎模拟物理过程,使用模拟结果作为预训练模型的推理提示,弥补预训练模型的物理知识不足。
  • Toolformer方法,将计算器、搜索引擎、翻译器等工具融入模型的训练过程。
    【文献阅读】 大模型增强的语言与知识推理_第5张图片

2.2.2 知识增强大模型的语言推理

预训练模型中蕴含了相当数量的隐式知识,这些知识可以通过条件生成引出,作为知识提示增强推理能力。

  • Rainer方法,使用增强学习进一步校准生成的知识。
  • TSGP方法,两段式的方法,包括答案的生成提示。
2.2.2.1 大规模教师模型->小规模学生模型

该模式下,可以实现推理能力的迁移。这一方法基于了知识蒸馏的思想。最忌有研究表明,通过在外部语料库中检索用于上下文学习的提示,可以向模型注入显示知识,从而取得良好的性能。

  • PROMPTPG方法,基于梯度策略的动态提示检索方法。
  • Vote-k方法,一种选择性注释框架,避免需要大量标记的检所预料。
    • 该方法开发了基于图的技术。
      以上方法主要用于更加可靠地获取外部只是,并避免潜在的错误和不一致性。

2.2.3 大模型增强的知识图谱推理

知识图谱推理的基础和关键之一是对实体和关系语义的准确理解,而大模型具有强大的语义理解能力。此外,知识图谱中的一些路径对应了一些推理规则。下面展示了文本信息
【文献阅读】 大模型增强的语言与知识推理_第6张图片

2.2.3.1 增强知识图谱推理模型的文本利用能力
  • Mapping text to knowledge graph entities using multi-sense LSTMs;Enriching knowledge graph embeddings with external text;通过实体对应文本中的词对其他知识图谱进行检索,将其他图谱的部分信息放入当前图谱中,以文本为桥梁进行跨图谱的数据增强。
  • Reasoning with language model prompting: A survey:通过将文本表示空间与实体表示空间进行对齐,是文本信息隐含地传递到结构表示当中。
  • Template filling for controllable commonsense reasoning:基于或融合文本信息得到的尸体表示,使文本成为实体表示获取的来源之一。
    上述的缺点,都依赖于独立设计的文本编码或表示方法,并依赖知识图谱数据完成训练,对文本的理解常停留在浅层的文字共现特征捕捉上。
  • Large language models are zero-shot reasoners:将知识图谱推理任务转化为将三元组的实体和关系文本序列输入到预训练模型中,以预训练语言模型作为初始模型,在和知识图谱相关的新任务上进行训练。
    此时的趋势由特别设计的文本编码模型转变为以预训练语言模型为主体的模型。
  • Maieutic Prompting: Logically Consistent Reasoning with Recursive Explanations;Least-to-Most prompting enables complex reasoning in large language models:将知识图谱的推理任务,转化为文本问题,输入大语言模型,由大预言模型输出对应的预测答案。
    大模型极大地提升了知识图谱中地文本利用效率和效果,补齐了知识图谱推理方法文本理解能力弱地短板。

2.2.4 大模型增强的知识图谱结构推理

  • 关注知识图谱利用大模型实现迁移:从一个知识图谱向另一个知识图谱迁移共有的结构知识。
  • 针对出现次数较少的长尾样本,学习能力差。
    得出结论,大模型不具备从鸡和狗数据中学习规律并进行推理的较好能力。

3 总结&展望

3.1 总结

知识图谱推理的信息来源主要分为两大类:文本信息和结构信息。

  • 文本推理:大语言模型有优异的文字理解和生成能力,可以极大地弥补之前知识图谱推理模型对文本信息利用较浅地问题。
  • 结构推理:暂未表现出良好性能。

3.2 未来发展:

  • 融合LLM地语言理解能力和已有模型地结构学习能力。
  • 知识图谱预训练是一套知识图谱特有地独立地训练方法,还是基于已有大模型架构地增量预训练方法。
  • 大语言模型交互的主流方法是提示,那 么知识图谱和大语言模型交互过程中是否需要设计 一套更适合语言模型提示的交互接口,如查询推理 函数等,使语言模型和知识图谱之间的数据交互更 加自然、效果更好。

3.3 致谢

特别感谢 热心市民BIN!!!

你可能感兴趣的:(人工智能,知识图谱)