KAG框架在E-Health问答中的应用

高质量知识图谱(KG)构建

  • 实体与关系的精准定义:使用强约束模式对疾病、症状、药物、医学检查等实体进行精确结构化定义。这种精确的结构化定义有助于提高回答问题的准确性,同时确保实体间关系的严谨性。

  • 领域术语与概念注入:利用医学专家整理的权威医学术语和概念知识,通过迭代提取的方式,增强知识图谱中领域术语和概念的覆盖度,减少知识颗粒度差异带来的噪声问题。

逻辑形式引导的推理引擎

  • 逻辑形式生成与转换:根据用户的医学问题,生成相应的逻辑形式,并将其转化为可执行的DSL(Domain Specific Language)形式,用于在知识图谱上进行查询。

  • 规则触发与答案生成:在解析逻辑形式进行图查询时,触发由医学专家预先编写的规则,这些规则会根据查询结果返回以三元组形式呈现的结论。

语义增强

  • 同义词和上位词关系构建:在知识构建和用户问答阶段,利用术语集表达概念的同义词和上位词语义关系,支持基于术语的实体对齐。

  • 医学术语对齐:将实体与医学术语进行对齐,以便在用户提问时能够更准确地检索和生成相关信息。

模型能力增强

  • 自然语言理解(NLU):通过收集多个公开数据集并进行大规模指令重构,设计多样化的指令合成策略,创建包含超过20,000条不同指令的NLU指令数据集,对基础模型进行监督微调,增强模型在下游任务中的NLU能力。

  • 自然语言推理(NLI):基于收集的高质量概念知识库和本体论,构建包含六种不同类型概念推理指令的训练数据集,提升给定基础模型的语义推理能力。

  • 自然语言生成(NLG):采用K-Lora和AKGF两种高效的领域定制微调方法,使生成过程更符合场景预期。

检索增强

  • 多轮反思机制:引入多轮反思机制,当问题无法通过初始检索结果得到解答时,生成补充问题并进行迭代求解,直到全球记忆中有足够的信息。

  • 混合检索策略:结合稀疏检索和密集检索方法,充分利用LLMFriSPG的层次化表示,通过符号图结构引导的事实和文本知识检索,提高检索的准确性和召回率。

应用效果

  • 高准确率:在评估集上,KAG支持的E-Health问答应用实现了60.67%的召回率和81.32%的精确率,在特定医学问答场景中,如医疗保政策查询(北京、上海、杭州),准确率达到77.2%,医学科普意图的准确率超过94%,指标解释意图的准确率超过93%。

你可能感兴趣的:(人工智能,深度学习,机器学习)