大型语言模型的生物医学知识图优化提示生成

大型语言模型的生物医学知识图优化提示生成

大型语言模型的生物医学知识图优化提示生成_第1张图片

https://arxiv.org/abs/2311.17330
https://github.com/BaranziniLab/KG_RAG
大型语言模型的生物医学知识图优化提示生成

摘要

KG-RAG框架,较好的结合了生物医学知识图谱SPOKE和LLM的优势。SPOKE是一个开放知识图谱,提供数据下载和开放API,整合了超过40个公开可用的生物医学知识源,涵盖了基因、蛋白质、药物、化合物、疾病等概念和概念之间的关系,可以为LLM提供一个强大的医疗领域知识。
研究人员对KG-RAG框架进行了广泛的测试,包括单跳和双跳提示、药物再利用查询、生物医学真假问题和多项选择题。结果表明,KG-RAG显著提高了LLMs的性能,特别是在具有挑战性的多项选择题数据集上,LLMs都取得了较大的提升。此外,KG-RAG还能够提供有意义的药物再利用建议,并在回答中体现出对临床试验必要性的谨慎态度。
大型语言模型的生物医学知识图优化提示生成_第2张图片

工作原理

KG-RAG框架的工作原理包括以下步骤:
1.实体识别:从用户输入的query中识别出疾病实体,然后在SPOKE知识图谱中找到相应的节点。
2.上下文提取:从SPOKE知识图谱中提取与疾病节点相关的上下文信息,并将其转换为自然语言。
3.提示组装:将提取的上下文与原始prompt结合。
4.文本生成:使用LLM(如Llama-2-13b、GPT-3.5-Turbo或GPT-4)生成有意义的生物医学文本。

实体识别

区别于用小模型去做NER,KG-RAG里使用LLM识别实体。

  1. 实体抽取(Disease Entity Extraction)
    在KG-RAG框架中,这一过程是通过零样本提示(zero-shot prompting)实现的。研究人员设计了一个高效的抽取prompt,引导大型语言模型(如GPT-3.5-Turbo)从输入文本中提取疾病实体,并将结果以JSON格式返回。
def disease_entity_extractor_v2(text):  
    chat_model_id, chat_deployment_id = get_gpt35()  
    prompt_updated = system_prompts["DISEASE_ENTITY_EXTRACTION"] + "\n" + "Sentence : " + text  

你可能感兴趣的:(预训练模型,语言模型,人工智能,自然语言处理)