GraphRAG革命性突破!美国Cedars-Sinai医疗中心揭秘:知识增强大模型如何重塑阿尔茨海默病基因研究与治疗?

摘要:

随着阿尔茨海默病患者人数不断攀升,Cedars-Sinai医学中心通过知识图谱和AI技术,打造了AlzKB阿尔茨海默病知识库,用以推动新型病因和药物的发现。本文详解这些前沿工具如何结合,赋能专业人士实现高效科研转化,为认知障碍领域带来突破

正文

据估计,690 万 65 岁及以上的美国人患有阿尔茨海默病。如果没有重大的医学突破,预计到 2060 年,美国这一数字将上升到 1380 万,到 2050 年全球将上升到 1.39 亿。人类正在付出巨大的努力来防止这些数字成为现实,但到目前为止进展缓慢,挑战仍然令人生畏。

在与阿尔茨海默病的斗争中,我们现在可能有一个强大的新盟友:AI。然而,真实的故事不仅仅是关于 AI 实现某种神奇的突破。它是关于医疗保健提供者和医学研究人员如何将 AI 与先进的软件工具和数据库技术相结合,尤其是知识图谱和 GraphRAG(图检索增强生成)。

这些技术有望彻底改变 AI 提供准确、上下文相关见解的方式,增强其潜力,远远超出 AI 本身所能实现的。

GraphRAG革命性突破!美国Cedars-Sinai医疗中心揭秘:知识增强大模型如何重塑阿尔茨海默病基因研究与治疗?_第1张图片

帮助发现隐藏的模式

领导这项工作的是 Cedars-Sinai 医疗中心,它是美国最大的非营利性学术医疗中心之一。Cedars-Sinai 的研究人员正在利用图形技术来推动他们所说的“知识感知”自动化机器学习,专注于阿尔茨海默病研究的两个关键领域:发现以前被忽视的潜在遗传线索,以及在我们的药典中识别可以重新利用的现有药物,以增强可用于阿尔茨海默病的治疗库。

GraphRAG革命性突破!美国Cedars-Sinai医疗中心揭秘:知识增强大模型如何重塑阿尔茨海默病基因研究与治疗?_第2张图片

目标不是为了研究而研究,而是推动治疗创新。该中心关注这一点的第一个成果是 AlzKB,这是一个可公开访问的阿尔茨海默病知识库。AlzKB 被用于指导机器学习系统获得可能无法检测到的见解,或者人类研究人员需要几十年才能独立发现。

Cedars-Sinai 计算生物医学系 AlzKB 工作的负责人 Jason Moore 解释说:“我们的目标是为机器学习提供信息,以便它能够更好地完成特征选择、模型选择和模型解释等工作。

为了实现这一目标,AlzKB 建立在 20 多个不同的知识来源之上,结合了对基因的见解、已知的与阿尔茨海默病的遗传联系、基因与药物之间的关系,以及更广泛的生物学背景,如生化途径、症状等。

当前版本包含 234,000 个节点和 167 万个概念之间的“边”(关系),所有这些都围绕详细的阿尔茨海默病本体论(数据字典)构建,这有助于系统了解不同实体如何连接、哪些药物可以治疗阿尔茨海默病、一个基因如何调节另一个基因以及这些影响如何级联。

特别令人兴奋的是,该团队通过特意集成大型语言模型 (LLM) 和检索增强生成 (RAG) 等先进技术,将 AlzKB 设计为具有广泛用途。这意味着研究人员和临床医生不需要说像 Cypher 这样的专业语言来提取见解;他们可以简单地用简单的英语提问。

这是通过自定义解释层实现的,该层充当核心 LLM 和知识图谱内复杂数据之间的桥梁。正如 Jason Moore 所说:“我们希望我们的生物学和临床用户能够查询知识库,而无需学习编程来查询知识图谱。

在没有图谱技术的帮助下,LLM 并不比抛硬币更准确

当然,这样做的第一站是公开可用的 LLM,但 Moore 非常清楚,如果他尝试一种标准的、开箱即用的方法,会发生什么。

“这导致我们研究了 ChatGPT,但我们没想到 ChatGPT 能很好地解决这个特定问题,”他说。

为什么? 因为现成的 LLM 根本无法理解团队构建的知识图谱中的内容。知识图谱是无数数据(连接、上下文和关系)的高阶综合。该上下文在公共领域中不存在,其形式是可搜索的或结构化的,任何 LLM 都无法接受训练。

“ChatGPT 可以回答有关基因、药物或阿尔茨海默氏症的问题,但它无法真正将所有这些实体放在一起并以任何方式完整地理解它们之间的关系。”

然而,真正破坏交易的是,所有这些限制加起来就是一件严重的事情:对于关键的阿尔茨海默病研究或治疗问题,该系统并不可靠。正如 Moore 所说,“ChatGPT 开箱即用并不比在回答问题时抛硬币更好

GraphRAG革命性突破!美国Cedars-Sinai医疗中心揭秘:知识增强大模型如何重塑阿尔茨海默病基因研究与治疗?_第3张图片

更好的基于图谱的方法

然而,通过将知识图谱的强大功能与 GraphRAG 集成,并将其与 Hugging Face 最近的一项创新(称为 Graph of Thoughts)相结合,Cedars-Sinai 从根本上提高了其自然语言界面的有效性,释放了 AlzKB 旨在提供的更多洞察力和情报。

“图谱为我们提供了比任何其他方式都更高层次的知识综合,”他解释说。换句话说,知识图谱不仅存储事实,而且实际上帮助知识库对事实进行推理,将碎片转化为真正的见解。

但是,尽管研究人员查询 AlzKB 之类的东西很强大,但真正的突破可能在于 Moore 和他在 Cedars-Sinai 的同事在发展机器学习本身方面取得的进步,尤其是机器学习,它不仅基于数据,而且基于对阿尔茨海默病的细致、生物学的理解。

“已经有很多关于阿尔茨海默病的大规模遗传研究,从这些非常大的患者数据集中,科学迄今已经确定了人类基因组中 20,000 个基因中的大约 100 个是阿尔茨海默病的危险因素,”他说。

摩尔说,其目的是揭示新的遗传风险因素,并最终发现治疗阿尔茨海默病的新药。但是,他并没有走这条老路——全球研究已经强烈关注与这种疾病相关的前 100 个基因和已知的药物线索目录——而是有意识地寻找其他地方。

用于描述这种方法以及 AI 如何在新颖且希望有趣的领域支持搜索的隐喻是可见和迄今为止不可见之间的区别。“很多人都在已知基因的灯柱下寻找,”他说。“我感兴趣的是在黑暗中的'那里'的新发现。”

使用知识图谱为机器学习提供信息

实际上,这意味着使用知识图谱来改进 Cedars-Sinai 正在开发的自动化机器学习管道中特征的选择方式,其影响是巨大的。

即使在这些早期阶段,这项研究也揭示了以前被忽视的阿尔茨海默病的遗传因素,并指出了一种诱人的可能性:常见的日常药物——如通常用于治疗失眠(阿尔茨海默病的常见症状)的替马西泮,甚至是用于治疗头痛的布洛芬——可能会被重新利用或重新设计,以从根本上治疗这种疾病。

对 Moore 来说,这种图形、高级数据分析和 AI 本身相结合的重要性具有重大意义。“我认为我们已经展示了如何定制大型语言模型并准确查询大型阿尔茨海默病数据库,”他说,“还展示了我们如何利用知识图谱中的知识来为机器学习提供信息,从而为我们提供治疗这种疾病的新思路。

图谱能否让我们更接近AI个性化、优化的医疗研发?

下一个前沿领域是全自动机器学习系统,同样由知识图谱提供支持。很快,AlzKB 用户将能够输入提示,例如“向我展示与这种药物和这种疾病相关的基因”或“创建仅包含这些特定基因的数据集”,然后让 AI 接管。从那里,它将运行算法,突出最重要的特征,并提供清晰、可解释的输出,科学家可以立即采取行动——加速当今阿尔茨海默病研究的真正进展,而不是将来。

你可能感兴趣的:(人工智能,大模型,chatgpt,语言模型,ai,大模型学习,大模型教程)