Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

一、文章主要内容总结

本文聚焦于评估大型语言模型(LLMs)对英国政府公共卫生信息的掌握情况,核心内容如下:

  1. 背景与目标
    • 随着LLMs的普及,其在公共卫生领域的信息准确性至关重要,但目前缺乏针对英国政府公共卫生指南的评估。
    • 开发新基准 PubHealthBench,包含超8000道多选题(MCQA)和开放式问答,用于评估LLMs对英国公共卫生指南的知识水平。
  2. 数据与方法
    • 数据集:从英国政府网站收集1150份公共卫生指南文件,处理为687份Markdown格式文档,涵盖10大主题和352个指导领域。
    • 基准生成:通过自动化流程生成MCQA问题,利用LLM分类、过滤无效问题,并引入人工审核确保质量。
    • 评估模型:测试24个LLMs(包括GPT-4.5、o1等),对比多选题和开放式回答的表现,同时设置人类基线(使用搜索引擎的非专家人类准确率88%)。
  3. 关键结果

你可能感兴趣的:(LLM,Daily,人工智能,语言模型)