论文阅读:AAAI-2024.SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientifc

SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientifc Research

SciEval 是一个基于科学原则设计的多层次评估基准,结合静态和动态数据,全面评估大型语言模型在基础知识、知识应用、科学计算和研究能力四个维度的科学研究能力。

b站视频:https://www.bilibili.com/video/BV1cqcvebEDE/

https://ojs.aaai.org/index.php/AAAI/article/view/29872

文章目录

  • Abstract
  • 1 Introduction
    • 1.1 背景
    • 1.2 SciEval 的特点
    • 1.3 SciEval 数据集特点和比较 (解读 Table 1)
  • 2 Related Work
    • 2.1 General Benchmarks for LLMs
    • 2.2 Specific Benchmarks for LLMs
  • 3 The SciEval Dataset
    • 3.1 Scientific Research Evaluation System
    • 3.2 Data Collection
      • 1. 静态数据(Static Data)
      • 2. 动态数据(Dynamic Data)
      • 3. 实验数据(Experimental Data)
    • 3.3 Data Statistics
      • 1. 静态数据统计
      • 2. 动态数据统计
      • 3. 数据划分
  • 4 Experiment
    • 4.1 Experiment Setup
      • Prompts
      • Models
      • 数据评估设置
    • 4.2 Experiment Results
      • Answer-Only Setting(直接回答设置)
      • CoT 和 3-Shot 设置的对比
    • 4.3 Discussion
  • 5 Conclusion

Abstract

论文提出了一个全新的多学科评价基准 SciEval,用于评估大型语言模型(LLMs)在科学研究领域的能力,弥补现有评估基准的不足:

  1. 现有评估基准通常依赖预先收集的客观问题,容易引发 数据泄漏 风险。
  2. 这些基准缺乏对主观问答能力的评估。

为了解决这些问题,SciEval

你可能感兴趣的:(LLMs-动态评估,论文阅读,语言模型,人工智能,自然语言处理)