LLMs:LLMs大语言模型评估的简介(两标(NLUGR指标/REBT)+六性(理解性+生成性{PPL}+多样性+泛化性+能耗性+可解释性)+九维(2大能力域【理解/生成】+3性【丰富性/多样性/适应性】+4大子任务【逻辑推理/问题解决/对和聊天/情感分析】),大模型排行榜多种),两类基准——通用任务的基准(单任务【BLEU/ROUGE-MT-Bench/Chatbot Arena】、多任务【SuperGLUE/MMLU/BIG-bench/HELM/AGIEval/C-EVAL/Xiezhi】、基于工具【API-Bank/ToolBench】)、特定下游任务基准(MATH/CUAD/MultiMedQA/GaoKao/SOCKET/CVALUES)之详细攻略
目录
相关文章
NLP:自然语言处理常用任务简介(七大任务/两大层次(顶层5种+底层4种)/LLMs四大类)、GLUE基准(通用语言理解评估,四类九个)和SuperGLUE基准的简介(国内系列/国际系列)使用方法之详细攻略
LLMs:大型语言模型评估研究综述—理解智能本质(具备推理能力)、AI评估的重要性(识别当前算法的局限性+设计更强大模型的关键工具)、评估LLMs的四大意义、三维度(What+Where+How)综述LLMs评估、LLMs大语言模型的三大关键(Transformer+RLHF+提示工程)、评估LLMs任务五大类(NLURG+REBT+SS+NS+MA+Agent)、基准测试的两类(通用任务/特定下游任务)、评估的两种方式(自动/人工)、LLMs的成功(四类)与失败(四类)案例、未来七大机遇(设计AGI基准测试+完整的行为评估+鲁棒性评估+动态与演进的评估【LLMs的记忆性导致训练数据污染】+审查评估系统本身+统一评估+超越评估)
LLMs:《A Survey of Large Language Models大语言模型综述》的翻译与解读(四)之三大使用(ICL+CoT+PCT)、能力评估三种类型(基本+高级+基准)、提示设计实践指南、五大应用场景、总结与未来方向
LLMs大语言模型评估的简介
1、大模型的评估的概述
1.1、两标(NLUGR指标/REBT指标)
1.2、六性(理解性+生成性+多样性+泛化性+能耗性+可解释性)
(1)、PPL指标(可作为文本生成能力指标但不绝对【因标点符号和助词非常影响PPL大小】,若PPL=15即模型生成下一个词平均有15个待选项):【1~优秀~10~GPT家族~50~一般~100~∞】
LLMs之PPL:解读多个权威文档(比如huggingface)中对PPL(困惑度)的定义、PPL的多种计算方式、多种代码实现
(2)、BLEU/ROUGE/BERTScore
LLMs:文本生成任务常用的评估指标(BLEU/ROUGE/BERTScore等)的简介(核心原理+实现思路+实现代码)、使用方法、案例应用之详细攻略
1.3、衡量大模型水平的9大维度(2大能力域【理解/生成】+3性【丰富性/多样性/适应性】+4大子任务【逻辑推理/问题解决/对和聊天/情感分析】)
2、Open LLM Leaderboard大模型排行榜:基准自动测试综合平台
2023年5月Hugging Face社区的Open LLM Leaderboard排行榜,包括OpenLLM评估基准
2023年5月lmsys组织的Chatbot Arena排行榜
LLMs之Leaderboard:Chatbot Arena的简介、使用方法、案例应用之详细攻略
LLMs的常见评估基准
1、通用任务的基准:早期LM解决单任务→当前的LLMs解决多任务
A1、单任务评估基准BLEU/ROUGE)
LLMs:文本生成任务常用的评估指标(BLEU/ROUGE等)的简介(核心原理+实现思路+实现代码)、使用方法、案例应用之详细攻略
2001年IBM提出,BLEU(评估机器翻译质量)
2004年南加州大学提出,ROUGE(摘要评估)
2023年6月9日lmsys组织提出,对话评估(与人类偏好之间的一致性)—MT-Bench(多轮对话+0.3W专家投票)、Chatbot Arena(众包式对战平台+收集用户参的投票+3W人类偏好对话)
LLMs之Leaderboard:Chatbot Arena的简介、使用方法、案例应用之详细攻略
A2、多任务评估基准(SuperGLUE/MMLU/BIG-bench/HELM/AGIEval/C-EVAL)
2019年纽约大学+华盛顿大学+Deepmind,通用语言理解评估:GLUE/SuperGLUE基准,2019年ICLR
中文基准CLUE
NLP:自然语言处理常用任务简介(七大任务/两大层次(顶层5种+底层4种)/LLMs四大类)、GLUE基准(通用语言理解评估,四类九个)和SuperGLUE基准的简介(国内系列/国际系列)使用方法之详细攻略
2020年9月UC Berkeley,大规模多任务语言理解:MMLU基准(多领域知识+偏理解+GPT-4吊炸天)
国际基准MMLU,UC Berkeley
LLMs:MMLU基准(大规模多任务语言理解)的简介(MMLU-ZS/MMLU-FS)、安装、使用方法之详细攻略
中文基准MMCU
2021年4月7日Facebook团队,DynaBench(动态基准测试,众包评估),
2022年6月谷歌,超越传统的图灵测试:BIG-bench基准(评估超越现有LLMs能力的任务,包含204个挑战性任务集合),谷歌
NLP:BIG-bench基准任务的简介、安装、使用方法之详细攻略
2022年11月斯坦福大学,语言模型的整体评估:HELM基准(各方面评估,16个场景和7类指标,如语言理解+生成+连贯性+常识推理+特定领域等),
2023年4月微软,标准化考试基准:AGIEval(多领域知识+评估以人为中心的标准化考试)
2023年5月上交清华,综合性的中文基础模型评估:C-EVAL(多学科+难度级别),
C-Eval指标—评估的实现过程:官方推荐使用 5-shot 的方式来让模型知道如何输出答案
2023年6月9日复旦大学,Xiezhi(评估不同任务和领域+理解模型固有局限性,13学科门类+516门学科+250w条数据)
2023年6月9日斯坦佛大学,AlpacaEval(自动评估基准,快速廉价+促进不同领域的发展),
2023年6月15日清华大学,KoLA(评估LLMs的语言理解和推理能力+19个任务+四级知识),
2023年6月23日腾讯优图实验室和厦门大学,MME(多模态大型语言模型的全面评估基准,如精心设计的指令-回答对)
A3、超出标准性能的任务
2022年11月15日西湖大学,GLUE-X(创建一个统一的基准测试+13个数据集+21个常用PLMs+8个经典NLP任务,强调评估NLP模型OOD场景的鲁棒性)
2023年6月7日微软研究院+中科院等,PromptBench(评估提示工程+4K提示+8个任务+13个数据集+56W测试样本)、
2023年6月8日北京大学+西湖大学等,PandaLM(区分更优模型+客观正确性和主观因素+基于人工生成的上下文)
A4、使用工具增强LLMs的评估基准
2023年4月14日阿里达摩院+北京大学,API-Bank(利用API增强LLMs,包含一个全面的工具增强LLM工作流【568个API调用】)
2023年5月清华大学,ToolBench(开源工具学习基准+使模型有效地利用通用工具的功能)
其它
LLM之Benchmark之LooGLE:LooGLE(用于 LLM 长上下文理解的长上下文通用语言评估基准)的简介、安装和使用方法、案例应用之详细攻略
2、特定下游任务的基准
A1、常规任务
2021年3月5日UC Berkeley,MATH(评估数学领域推理和解决问题的能力+1.2W个数学问题)
2021年3月10日UC Berkeley,CUAD (解释法律合同+10位法律专家+1.3W的注释)
2021年5月20日,APPS(评估代码生成+衡量LM根据自然语言规范生成python代码的能力+1W个问题)
2022年12月26日,Google+DeepMind,MultiMedQA(医学QA+评估LLMs临床知识和QA能力)
2023年5月21日复旦大学和华东师范大学,GAOKAO-Bench(来自中国高考试题+两类(主观和客观),衡量复杂和情境特定中的任务)
2023年5月24日密歇根大学+东北大学+剑桥大学,SOCKET(理解社交语言+评估社会知识概念,5个类别+58个任务)
2023年6月8日阿里达摩学院,M3Exam(多语言+人类考试+独特而全面的评估框架,9种语言+1.2W问题+3个教育层次)
2023年7月19日阿里巴巴+北交,CVALUES (评估与人类价值观一致性+人性化的评估基准+10个场景+8个领域,侧重安全+责任)
LLMs大语言模型评估的使用方法