LangChain 70 Evaluation 评估、衡量在多样化数据上的性能和完整性

LangChain系列文章

  1. LangChain 50 深入理解LangChain 表达式语言十三 自定义pipeline函数 LangChain Expression Language (LCEL)
  2. LangChain 51 深入理解LangChain 表达式语言十四 自动修复配置RunnableConfig LangChain Expression Language (LCEL)
  3. LangChain 52 深入理解LangChain 表达式语言十五 Bind runtime args绑定运行时参数 LangChain Expression Language (LCEL)
  4. LangChain 53 深入理解LangChain 表达式语言十六 Dynamically route动态路由 LangChain Expression Language (LCEL)
  5. LangChain 54 深入理解LangChain 表达式语言十七 Chains Route动态路由 LangChain Expression Language (LCEL)
  6. LangChain 55 深入理解LangChain 表达式语言十八 function Route自定义动态路由 LangChain Expression Language (LCEL)
  7. LangChain 56 深入理解LangChain 表达式语言十九 config运行时选择大模型LLM LangChain Expression Language (LCEL)
  8. LangChain 57 深入理解LangChain 表达式语言二十 LLM Fallbacks速率限制备份大模型 LangChain Expression Language (LCEL)
  9. LangChain 58 深入理解LangChain 表达式语言21 Memory消息历史 LangChain Expression Language (LCEL)
  10. LangChain 59 深入理解LangChain 表达式语言22 multiple chains多个链交互 LangChain Expression Language (LCEL)
  11. LangChain 60 深入理解LangChain 表达式语言23 multiple chains链透传参数 LangChain Expression Language (LCEL)
  12. LangChain 61 深入理解LangChain 表达式语言24 multiple chains链透传参数 LangChain Expression Language (LCEL)
  13. LangChain 62 深入理解LangChain 表达式语言25 agents代理 LangChain Expression Language (LCEL)
  14. LangChain 63 深入理解LangChain 表达式语言26 生成代码code并执行 LangChain Expression Language (LCEL)
  15. LangChain 64 深入理解LangChain 表达式语言27 添加审查 Moderation LangChain Expression Language (LCEL)
  16. LangChain 65 深入理解LangChain 表达式语言28 余弦相似度Router Moderation LangChain Expression Language (LCEL)
  17. LangChain 66 深入理解LangChain 表达式语言29 管理prompt提示窗口大小 LangChain Expression Language (LCEL)
  18. LangChain 67 深入理解LangChain 表达式语言30 调用tools搜索引擎 LangChain Expression Language (LCEL)
  19. LangChain 68 LLM Deployment大语言模型部署方案
  20. LangChain 69 向量数据库Pinecone入门

在这里插入图片描述

1. Evaluation 评估

在构建语言模型应用程序时,需要处理许多不同的部分。其中最关键的组成部分之一是确保模型产生的结果在广泛的输入范围内都是可靠和有用的,并且能够与应用程序的其他软件组件良好协作。确保可靠性通常归结为应用程序设计、测试与评估以及运行时检查的某种组合。

本节中的指南回顾了LangChain提供的API和功能,以帮助您更好地评估您的应用程序。在考虑部署大型语言模型(LLM)应用程序时,评估和测试都是至关重要的,因为生产环境要求可重复且有用的结果。

LangChain提供了各种类型的评估器,以帮助您衡量在多样化数据上的性能和完整性,我们希望鼓励社区创建和分享其他有用的评估器,以便每个人都能改进。这些文档将介绍评估器的类型、如何使用它们,以及在现实世界场景中使用它们的一些示例。

LangChain中的每种评估器类型都配备了现成的实现方案和可扩展的API,允许根据您独特的需求进行定制。以下是我们提供的一些评估器类型:

  • String Evaluators字符串评估器:这些评估器评估给定输入的预测字符串,通常与参考字符串进行比较。
  • Trajectory Evaluators轨迹评估器:用于评估代理操作的整个轨迹。
  • Comparison Evaluators比较评估器:这些评估器旨在比较对同一输入的两次运行中的预测。

这些评估器可以在各种情景中使用,并且可以应用于LangChain库中的不同链条和LLM实现。

我们还在努力分享指南和食谱,展示如何在真实世界情景中使用这些评估器,例如:

  • Chain Comparisons链条对比:这个例子使用比较评估器来预测首选输出。它回顾了测量置信区间的方法,以选择在不同模型或提示下聚合偏好得分的统计显著差异。

2. LangSmith 评估

LangSmith 提供了一个集成的评估和追踪框架,允许您检查回归问题,比较系统,并轻松识别和修复错误来源及性能问题。请查看 LangSmith 评估的文档和其他更多详细信息的cookbooks手册,以评估您的应用程序。

3. LangChain基准测试

您的应用质量取决于您选择的大型语言模型(LLM)以及您采用的提示和数据检索策略,以提供模型上下文。我们在LangChain基准测试包中发布了一系列基准任务,用于评估不同大型语言模型系统在以下任务上的表现:

  • agent代理工具使用
  • RAG检索增强型问答 Retrieval-augmented question-answering
  • 结构化提取

查看文档获取示例和排行榜信息。

参考

https://python.langchain.com/docs/guides/evaluation/

你可能感兴趣的:(LLM-Large,Language,Models,langchain,chatgpt,人工智能,prompt,python)