【阿里云大模型高级工程师ACP习题集】2.4 自动化评测答疑机器人的表现(⭐️⭐️⭐️ 重点章节!!!)

习题集:

  1. 【单选题】在使用Ragas评估RAG应用时,Answer Correctness指标计算中,语义相似度是通过以下哪种方式得到的?( )
    A. 大模型直接判断
    B. 计算文本向量的余弦相似度
    C. 对比文本词汇重合度
    D. 统计文本字数差异

  2. 【多选题】当Context recall指标得分较低时,可采取的优化措施有( )。
    A. 检查知识库内容是否完备
    B. 更换性能更强的大模型
    C. 更换embedding模型
    D. 改写query

  3. 【单选题】在评估RAG应用检索召回效果时,Context precision指标侧重评估的是( )。
    A. 检索到的参考信息与问题的相关性
    B. 检索到的参考信息中与准确答案相关条目的排名和占比
    C. 有多少相关参考资料被检索到
    D. 生成的答案与检索到的参考资料的事实一致性

  4. 【多选题】以下哪些是Ragas中用于评估生成环节的指标?( )
    A. Answer Correctness
    B. Answer Relevancy
    C. Faithfulness
    D. Context Recall

  5. 【单选题】在计算Answer Correctness指标的事实准确度时,Ragas通过大模型将answer与ground_truth分别生成各自的观点列表,对于生成的观点,若在对方观点列表中找不到依据,会被添加到( )。
    A. TP列表
    B. FP列表或FN列表
    C. 仅FP列表
    D. 仅FN列表

  6. 【多选题】关于自动化测试机制,以下说法正确的有( )。
    A. 可以完全替代人工评估
    B. 大模型可用于检测答疑机器人的回复是否准确回答了问题
    C. 目前已有的简单测试方法能完美检测大模型的幻觉问题
    D. 可通过建立测试机制自动对一批问题进行测试

  7. 【单选题】在使用Ragas计算Context recall指标时,其计算过程中由大模型将ground_truth分解成观点列表,若ground_truth为“张伟是教研部的成员且负责大数据课程”,可能生成的观点列表是( )。
    A. [“张伟是教研部的成员且负责大数据课程”]
    B. [“张伟是教研部的成员”, “负责大数据课程”]
    C. [“张伟”, “教研部”, “大数据课程”]
    D. [“张伟是教研部的”, “张伟负责大数据课程”]

  8. 【多选题】在基于Ragas指标的优化策略中,当Answer correctness指标得分较低,而Context recall和Context precision分数较高时,可尝试的优化方法有( )。

你可能感兴趣的:(学习笔记,阿里云,人工智能,大模型,ACP认证,模拟题)