Tracing the thoughts of a large language model【追踪大型语言模型的思维】

像 Claude 这样的语言模型不是由人类直接编程的——相反,它们是在大量数据上进行训练的。在训练过程中,它们学习自己的解决问题策略。这些策略被编码在模型为每个单词执行的数十亿次计算中。对于我们这些模型开发者来说,这些策略是难以理解的。这意味着我们不理解模型如何完成它们大多数的任务。

了解像 Claude 这样的模型如何思考,将使我们更好地理解它们的能力,并帮助我们确保它们按照我们的意图行事。例如:

  • Claude 可以说几十种语言。它“脑海中”使用的是哪种语言(如果有的话)?

  • Claude 一次写一个词。它是否只专注于预测下一个词,还是会提前规划?

  • Claude 可以逐步写出其推理过程。这种解释是否代表了它得出答案的实际步骤,还是有时在为既定结论编造一个合理的论据?

我们从神经科学领域汲取灵感,该领域长期研究思考生物体内部的复杂结构,尝试构建一种人工智能显微镜,使我们能够识别活动模式和信息流。仅仅通过与人工智能模型对话,你能学到的东西是有限的——毕竟,人类(即使是神经科学家)也不了解我们自己大脑的所有细节。所以我们选择深入内部观察。

今天,我们分享了两篇新论文,代表了“显微镜”开发的进展,以及其在观察新的“人工智能生物学”中的应用。在第一篇论文中,我们扩展了之前定位模型

你可能感兴趣的:(LLM,语言模型,人工智能,自然语言处理)