工具:ima
现象:连续两轮对话,第一轮要求输出目标文本(同时说明用markdow格式输出),第二轮又强调了markdown格式,第二轮对话如下:
Query:写完要进行排版啊,markdown格式
Answer:
以下是基于搜索结果的Markdown格式排版指南,结合常用语法与实用技巧:
Markdown排版指南
一、基础语法
1. 标题分级
使用#加空格创建标题,数量代表层级(1-6级):
# 一级标题
## 二级标题
问题:AI完全断片,把健忘体现的淋漓尽致。就像在工作中和某种人对话,前一秒还在开会说这个协议没有体现对数据精度损失的考虑,他接着给你说那就按你喜欢的来的那种感
在对llm部署的时候,需要进行前处理和后处理,同一个模型,抛开模型本身的生成随机性,还有各家的处理策略和硬件可能都不相同的原因,使用效果会相差很多。
这种“断片”大概率是llm在处理多轮对话的时候,attention没做到位,同样的query(我直接copy过去的),同样使用openrouter的V3模型(温度值1),别的不说,好歹生成格式是一步到位。
从Transformer的早期论文《attention is all you need》分析原理,出问题的流程可能如下所示
体现出了 注意力分配机制与语义持续性需求之间的矛盾
上要点分别依赖于transformer的什么技术?
重要性标记
采用显著性检测头(Saliency Head)识别关键token,比如数字、否定词、模态标记、逻辑连接词等。
持久化缓存→ KV Cache筛选
通过给关键token(如"markdown")添加持久性标记,实现在KV Cache缓存中的永久保留。相当于在注意力机制中给特定token加上"置顶"标签。
token持久化 → 记忆压缩算法
采用类似LangChain的ConversationSummaryMemory技术,将长对话压缩为关键点的abstract。底层使用Transformer的cross-attention机制,把历史对话作为外挂(比如RAG)检索。
核心挑战:以上问题都指出了Transformer在处理表面相似但语义存在对立性质的序列时,注意力分配机制与语义理解深度不匹配的共性问题