今天我们要探讨的这个问题是个非常有意思的问题,其实AI是否能识别AI生成的文章,本质上就是在玩“AI识别AI”的游戏。目前市面上的主流方法主要有以下几种:
AI写文章是靠“猜下一个词”的,这种猜法基于训练数据,所以有一定“套路”。
✅ 特征表现:
AI写作风格通常有几个“弱点”:
✔️ 有经验的人类(尤其是写作者或编辑)凭直觉就能看出“AI味”,比如你可能自己都能感觉某段话太“正经”、太“没灵魂”了。
一些研究发现,AI写的文章在统计层面上有显著差异,比如:
特征 | 人类写作 | AI写作 |
---|---|---|
平均句长 | 较有波动 | 比较一致 |
高频词比例 | 更个性化 | 接近训练集平均分布 |
情感动词使用 | 真实自然 | 更趋中性 |
这种检测方式适合大批量文章检测,精度较低,但成本低。
有些AI生成内容是“缝合怪”——拼接自已有内容或公共语料。
下面咱们就从程序员的角度,手把手讲讲AI是怎么“识破”另一段文本是AI写的?
你是一位写技术博客的程序员,文章可能是你写的,也可能是某个AI模型(比如GPT)写的。现在你要判断这篇文章是不是AI生成的。
我们可以用 transformers
库加载一个语言模型,比如 GPT2,来看看一段文本中,词语的预测概率是高是低。
⚠️ 低熵 + 高流畅性 = 更有可能是 AI 写的。
from transformers import GPT2Tokenizer, GPT2LMHeadModel
import torch
import numpy as np
# 加载模型与分词器
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
model = GPT2LMHeadModel.from_pretrained("gpt2")
model.eval()
def