当我们谈论构建大语言模型时,脑海中浮现的往往是服务器、GPU 和Transformer,而很少想到成千上万的普通人也在默默贡献力量。
这背后依赖的机制就是:众包(Crowdsourcing)。
早在20世纪初,统计学家 Francis Galton 就做过一个著名实验:
在一个乡村集市上,800多人被邀请猜测一头牛的体重。结果发现:
单个参与者的误差较大,但所有猜测的平均值却几乎精确命中真实重量。
这个实验揭示了一个重要现象:
每个人或许带着偏见,但平均偏见能彼此抵消,留下更接近真相的“群体智慧”。
这就是众包的哲学基础,也是现代 AI 标注平台、问卷系统乃至 GPT 训练中人类反馈(RLHF)的底层逻辑。
众包的形式远比你想象的丰富,它远远超出了“雇人打标签”这么简单。我们可以将主流的众包形式分为六类:
典型平台如 Amazon Mechanical Turk(MTurk)、Appen、Figure Eight(现已并入 Appen)。
用户完成:
适用特点:
一种设计精巧的方式:把标注任务伪装成**“游戏”**。
例如:
**核心逻辑:**参与者享受游戏,系统悄悄收集结构化数据。
典型如 Kaggle、Zindi、AIcrowd:
虽然这不是传统意义的“标注”,但也是数据构建不可忽视的一环:
众包从“做标签”转向了“做模型”。
如果你曾编辑过 Wikipedia,你就参与了这种形式的众包:
这类机制在构建“开放本体库”、词典、实体库、语言资源时非常重要。
你有没有注意到:
这类数据本质上用于:
你在完成身份验证的同时,也在为模型“标注图像”。
这类“隐形众包”称为 stealth crowdsourcing,是众包中最“无缝”、最聪明的设计。
代表如:
这类项目说明:
众包不仅可以收集数据,也可以引导科研发现。
虽然众包能高效获取大规模数据,但它并不完美:
因此,众包的质量控制机制极为重要,例如:
从字面上看,crowdsourcing 是“从人群中汲取资源”;
但从系统角度看,它是一种智能调度机制,让不同动机、能力和背景的人协作解决难题。
无论是微调 LLM、构建评价集、验证 Prompt 质量,还是你手机里无意间点过的验证码图,你都可能是 LLM 训练背后的“无名英雄”。
当我们真正理解众包,我们理解的不只是“如何采集数据”,而是:
如何让无数个体,共同构建一份机器能理解的“世界认知”。