【十 自然语言处理项目实战】【10.2 数据收集与预处理】

【十 自然语言处理项目实战】【10.2 数据收集与预处理】_第1张图片
各位在数据泥潭里打滚的勇士们,今天咱们要聊的这个话题,就像学做川菜必须掌握的"火锅底料炒制法"——数据收集与预处理!这玩意儿看着像脏活累活,实则是决定你模型上限的生死关卡。作为一个曾把BERT训成人工智障的老司机,这就把五年掉坑经验熬成一锅十全大补汤!(戴上橡胶手套准备掏数据)


一、数据收集的野路子:比盗墓还刺激的冒险

1.1 公开数据集寻宝图(附藏宝坐标)

① 正道的光:

  • Kaggle(数据界的沃尔玛):搜"NLP"标签有500+现成数据集
  • 抱抱脸Hub:不仅有模型还有数据集,中文推荐CLUE
  • 政府开放数据(比如美国data.gov),适合做舆情分析

你可能感兴趣的:(#,自然语言处理,人工智能,知识图谱,transformer,自然语言处理,数据收集,自然语言处理,预处理,自然语言处理项目)