DatawhaleAI夏令营学习活动

学习任务如下:


## 赛事任务
参赛者需基于提供的带货视频文本及评论文本数据,完成以下三阶段分析任务:
- 【商品识别】精准识别推广商品;
- 【情感分析】对评论文本进行多维度情感分析,涵盖维度见数据说明;
- 【评论聚类】按商品对归属指定维度的评论进行聚类,并提炼类簇总结词。


### 数据说明
本次挑战赛为参赛选手提供包含85条脱敏后的带货视频数据及6477条评论文本数据,数据包括少量有人工标注结果的训练集(仅包含商品识别和情感分析的标注结果)以及未标注的测试集。所有数据均经过脱敏处理,确保信息安全,其格式说明如下:

- 带货视频内容文本信息的数据格式
| 序号 | 变量名称     | 变量格式 | 解释         |
| ---- | ------------ | -------- | ------------ |
| 1    | video_id     | string   | 视频id       |
| 2    | video_desc   | string   | 视频描述     |
| 3    | video_tags   | string   | 视频标签     |
| 4    | product_name | string   | 推广商品名称 |
注:product_name需根据提供的视频信息进行提取,并从匹配到商品列表[Xfaiyx Smart Translator, Xfaiyx Smart Recorder]中的一项。

- 评论区文本信息的数据格式
| 序号 | 变量名称                 | 变量格式 | 解释                                 |
| ---- | ------------------------ | -------- | ------------------------------------ |
| 1    | video_id                 | string   | 视频id                               |
| 2    | comment_id               | string   | 评论id                               |
| 3    | comment_text             | string   | 评论文本                             |
| 4    | sentiment_category       | int      | 关于商品的情感倾向分类               |
| 5    | user_scenario            | int      | 是否与用户场景有关,0表示否,1表示是 |
| 6    | user_question            | int      | 是否与用户疑问有关,0表示否,1表示是 |
| 7    | user_suggestion          | int      | 是否与用户建议有关,0表示否,1表示是 |
| 8    | positive_cluster_theme   | string   | 按正面倾向聚类的类簇主题词           |
| 9    | negative_cluster_theme   | string   | 按负面倾向聚类的类簇主题词           |
| 10   | scenario_cluster_theme   | string   | 按用户场景聚类的类簇主题词           |
| 11   | question_cluster_theme   | string   | 按用户疑问聚类的类簇主题词           |
| 12   | suggestion_cluster_theme | string   | 按用户建议聚类的类簇主题词           |

注:
a. 需进行情感分析的字段包括sentiment_category、user_scenario、user_question和user_suggestion。训练集中部分数据已提供标注,测试集需自行预测。其中字段sentiment_category情感倾向分类的数值含义见下表:
| 分类值 | 1    | 2    | 3          | 4    | 5      |
| ------ | ---- | ---- | ---------- | ---- | ------ |
| 含义   | 正面 | 负面 | 正负都包含 | 中性 | 不相关 |

b. 需进行聚类的字段包括:
- positive_cluster_theme:基于训练集和测试集中正面倾向(sentiment_category=1 或 sentiment_category=3)的评论进行聚类并提炼主题词,聚类数范围为 5~8。
- negative_cluster_theme:基于训练集和测试集中负面倾向(sentiment_category=2 或 sentiment_category=3)的评论进行聚类并提炼主题词,聚类数范围为 5~8。
- scenario_cluster_theme:基于训练集和测试集中用户场景相关评论(user_scenario=1)进行聚类并提炼主题词,聚类数范围为 5~8。
- question_cluster_theme:基于训练集和测试集中用户疑问相关评论(user_question=1)进行聚类并提炼主题词,聚类数范围为 5~8。
- suggestion_cluster_theme:基于训练集和测试集中用户建议相关评论(user_suggestion=1)进行聚类并提炼主题词,聚类数范围为 5~8。
**注意,聚类样本包含训练集和测试集的全部满足上述条件的评论样本。**

## 评估指标
本挑战赛依据参赛者提交的结果文件,采用不同评估方法对各阶段任务进行评分。最终得分由三部分相加,总分300分。具体评估标准如下:
- 商品识别(100分)
结果采用精确匹配评估,每个正确识别的商品得1分,错误识别的商品得0分。
- 情感分析(100分)
结果评估采用加权平均F1-score,衡量分类模型的整体性能。
- 评论聚类(100分)
结果评估采用轮廓系数(仅计算商品识别和情感分析均正确的评论聚类结果),衡量聚类结果的紧密性和分离度。

任务分析:

1. 【商品识别】:精准识别推广商品

✅ 任务目标

从视频文本信息中(video_desc + video_tags),预测该视频在推广哪个商品

✅ 输入字段:

  • video_desc(视频描述)

  • video_tags(视频标签)

✅ 输出字段:

  • product_name,必须是以下二选一的精确匹配(分类问题):

    • "Xfaiyx Smart Translator"

    • "Xfaiyx Smart Recorder"

✅ 本质任务

是一个二分类任务(Text Classification),对每条视频文本预测其商品类别。

2. 【情感分析】:评论的多维情感分类

✅ 任务目标

对每一条评论 comment_text,预测以下 4 个标签值

字段名 类型 标签含义
sentiment_category 多分类(5类) 评论对商品的情感:正面、负面、两者都有、中性、不相关
user_scenario 二分类 评论是否包含用户的使用场景
user_question 二分类 评论是否提出了问题/疑问
user_suggestion 二分类 评论是否包含建议

✅ 输入字段:

  • comment_text(评论文本)

✅ 输出字段:

  • 上面 4 个字段,每个都要预测。

✅ 本质任务

  • sentiment_category 是 5分类文本分类任务

  • 其余是 3个独立的二分类任务(multi-label);

  • 更高级可用多任务学习一起建模。


3. 【评论聚类】:多维度评论聚类 + 提炼主题词

✅ 任务目标

将评论在 五个维度上按不同类型进行聚类,并提取每个类簇的主题词:

聚类维度 筛选条件 输出字段名
正面情感聚类 sentiment_category ∈ {1,3} positive_cluster_theme
负面情感聚类 sentiment_category ∈ {2,3} negative_cluster_theme
用户场景相关评论聚类 user_scenario == 1 scenario_cluster_theme
用户疑问相关评论聚类 user_question == 1 question_cluster_theme
用户建议相关评论聚类 user_suggestion == 1 suggestion_cluster_theme

每一类聚类:

  • 聚类数 k ∈ [5, 8]

  • 聚类算法不限,目标是输出每条样本对应的类簇 主题词(top词)

✅ 输入字段:

  • comment_text

  • 情感分析任务的预测结果(这些是聚类的前置条件)

✅ 输出字段:

  • 上表中对应的 5 个聚类主题词字段

✅ 本质任务

文本聚类任务,必须使用情感分析结果进行条件筛选,提取评论子集后聚类。

你可能感兴趣的:(学习)