我的工程实践题目是基于情感词典的文本情感分析,下面是以我的工程实践为例,业务领域建模
♦ 1) Collect application domain information
– focus on the functional requirements – also consider other requirements and documents
1)收集应用领域信息
–关注功能要求–还考虑其他需求和文件
为了挖掘商品评论中有价值的信息, 有效分析用户对商品的直接反馈, 文章基于通用的情感词典, 以国内某电商平台上的商品评论为研究对象, 根据词频共现方法拓展情感词典, 基于构建的情感词典对评论进行情感极性分析。根据分析结果, 不仅能够帮助商家优化商品属性, 更好地满足消费者的需求, 还可以指导用户制定合理的购买决策。
♦ 2) Brainstorming
– listing important application domain concepts – listing their properties/attributes – listing their relationships to each other
♦2)头脑风暴
–列出重要的应用程序域概念–列出它们的属性/属性–列出它们之间的关系
a) 获取数据集。本项目所针对的目标是京东电子商品评论,获取数据集的主要方式有通过网络爬虫技术进行获取、下载公开的数据集或者利用开源的API进行获取。
b) 对原始数据进行预处理。主要的工作是对原始数据进行去除重复值、缺失值处理、分词、去除停用词。为了后序情感分析的处理将文本进行向量化。
c) 构建领域情感词典。
第一步: 以 How Net 2007 版情感词典提供的正面情感词、负面情感词、正面评价词、负面评价词等为基础拓展词典;
第二步: 通过经验和对数据集的观察, 人工采集规则, 其中主要的几种规则有: “名词+形容词”及“名词+副词+形容词”、“动名词+形容词”及“动词+名词”等;
第三步: 对语料集进行分句处理, 即以“。”“! ”“?”等对评论文本进行切分;
第四步: 利用分词系统对评论文本进行分词和词性标注, 依据收集到的规则找出新的情感词;
第五步: 根据两个词的共现程度 PMI [10] 判断情感词的情感倾向, 当两个词与基准情感词的 PMI 差值大于某一阈值, 则较大的一方的情感极性为新词的情感极性。
d) 构建情感词典。将新词录入基础情感词典中 。
e) 情感分析。主要的内容是利用文本分词与领域情感词典的匹配情况,按照特定的匹配规则得到文本的情感值,并且运用LDA模型提取出情感词所对应的主题(特征),得到文本的情感词-情感值-主题词序对
♦ 3) Classifying the domain concepts into:
– classes – attributes / attribute values – relationships
• association, inheritance, aggregation
♦3)将领域概念分为:
–类–属性/属性值–关系
•关联,继承,聚合
获取数据集:商品评论:爬虫抓取商品评论()利用公开API获取()下载公开数据集()
处理数据集:商品评论:情感词:过滤并提取情感词()特殊词转化(根据否定词转反义词)()word2vec()
构建情感词典:基本情感词典:同义词词林:否定词,连词,疑问词,程度副词词典:构造领域情感词典()动态扩充词典()基于基本情感词典扩充()分析结合一词多义,同义词词林扩充()结合否定词,连词,疑问词,程度副词词典扩充()
构建领域词典:商品评论:基本情感词典:情感词:机器学习方法()hownet()TF-IDF()点互信息,词间距,上下文约束、词频共现()
情感分析:情感词典:商品评论:细化补充语义规则()基于计算情感词权值的方法()基于情感词典的机器学习方法()
♦ 4) Document result using UML class diagram:
♦4)使用UML类图记录结果: