业务领域建模Domain Modeling

我的工程实践题目是基于情感词典的文本情感分析,下面是以我的工程实践为例,业务领域建模

♦ 1) Collect application domain information
– focus on the functional requirements – also consider other requirements and documents

1)收集应用领域信息
–关注功能要求–还考虑其他需求和文件

  为了挖掘商品评论中有价值的信息, 有效分析用户对商品的直接反馈, 文章基于通用的情感词典, 以国内某电商平台上的商品评论为研究对象, 根据词频共现方法拓展情感词典, 基于构建的情感词典对评论进行情感极性分析根据分析结果, 不仅能够帮助商家优化商品属性, 更好地满足消费者的需求, 还可以指导用户制定合理的购买决策。 


♦ 2) Brainstorming
– listing important application domain concepts – listing their properties/attributes – listing their relationships to each other

♦2)头脑风暴
–列出重要的应用程序域概念–列出它们的属性/属性–列出它们之间的关系

  a)   获取数据集。本项目所针对的目标是京东电子商品评论,获取数据集的主要方式有通过网络爬虫技术进行获取、下载公开的数据集或者利用开源的API进行获取。

  b)   对原始数据进行预处理。主要的工作是对原始数据进行去除重复值、缺失值处理、分词、去除停用词。为了后序情感分析的处理将文本进行向量化。

  c)   构建领域情感词典。

    第一步: 以 How Net 2007 版情感词典提供的正面情感词负面情感词正面评价词面评价词等为基础拓展词典;

    第二步: 通过经验和对数据集的观察, 人工采集规则, 其中主要的几种规则有: 名词+形容词名词+副词+形容词”、“动名词+形容词动词+名词等;

    第三步: 对语料集进行分句处理, 即以“。”“! ”“?等对评论文本进行切分;

    第四步: 利用分词系统对评论文本进行分词和词性标注, 依据收集到的规则找出新的情感词;

    第五步: 根据两个词的共现程度 PMI 10判断情感词的情感倾向, 当两个词与基准情感词的 PMI 差值大于某一阈值, 则较大的一方的情感极性为新词的情感极性。

  d)   构建情感词典。将新词录入基础情感词典中 。

  e)   情感分析。主要的内容是利用文本分词与领域情感词典的匹配情况,按照特定的匹配规则得到文本的情感值,并且运用LDA模型提取出情感词所对应的主题(特征),得到文本的情感词-情感值-主题词序对


♦ 3) Classifying the domain concepts into:
– classes – attributes / attribute values – relationships
• association, inheritance, aggregation

♦3)将领域概念分为:
–类–属性/属性值–关系
•关联,继承,聚合

  获取数据集:商品评论:爬虫抓取商品评论()利用公开API获取()下载公开数据集()

  处理数据集:商品评论:情感词:过滤并提取情感词()特殊词转化(根据否定词转反义词)()word2vec()

  构建情感词典:基本情感词典:同义词词林:否定词,连词,疑问词,程度副词词典:构造领域情感词典()动态扩充词典()基于基本情感词典扩充()分析结合一词多义,同义词词林扩充()结合否定词,连词,疑问词,程度副词词典扩充()

  构建领域词典:商品评论:基本情感词典:情感词:机器学习方法()hownet()TF-IDF()点互信息,词间距,上下文约束、词频共现()

  情感分析:情感词典:商品评论:细化补充语义规则()基于计算情感词权值的方法()基于情感词典的机器学习方法()


♦ 4) Document result using UML class diagram:

♦4)使用UML类图记录结果:

业务领域建模Domain Modeling_第1张图片

你可能感兴趣的:(业务领域建模Domain Modeling)