论文浅尝|《Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers》

导读

这是一篇来自斯坦福大学计算机系的论文,发表于2011年,题目是《Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers》,聚焦于通过提取科学论文的关键点来分析研究动态。

选题背景

我们可以根据研究社区发表的科技论文看出其研究动态、领域间的技术传播、某一话题的研究焦点向研究工具的转变等。为了找寻领域内技术驱动和领域驱动之间的平衡点,我们需要更加细粒度的分析手段。

基于此,本文提出了需要从科技论文中抽取的三个关键点:

  1. 焦点(FOCUS):文章的主要贡献
  2. 技术(TECHNIQUE):文章中使用的方法或工具
  3. 领域(DOMAIN):文章的应用领域

⚠️注意: 原文的“community”和“domain”的区分。“community”指较宽的领域,如计算机科学、统计学等;“domain”则是较为细化的,如中文分词、命名实体识别等。

数据与实验

数据集

ACL Anthology数据集,以计算语言学领域为例,使用其中从1965年到2009年的15016篇论文的标题和摘要。

方法

匹配句子依赖树中的语义模式进行概念的抽取,并使用自举方法(bootstrapping)学习更多模式。
之所以不使用词袋式的方法,如主题模型,是因为仅能识别主题或领域,但不能标记其中不同的交叉部分。

实验一:短语抽取-模式匹配和学习

(1) 模式匹配

对象: 论文题目和摘要
方法: 使用斯坦福解析器(Stanford Parser)生成句子的依赖树。论文浅尝|《Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers》_第1张图片
数据准备:

  1. 为了进行测试,在三个类别手工标记了474篇摘要。
  2. 设计种子模式:焦点13个,技术7个,领域15个。
  3. 对于子领域,对于论文全文使用LDA算法并手动标注,共计100个主题,并使用了其中的72个主题。
    模式示例:
    论文浅尝|《Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers》_第2张图片
    针对题目的句法依赖分析的特例:
  4. 若无法提取,则全部标注为“焦点”。
  5. 若可以提取“技术”,则将剩余部分标注为“领域”。

(2) 基于短语的学习模式

从已经提取的关键词回溯其父树,统计各模式出现的频率,取每一个类别的前k个(k=2)模式作为补充。
此学习模式仅适用于技术和领域两个方面,在学习中对这两个类别进行50次迭代,并停用其中的常见短语。
论文浅尝|《Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers》_第3张图片

实验二:计算领域影响力

从论文a中抽取的短语p,对于领域c在技术t方面的影响的分数为:
论文浅尝|《Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers》_第4张图片
计算领域c1对领域c2在技术t方面的影响(ya表示论文发表的年份,D是所有论文的集合),其中C(a2,a1)是基于假设的加权函数。如果a2引用了a1,那么其值为1;否则值为λ(本研究取值为0.5):
论文浅尝|《Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers》_第5张图片
领域c1对c2在某一年的影响,将所有文章中的所有词语得分求和:
论文浅尝|《Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers》_第6张图片
领域c1对领域c2以及其他所有领域的影响力的计算公式如下:
论文浅尝|《Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers》_第7张图片

结果

1. 提取结果

包含从子树提取的全部短语:焦点-64041个、技术-38220个、领域-46771个。

2. 不同抽取方法的F1、Recall、Precision
论文浅尝|《Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers》_第8张图片
(1) 种子模式;(2) 种子模式+学习模式;(3) 基线方法(基于词频的tf-idf);(4) 注释者间的一致性。

3. 领域影响力和受欢迎程度随时间的变化
领域影响力不同于一个领域在特定年份的受欢迎程度
论文浅尝|《Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers》_第9张图片
论文浅尝|《Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers》_第10张图片
4. 影响力最高的领域以及相应的技术短语以及得分

5. 第一列中的领域受到第二列中的领域的影响最大
论文浅尝|《Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers》_第11张图片

贡献

  1. 提出了科学论文关键点的新分类,即焦点、技术、领域三分类。
  2. 通过将语义模式与句子依赖树匹配的方法来提取论文关键点,并使用bootstrapping学习模式
  3. 提出了一项研究领域相互影响的指标,即一个研究领域的关键方面作为技术被其他研究领域所采纳。
  4. 使用从计算语言学领域论文中提取的三个关键点进行案例研究,既验证了系统的结果,也展示计算语言学子领域的研究动向和总体影响的新结果。
  5. 引入了标注有三个类别的论文摘要数据集

你可能感兴趣的:(论文浅尝,自然语言处理,人工智能,机器学习)