信息抽取(IE)工具总结

信息抽取(information extraction)
  • 是从自然语言文本中抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体(entity)、关系(relation)、事件(event)。例如从新闻中抽取时间、地点、关键人物。
开放信息抽取(open IE)
  • 是指从纯文本中提取结构化关系三元组,例如(Mark Zuckerberg; founded; Facebook)。与其他信息提取的核心区别在于,这些关系的模式不需要事先指定; 通常,关系名称只是链接两个参数的文本。例如,Barack Obama was born in Hawaii 将会创建一个三元组 (Barack Obama; was born in; Hawaii), 对应于开放域的关系为 was-born-in(Barack-Obama, Hawaii)。
下面做一个信息抽取工具及相关资料的总结
一、Stanford CoreNLP
  • 基本思想:Stanford CoreNLP提供了一套人类语言技术工具。
    它可以给出单词的基本形式,它们的词性,它们是公司名称,人物等等,标准化日期,时间和数字量,用短语和句法依赖关系标记句子结构,指示其中名词短语指的是相同的实体,表示情感,提取实体提及之间的特定或开放式关系。
  • 相关论文:The Stanford CoreNLP Natural Language Processing Toolkit
二、Stanford OpenIE
  • 基本思想:利用语言结构进行开放域信息提取。
    系统首先将每个句子分成一组必要条款。然后最大限度地缩短每个子句,产生一组较短的句子片段。然后将这些片段分段为OpenIE三元组,并由系统输出。
  • 相关论文:A Survey on Open Information Extraction
  • 注:斯坦福OpenIE是一部分斯坦福CoreNLP
三、Deepdive
  • Deepdive是由斯坦福大学InfoLab实验室开发的一个开源知识抽取系统。它通过弱监督学习,从非结构化的文本中抽取结构化的关系数据 。
  • 学习教程地址:http://deepdive.stanford.edu/quickstart
四、MinIE
  • 相关论文:MinIE: Minimizing Facts in Open Information Extraction
五、ClausIE
  • 相关论文:CESI: Canonical-izing Open Knowledge Bases using Embeddings and Side Information
六、ReVerb
  • ReVerb是一个自动识别和提取英语句子中的二元关系的程序。ReVerb专为Web规模信息提取而设计。
  • 代码地址:https://github.com/knowitall/reverb
七、Ollie
  • Ollie是一种自动识别和提取英语句子中的二元关系的软件。Ollie专为信息提取而设计。
  • 代码地址:https://github.com/knowitall/ollie
  • 相关论文:Open Language Learning for Information Extraction
八、IEPY
  • IEPY是一个 专注于关系提取的信息提取的开源工具 。
  • 代码地址:http://github.com/machinalis/iepy
九、Stanford-OpenIE-Python
  • Stanford Open Information Extraction - Python Wrapper
  • 学习教程地址:https://github.com/philipperemy/Stanford-OpenIE-Python)
以上是目前收集到的信息抽取工具的整理,后续有新的会继续补充

你可能感兴趣的:(信息抽取(IE)工具总结)