广义的信息检索,是关于信息的结构、分析、组织、存储、搜查和检索的范畴—(Salton,1968) 狭义的信息检索,是指按照一定的方式从现有的信息集合或数据库中,找出并提取所需要的信息, 信息检索的主要焦点一直是文本和文本形式的文档(网页、邮件、书籍、学术论文、短信息、专利等) 文档的共有特性: 有意义的文本结构信息 (比如,论文的标题、作者、发表时间; 邮件的主题、发送者、接收者)
搜索引擎是信息检索技术在大规模文本集合上的实际应用。
搜索引擎是指互联网上专门提供检索服务的一类网站,这些站点的服务器通过网zhi络搜dao索软件(例如网络搜索机器人)或网络登录等方式,将Intemet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库,从而对用户提出的各种检索作出响应,提供用户所需的信息或相关指针。用户的检索途径主要包括自由词全文检索、关键词检索、分类检索及其他特殊信息的检索。索引技术是搜索引擎的核心技术之一。搜索引擎要对所收集到的信息进行整理、分类、索引以产生索引库,而中文搜索引擎的核心是分词技术。分词技术是利用一定的规则和词库,切分出一个句子中的词,为自动索引做好准备。检索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行检索,同时完成页面与检索之间的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。
信息检索不仅仅局限于文本,从事信息检索工作的人们使用着不同的媒体、不同类型的搜索应用程序和不同的任务。信息检索的任务: 特殊搜索/基于用户查询的搜索、过滤/跟踪、分类、问答等。
搜索引擎按其工作方式主要可分为3种:
分为三步:从互联网上抓取网页、建立索引数据库、在索引数据库中搜索排序。
文本索引需要按照一定的次序来保存每个文档的信息,以便于信息的查找。在Google中利用了固定长度的ISAM(索引序列访问模式)进行索引,该索引按照docID排序。在每个索引条目中包含当前文本的状态、一个指向信息库的指针、一个文本的检查值和一些统计信息。
前向索引是文档到词的索引,在处理文档的时候以文档为单位建立这种索引比较方便。
前向索引便于建立,但是在信息查找的过程中,是根据词来找文档的,因此为了提高文档检索的速度,必须建立词到文档的索引,即后向索引
Google的词典由两部分组成:第一部分是一个通过空格分隔的词表,另一部分是由指针组成的散列表。
所谓元搜索引擎,就是指在统一的用户查询界面与信息反馈的形式下,共享多个独立搜索引擎的资源库为用户提供信息服务的系统。
概念:网络爬虫是一种计算机自动程序,它能够自动建立到WEB服务器的网络连接,访问服务器上的某个页面或网络资源,获得其的内容,并按照页面上的超链接进行更多页面的获取。
分类: 爬虫分类方法从爬虫抓取的链接范围看,可以分为基于整个WEB的爬虫和基于局部确定范围的爬虫。从爬虫抓取的页面内容看,可以分为无固定主题的爬虫和主题爬虫。从爬虫的执行模式看,可以分为批量型爬虫和增量型爬虫。从爬虫的内部功能协调方式看,可以单线程爬虫和多线程爬虫。
爬虫要完成的功能分解成为两个层次:第一个层次是爬虫的基本功能,即获取页面所需要的功能模块构成,是每一种爬虫都需要实现的功能,通常包括建立网络连接、页面请求与解析、链接分析、爬行队列管理等基础性工作,主要针对的是简单的爬虫结构;第二个层次则是针对各种复杂类型爬虫所需要做的扩展,例如URL范围控制、主题识别、支持增量式,这些并非是每种爬虫都需要实现的功能。
主题爬虫,也称为聚焦爬虫(Focused Crawler),从功能上看,它主要爬行与某些预先设定好的主题的相关WEB页面,各种面向特定领域的爬虫,如旅游领域爬虫、财经新闻爬虫等,都是属于这类。
主题的定义: 采用关键词集来描述一个主题、对关键词集进行划分,通过对自主题的描述来实现对整个主题的定义。
动态页面的主要特征:
动态页面的获取方法大致的步骤是:首先需要对获取页面的请求内容或者本地的cookies(输入)进行分析,找到生成动态页面所依赖的请求接口以及其所需要的数据内容/格式,然后使用程序模拟组装数据并发送至特定接口,从接口获取到返回的数据(JSON或HTML),最后对返回的JSON、页面HTML信息进行分析以采集目标信息。
PageRank思想:“被越多优质的网页所指的网页,它是优质的概率就越大”
计算公式1: P R n ( A ) = ( 1 − d ) + d × ( ∑ i = 1 m P R n − 1 ( T i ) C ( T i ) PR_n(A)=(1-d)+d\times(\sum_{i=1}^{m}\frac{PR_{n-1}(T_i)}{C(T_i)} PRn(A)=(1−d)+d×(∑i=1mC(Ti)PRn−1(Ti)
其中:PRn(A)是网页A的PageRank值,PRn-1(Ti)是指网页Ti存在指向A的链接,并且网页在上一次迭代时的PageRank值,C(Ti)是指网页Ti的外链数量。可见,首先,PageRank并不是将整个网站排等级,而是以单个页面计算的。其次,页面A的PageRank值取决于那些连接到A的页面的PageRank的递归值。
计算公式2: 假定用户一开始随机地访问网页集合中的一个网页,以后跟随网页的向外链接向前浏览网页,而不回退浏览,浏览下一个网页的概率就是被浏览网页的PageRank值。基于以上的原理,算法1可改进为以下的公式: P R n ( A ) = ( 1 − d ) / N + d × ( ∑ i = 1 m P R n − 1 ( T i ) C ( T i ) PR_n(A)=(1-d)/N+d\times(\sum_{i=1}^{m}\frac{PR_{n-1}(T_i)}{C(T_i)} PRn(A)=(1−d)/N+d×(∑i=1mC(Ti)PRn−1(Ti)
顺排文档检索的主要思想是将文档中的每一条记录依次去匹配用户的检索提问集合,文档处理完毕后,将各提问的命中结果归并分发给有关用户。顺排文档检索是用文档中记录一条一条去匹配提问的,是顺序对文档记录检索的方法,所以称为顺排文档检索。顺排文档的关键技术是采用列表处理方法将提问逻辑式(检索式)变换成等价的提问展开式,按提问展开表的内容对顺排文档的每篇文献进行检索。
倒排文档是一种面向单词的索引机制,相对顺排文档而言,是将顺排文档中可检索字段的作者名、关键词、分类号等取出,按一定规则排序,归并相同词汇,并把在顺排文档中相关记录的记录号集合赋予其后,以保证通过某一特征词能够快速、方便地获取相关记录。
区别: 正排由文档指向关键词,倒排由关键词指向文档
emm这块就不写了,,
emmmm这也不用说了,,
文档表示一个文档被表示为关键词的集合查询式表示查询式(Queries)被表示为关键词的布尔组合,用“与、或、非”连接起来,并用括弧指示优先次序匹配一个文档当且仅当它能够满足布尔查询式时,才将其检索出来检索策略基于二值判定标准
优点:到目前为止,布尔模型是最常用的检索模型,因为:由于查询简单,因此容易理解通过使用复杂的布尔表达式,可以很方便地控制查询结果相当有效的实现方法相当于识别包含了一个某个特定term的文档经过某种训练的用户可以容易地写出布尔查询式布尔模型可以通过扩展来包含排序的功能,即“扩展的布尔模型”
问题: 布尔模型被认为是功能最弱的方式,其主要问题在于不支持部分匹配,而完全匹配会导致太多或者太少的结果文档被返回 非常刚性: “与”意味着全部; “或”意味着任何一个 很难控制被检索的文档数量 原则上讲,所有被匹配的文档都将被返回 很难对输出进行排序 不考虑索引词的权重,所有文档都以相同的方式和查询相匹配 很难进行自动的相关反馈 如果一篇文档被用户确认为相关或者不相关,怎样相应地修改查询式呢?
文档D(Document):泛指文档或文档中的一个片段(如文档中的标题、摘要、正文等)。 索引项t(Term):指出现在文档中能够代表文档性质的基本语言单位(如字、词等),也就是通常所指的检索词,这样一个文档D就可以表示为D(t1,t2,…,tn),其中n就代表了检索字的数量。 特征项权重Wk(Term Weight):指特征项tn能够代表文档D能力的大小,体现了特征项在文档中的重要程度。 相似度S(Similarity):指两个文档内容相关程度的大小
特点:基于关键词(一个文本由一个关键词列表组成) 根据关键词的出现频率计算相似度 例如:文档的统计特性 用户规定一个词项(term)集合,可以给每个词项附加权重 未加权的词项: Q = database; text; information 加权的词项: Q = database 0.5; text 0.8; information 0.2 查询式中没有布尔条件 根据相似度对输出结果进行排序 支持自动的相关反馈 有用的词项被添加到原始的查询式中 例如:Q database; text; information; document
这一章还是看ppt吧,,东西略多。。
相关性概念 信息检索的本质是文献与提问的匹配,而匹配的原则就是两者必须是“相关”的,“相关”程度越高意味着匹配效果越好,因此,“相关性” (Relevance)和“相关性判断”是检索性能评价不可或缺的标尺与基准。
相关性的意义就信息检索而言,“相关性”是一个关键性的基础概念。从检索系统的设计和信息检索算法的开发,到用户对检索结果的评判及检索效果的评价,几乎所有环节都离不开对“相关性”概念的理解和运用。
相关性的特征:关系(Relation)、直觉(Intuitive)多维(Multidimensional)、动态(Dynamical)
相关性判断组成要素(1)相关性类型。基于何种相关性进行判断。(2)判断者类型。实施判断的主体,通常分为用户与非用户两大类。前者是指检索系统的真实用户,后者包括检索系统设计者、检索中介等。(3)判断的时间。在不同的时间点上,相关性判断的结果可能会不同。(4)判断结果的表达方式。对相关性的赋值方法。
评价的指标比较容易观察或测度,如查全率(Recall Ratio)、查准率(Precision Ratio)、非相关检出率(Fallout)、囊括值(Generality)等
指在检索过程中基于初始检索输出结果的相关性判断来调整查询检索式的过程
特征:
主要技术:
无需用户参与的自动扩展技术:
全局扩展技术的基本思想统一对整个信息集合中所有的词或词组进行相关分析,计算词或词组与查询之间的相似度;进行查询时,使用与查询相似度最高的词作为重构的查询用词;早期是词聚类方法,现在是构建相似度词表
局部扩展技术的基本思想利用初次检索得到的与初始查询最相关的前N个相关信息来确定扩展的语词,主要类型包括相关反馈和局部反馈
是指根据用户提供的过滤要求,从动态的信息集合中去掉用户不需要的信息而识别出用户需要信息的个性化检索方式
标引是从数据信息提取元数据(描述数据及其环境的数据)的过程,通过文献内容分析,识别其重要特征,用一定的语言、符号标识记录下来,其目的是准确地揭示文本的特征,便于集中同类文本、区分不同文本,为相关文本建立联系,并且将其作为存储和检索文献依据的文献处理过程,其质量直接影响文献的传递和使用。
自动标引是利用计算机从文献中自动提取相关检索标识的过程。文献检索标识主要包括文献标题、作者名、分类号、主题词、关键词和摘要等。采用自动标引方法和技术,对文献进行主题分析和选定标引词。
原理: 自动标引从原理上分为抽词标引和赋词标引,各种方法和技术以自然语言的规律为基础,构建在相应的数学模型上。汉语自动标引方法既遵循英文标引的一般规律,又有其因分词问题所带来的特殊性。
…
实验手册的内容