山东大学2020-2021春季web数据管理期末考试

一、填空题(30空,只记得这些了)
DFS比BFS好处在于
爬虫礼貌性
BM25三个参数
词项处理——文档解析、词条化、词项归一化、次干还原、词型归并
三种分词算法
统计语言模型的定义
LBP定义
tamura的特征
颜色矩

二、简答题
1、RE
2、web数据抽取
3、TF/IDF
4、倒排索引的定义
5、忘记了

三、论述题
1、网站和爬虫的博弈
2、基于HMM的分词算法
3、网页排序算法PageRank、HITS、HillTop
4、比较pLSA与LSA的异同

你可能感兴趣的:(山东大学,web数据管理)