搜索引擎简介

搜索流程

架构设计需兼顾海量数据处理能力低延迟查询响应结果相关性等。

数据采集

爬虫系统:从种子URL递归抓取,遵循robots 协议(网站通过robots.txt声明哪些内容可抓取),避免违规抓取。

数据预处理

将原始数据(如 HTML 网页)转化为结构化、可索引的内容,提升后续索引和检索效率。

  • 网页解析与清洗
    • 提取有效内容:从 HTML 中剥离标签(如
       

你可能感兴趣的:(搜索引擎简介)