【Python】【Scrapy 爬虫】理解HTML和XPath

        为了从网页中抽取信息,必须对其结构有更多了解。我们快速浏览HTML、HTML的树状表示,以及在网页上选取信息的一种方式XPath。

HTML、DOM树表示以及XPath

互联网是如何工作的?

当两台电脑需要通信的时候,你必须要连接他们,无论通过有线方式 (通常是网线) 还是无线方式(比如 WiFi 或 蓝牙 )。所有现代电脑都支持这些连接。

【Python】【Scrapy 爬虫】理解HTML和XPath_第1张图片

但是当电脑多了,两两链接就会需要很多的网线,这个时候我们将网络上的每台电脑接到一个叫做路由器(router的特殊小电脑。路由器只干一件事:就像火车站的信号员,它要确保从一台电脑上发出的一条信息可以到达正确的电脑。

【Python】【Scrapy 爬虫】理解HTML和XPath_第2张图片

但是我们要连接成百上千,上亿台电脑呢?一台路由器覆盖不了这么远,所以我们为什么不把两个路由器彼此连接呢?我们把电脑连接路由器,接着路由器连接路由器,我们就会有无穷的规模。

【Python】【Scrapy 爬虫】理解HTML和XPath_第3张图片

这样网络越来越接近我们所说的互联网,但是我们遗漏了一些东西。我们建立网络是为了我们自己的目的。所以不同的人会建立不同的网络:你的朋友,你的邻居,每个人都可以拥有自己的计算机网络。在你的房子和世界其他地方之间架设电缆将这些不同的网络连接起来是不可能的,那么你该如何处理这件事呢?其实已经有电缆连接到你的房子了,比如,电线和电话。电话基础设施已经可以把你家连接到世界的任何角落,所以它就是我们需要的线。为了连接电话这种网络我们

你可能感兴趣的:(大数据,Python,python,scrapy,爬虫)