Python3.5 网络爬虫简单入门

一.网络爬虫简单介绍

网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫.

相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题:

(1). 对抓取目标的描述或定义;

(2). 对网页或数据的分析与过滤;

(3) .对URL的搜索策略.

二.网络爬虫步骤:

开发环境准备:Ubuntu16.04+Python3.5+PyCharm

(1). 首先通过urllib的request打开Url得到网页html文档;

(2). 右键点击浏览器打开网页源代码分析元素节点;

(3) .通过Beautiful Soup或正则表达式提取需要的数据;

(4) .存储数据到磁盘或数据库(抓取,分析).

三.网络爬虫实例简介

1.爬取百度首页的标题汉字

(1).代码展示baidu.py

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @File  : baidu.py
# @Author: Jon
# @Date  : 18-9-13
# @Desc  :

from bs4 import BeautifulSoup
from urllib import request

def parse(url):
    response = request.urlopen(url)
    html = response.read()
    data = html.decode("utf-8")
    soup = BeautifulSoup(data, "html.parser")
    for list in soup.find_all("a"):
        if list.string==None:
            continue
        else:
            print(type(list.string))
            print(list.string)

if __name__=="__main__":
    url = "http://www.baidu.com"
    parse(url)

(2).run结果


手写

拼音

关闭

百度首页

登录

新闻

hao123

地图

视频

贴吧

学术

登录

设置

更多产品

资讯

贴吧

知道

音乐

图片

视频

地图

文库

更多»

把百度设为主页

关于百度

About  Baidu

百度推广

使用百度前必读

意见反馈

京公网安备11000002000001号

Process finished with exit code 0

 

2.爬取知乎网健身美女的图片

(1).代码展示zhihu.py

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @File  : zhihu.py
# @Author: Jon
# @Date  : 18-9-13
# @Desc  :

from urllib import request
from bs4 import BeautifulSoup
import re
import time

def parse(url):
    html = request.urlopen(url).read().decode('utf-8')
    soup = BeautifulSoup(html, 'html.parser')

    links = soup.find_all('img', 'origin_image zh-lightbox-thumb', src=re.compile(r'.jpg$'))
    print(links)

    path = r'/home/jon/picture/'
    for link in links:
        print(link.attrs['src'])
        request.urlretrieve(link.attrs['src'], path + '%s.jpg' % time.time())



if __name__=="__main__":
    url = "https://www.zhihu.com/question/22918070"
    parse(url)

 

3.爬取importnew网站首页文章的标题和链接

(1).代码展示importnew.py

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @File  : importnew.py
# @Author: Jon
# @Date  : 18-9-13
# @Desc  :

from urllib import request
from bs4 import BeautifulSoup

def parseTitle(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
    page = request.Request(url, headers=headers)
    page_info = request.urlopen(page).read().decode('utf-8')
    soup = BeautifulSoup(page_info, 'html.parser')

    titles = soup.find_all('a', 'meta-title')
    for title in titles:
        print(title.string)
        print(title.get('href'))

(2).run结果

Java异常处理的9个最佳实践
http://www.importnew.com/29603.html
Map大家族的那点事儿(1) :Map
http://www.importnew.com/29642.html
SpringBoot | 第十五章:基于Postman的RESTful接口测试
http://www.importnew.com/29635.html
Map大家族的那点事儿(3) :TreeMap
http://www.importnew.com/29713.html
Map 大家族的那点事儿 ( 7 ) :ConcurrentHashMap
http://www.importnew.com/29832.html
Map 大家族的那点事儿 ( 6 ) :LinkedHashMap
http://www.importnew.com/29828.html
Map 大家族的那点事儿 ( 5 ) :WeakHashMap
http://www.importnew.com/29825.html
JDK 源码阅读 : DirectByteBuffer
http://www.importnew.com/29817.html
Java 线程池详解
http://www.importnew.com/29813.html
Java线程面试题 Top 50
http://www.importnew.com/12773.html
8张图理解Java
http://www.importnew.com/11725.html
Java 8简明教程
http://www.importnew.com/10360.html
100个高质量Java开发者博客
http://www.importnew.com/7469.html
HashMap的工作原理
http://www.importnew.com/7099.html
分布式实时日志分析解决方案 ELK 部署架构
http://www.importnew.com/27705.html
IDEA 代码生成插件 CodeMaker
http://www.importnew.com/27685.html
代码生成利器:IDEA 强大的 Live Templates
http://www.importnew.com/27671.html
编写高质量代码的思考
http://www.importnew.com/27574.html
Map 大家族的那点事儿 ( 6 ) :LinkedHashMap
http://www.importnew.com/29828.html
Map 大家族的那点事儿 ( 5 ) :WeakHashMap
http://www.importnew.com/29825.html
JDK 源码阅读 : DirectByteBuffer
http://www.importnew.com/29817.html
Java 线程池详解
http://www.importnew.com/29813.html
Map大家族的那点事儿(4) :HashM...
http://www.importnew.com/29724.html
Linux 查看进程消耗内存情况总结
http://www.importnew.com/29782.html
SpringBoot | 第十七章:web ...
http://www.importnew.com/29795.html
SpringBoot | 第十八章:web 应用开...
http://www.importnew.com/29800.html
Java 线程池详解
http://www.importnew.com/29813.html
JDK 源码阅读 : DirectByteBu...
http://www.importnew.com/29817.html
Map 大家族的那点事儿 ( 5 ) :We...
http://www.importnew.com/29825.html
Map 大家族的那点事儿 ( 6 ) :Lin...
http://www.importnew.com/29828.html
Map 大家族的那点事儿 ( 7 ) :Concu...
http://www.importnew.com/29832.html
Java面试:投行的15个多线程和并发...
http://www.importnew.com/29562.html
SpringBoot | 第九章:Mybatis-p...
http://www.importnew.com/29501.html
SpringBoot | 第十三章:测试相...
http://www.importnew.com/29579.html
 SpringBoot | 第十二章:Rabb...
http://www.importnew.com/29557.html
一次Java内存泄漏调试的有趣经历
http://www.importnew.com/29591.html
oracle 中 print_table 存储过程...
http://www.importnew.com/29698.html
按钮条件逻辑配置化的可选技术方案
http://www.importnew.com/29704.html
Map大家族的那点事儿(3) :TreeM...
http://www.importnew.com/29713.html
Map大家族的那点事儿(4) :HashM...
http://www.importnew.com/29724.html
Linux查看分区文件系统类型总结
http://www.importnew.com/29492.html

Process finished with exit code 0

 

你可能感兴趣的:(python)