Python爬取百度首页

代码基于python3,入门练习小例子,下面介绍两种模块的实现

urllib.request模块

import urllib.request  
s=urllib.request.urlopen("http://www.baidu.com")  
print(s.read()) 

requests模块

import requests
head={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"}
s = requests.get("http://www.baidu.com",headers=head)
print(s.text)

使用requests模块遇到的一个问题,报错如下,说没有安装requests模块

C:\Users\asus\PycharmProjects\day1\venv\Scripts\python.exe 
C:/Users/asus/PycharmProjects/day1/downBaiDu
Traceback (most recent call last):
  File "C:/Users/asus/PycharmProjects/day1/downBaiDu", line 1, in 
    import requests
ModuleNotFoundError: No module named 'requests'

Process finished with exit code 1

解决:
1.确认自己已经安装了requests模块,命令行下运行pip list查看
2.确认pycharm使用的是默认的request模块,点击file——setting,打开设置窗口,查看Project Interpreter 是否为为默认安装的,如果不是设置为默认默认安装的。如下图


Pycharm设置页面

两种方式都在控制台输出了百度首页的代码,第一种方法只输出了一行,第二中输出了多行,这两种方式会有什么差异吗?输出的内容如何另存为一个html文件?我们将在后面继续学习这些内容

你可能感兴趣的:(Python爬取百度首页)