python爬虫爬取慕课网中的图片

我们简单地爬取慕课网中免费课程下的第一页的图片,如想爬取多页图片,可以添加for循环自行实现

python版本:3.6.5

爬取网址:http://www.imooc.com/course/list

python源码:

#抓取慕课网的图片到本地
import re,urllib.request

request = urllib.request.urlopen('http://www.imooc.com/course/list')
buf=request.read().decode('utf-8')
#根据以下网页源码写出正则表达式
#src="//img3.mukewang.com/5aa77f4c0001f0a706000338-240-135.jpg"
listurl=re.findall('src="//img.+\.jpg',buf)
res=[]		    #保存所有的图片地址
index=0            #对爬取的图片进行计数
for url in listurl:
	#构造图片地址 图片真实地址如下
	#"http://img3.mukewang.com/5aa77f4c0001f0a706000338-240-135.jpg"
	a=re.findall('//img.+\.jpg',url)
	a[0]='http:'+a[0]                        #a[0]保存图片真实地址
	print(str(index)+" : "+a[0])		#输出图片编号和网址
	res.append(a[0])                        #将图片地址添加进列表
	index=index+1
index=0
print(len(res))                                #输出图片总数,验证是否出错
for url in res:
	f=open("D:/img/"+str(index)+'.jpg','wb')
	request=urllib.request.urlopen(url)
	buf=request.read()
	f.write(buf)
	index=index+1
f.close()

运行并观察输出:可以发现并没错误

python爬虫爬取慕课网中的图片_第1张图片

我们打开D:\img

惊奇的发现所有图片均被爬取到了本地

python爬虫爬取慕课网中的图片_第2张图片

你可能感兴趣的:(python,study,python,crawl)