1.了解大数据分析 http://www.cnblogs.com/kinoko/p/7475221.html
2.Python输入输出练习,运算练习,turtle初步练习 http://www.cnblogs.com/kinoko/p/7684980.html
3.Python、循环的练习 http://www.cnblogs.com/kinoko/p/7684982.html
4.列表、元组、字典、集合的相关练习 http://www.cnblogs.com/kinoko/p/7684987.html
5.字符串练习 http://www.cnblogs.com/kinoko/p/7684985.html
6.中文词频统计及词云制作 http://www.cnblogs.com/kinoko/p/7684991.html
7.爬取新闻列表 http://www.cnblogs.com/kinoko/p/7684996.html
8.用requests库和BeautifulSoup4库爬取新闻列表 http://www.cnblogs.com/kinoko/p/7684993.html
9.大作业
import requests from bs4 import BeautifulSoup from datetime import datetime import re def getTheContent(url1): res = requests.get(url1) res.encoding = 'utf-8' soup = BeautifulSoup(res.text, 'html.parser') item = {} item['url'] = url1 resd = requests.get(item['url']) resd.encoding = 'utf-8' soupd = BeautifulSoup(resd.text, 'html.parser') item['title'] = soupd.select('.content_list-group-item-title')[0].text.strip() item['time'] = soupd.select('.content_subtitle')[0].text.strip() item['content'] = soupd.select('.content')[0].text.strip() return (item) def getOnePage(pageurl): res = requests.get(pageurl) res.encoding = 'utf-8' soup = BeautifulSoup(res.text, 'html.parser') lilist = soup.find('div', class_='panel-bd') list = lilist.findALL(name='li') itemls = [] for item in list: if len(item.select('a')[0]['title']) > 0: url1= url1.sub('https://www.btime.com/', url) itemls.append(getTheContent(url1)) else: print ("错误!") return (itemls) print(getOnePage('https://www.btime.com/recommend?from=gjl'))
======================== RESTART: D:/Python/dazuoye.py ======================== 重磅!***向武警部队授旗并致训词 ***会见北欧和波罗的海国家议长 | 全面小康一个都不能少 暗流涌动 这个邻国正大挖中国墙角 中纪委曝光孙政才、黄兴国、周本顺等人共同问题 重磅宣布!这些二线城市租房能落户 炒房者要遭殃 代购火车票又出新骗局 黄牛用APP制售假票能乱真 台女子称"台湾不属于中国" 被华人老板解雇 中方建设南海岛礁违背承诺?菲总统府回击菲防长 亚布力滑雪旅游度假区落选"国家级旅游度假区" 马来西亚宣布重启MH370搜寻:找不到残骸不付钱 阻拦高铁当事人被罚2000元:非常后悔 诚恳道歉 新华社记者暗访:这家火锅店的锅底竟是别人吃剩的 疑北大毕业女律师发拜金言论:乡村非主流只知道买LV