爬取搜狐体育新闻并存储到本地数据库中

本文旨在通过最基础的爬虫模块,爬取搜狐体育新闻的标题和内容,并且存储到数据库中,下面是关键性代码,以爬取nba新闻为例子

import re
import pymysql
import urllib.request

# 对html页面进行解码
def decode_html(html,charsets=('utf-8','gbk','gb2312'):
    page_html = ''
    for charset in charsets:
        try:
            # 尝试对html页面进行解码,如果解码成功直接返回
            page_html = html.decode(charset)
            break
            # 如果解码错误,静默处理
        except Exception as e:
            pass
    return page_html


# 得

你可能感兴趣的:(python,爬虫入门,基础)