【第0周】网络爬虫之前奏

Python网络爬虫与信息提取

  • Requests:自动爬取HTML页面,自动网络请求提交
  • robots.txt:网络爬虫排除规则
  • Beautiful Soup:解析HTML页面
  • Projects:实战项目A/B
  • RE:正则表达式详解,提取页面关键信息
  • Scrapy*:网络爬虫原理介绍,专业爬虫框架介绍

内容组织

8个内容单元+4个实例单元

Python语言开发工具

IDLE:

  • 自带
  • 默认
  • 常用
  • 入门级
  • Python入门
  • 功能简单直接
  • 不超过300行

Sublime Text:

  • 专为程序员开发
  • 专业变成编程
  • 多种编程风格
  • 工具非注册免费使用

Wing:

  • 公司维护,工具收费
  • 调试功能丰富
  • 版本控制,版本同步
  • 适合多人开发

Visual Studio & PTVS:

  • 微软公司维护
  • Win环境为主
  • 调试功能丰富

Eclipse:
PyDev

  • 开源IDE开发工具
  • 需要一定开发经验

PyCharm:

  • 社区版免费
  • 简单,集成度高
  • 适合较复杂工程

Canopy:

  • 公司维护,工具收费
  • 支持接近500个第三方库
  • 适合科学计算领域应用开发

Anaconda:

  • 开源免费
  • 支持800多个第三方库

你可能感兴趣的:(【第0周】网络爬虫之前奏)