在大数据、人工智能风口之上,构建新闻语料库用于训练自然语言处理(NLP)模型、情感分析、热点追踪等任务变得愈发重要。然而,大多数新闻网站并不提供开放的 API,内容分散在网页的各个结构中,因此我们必须编写一个功能齐全的爬虫来抓取文章、图片、视频等多种内容。
库名 | 用途 |
---|---|
Playwright |
最新浏览器自动化技术,支持动态页面渲染 |
BeautifulSoup |
HTML解析、信息提取 |
Requests |
简单网页抓取(用于补充静态资源) |
aiohttp + asyncio |
异步抓取图片/视频资源 |
re |
提取视频链接、清洗文本 |
pandas |