Python爬取招标信息并生成可视化分析报告

Python爬取招标信息并生成可视化分析报告_第1张图片

引言

在当今的商业环境中,招标信息是企业获取商机的重要来源之一。对于投标企业而言,及时获取和分析招标信息至关重要。传统的人工收集方式效率低下,难以应对海量数据。本文将介绍如何使用Python技术栈构建一个完整的招标信息采集与分析系统,包括数据爬取、存储、清洗和可视化分析全流程。

一、准备工作

在开始之前,我们需要安装一些必要的 Python 库。这些库包括用于网络请求的 requests,用于解析 HTML 的 BeautifulSoup,用于数据处理的 pandas,以及用于可视化的 matplotlibseaborn

二、爬取招标信息

招标信息通常存储在一些专门的招标网站上,例如中国招标网等。这些网站的页面结构可能会有所不同,但基本原理是相似的。我们需要分析网页的结构,找到招标信息所在的标签和属性,然后编写爬虫代码来提取这些信息。

以下是一个简单的示例代码,用于爬取某个招标网站的招标信息:

import requests
from bs4 import BeautifulSoup
import pandas as pd

# 代理配置
proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"

# 定义爬虫函数
def crawl_tender_info(url):
    # 设置代理
    proxyMeta = f"http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}"
    proxies = {
        "http": proxyMeta,
        "https": proxyMeta,
    }
    
    # 设置请求头
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    
    try:
        # 发送 HTTP 请求(带代理)
        response = requests.get(url, proxies=proxies, headers=headers, timeout=10)
        
        # 检查请求是否成功
        if response.status_code == 200:
            # 解析 HTML 内容
            soup = BeautifulSoup(response.text, 'html.parser')
            # 找到招标信息所在的标签
            tender_list = soup.find_all('div', class_='tender-item')
            # 初始化一个列表来存储招标信息
            tender_info = []
            # 遍历招标信息列表
            for tender in tender_list:
                # 提取招标信息
                title = tender.find('h2').text.strip()
                date = tender.find('span', class_='date').text.strip()
                link = tender.find('a')['href']
                # 将招标信息存储为字典
                tender_info.append({
                    'title': title,
                    'date': date,
                    'link': link
                })
            return tender_info
        else:
            print(f"请求失败,状态码:{response.status_code}")
            return []
            
    except requests.exceptions.RequestException as e:
        print(f"请求发生异常: {e}")
        return []

# 调用爬虫函数
url = 'https://example.com/tenders'  # 替换为实际的招标网站 URL
tender_info = crawl_tender_info(url)

# 将招标信息存储为 DataFrame
if tender_info:
    df = pd.DataFrame(tender_info)
    print(df)
else:
    print("未能获取招标信息")

三、数据清洗与预处理

爬取到的招标信息可能存在一些问题,例如重复数据、缺失值或格式不一致等。我们需要对数据进行清洗和预处理,以便后续的分析。

以下是一些常见的数据清洗和预处理步骤:

# 删除重复数据
df.drop_duplicates(inplace=True)

# 处理缺失值
df.dropna(inplace=True)

# 转换日期格式
df['date'] = pd.to_datetime(df['date'])

# 对招标信息进行分类
# 假设我们根据标题中的关键词进行分类
df['category'] = df['title'].apply(lambda x: '工程类' if '工程' in x else '其他')

print(df)

四、可视化分析

数据清洗和预处理完成后,我们可以使用可视化工具对招标信息进行分析。可视化可以帮助我们更直观地了解数据的分布和趋势。

以下是一些常见的可视化分析方法:

import matplotlib.pyplot as plt
import seaborn as sns

# 设置中文显示
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

# 招标信息数量随时间的变化趋势
plt.figure(figsize=(10, 6))
sns.countplot(x='date', data=df)
plt.title('招标信息数量随时间的变化趋势')
plt.xlabel('日期')
plt.ylabel('数量')
plt.xticks(rotation=45)
plt.show()

# 不同类别招标信息的数量分布
plt.figure(figsize=(8, 6))
sns.countplot(x='category', data=df)
plt.title('不同类别招标信息的数量分布')
plt.xlabel('类别')
plt.ylabel('数量')
plt.show()

# 招标信息的地区分布(假设我们有地区信息)
# plt.figure(figsize=(12, 8))
# sns.countplot(y='region', data=df)
# plt.title('招标信息的地区分布')
# plt.xlabel('数量')
# plt.ylabel('地区')
# plt.show()

五、生成可视化分析报告

最后,我们可以将可视化分析的结果整合成一个报告,以便向他人展示。报告可以包括文字描述、图表和结论等内容。

以下是一个简单的报告示例:

# 生成报告
report = """
# 招标信息分析报告
## 一、招标信息数量随时间的变化趋势
![数量随时间变化](数量随时间变化.png)

## 二、不同类别招标信息的数量分布
![类别数量分布](类别数量分布.png)

## 三、招标信息的地区分布
![地区分布](地区分布.png)
"""

# 将报告保存为 Markdown 文件
with open('tender_analysis_report.md', 'w', encoding='utf-8') as f:
    f.write(report)

总结

通过以上步骤,我们成功地使用 Python 爬取了招标信息,并进行了可视化分析。这个过程不仅可以帮助我们快速获取大量招标信息,还可以通过可视化分析直观地了解数据的分布和趋势。当然,实际应用中招标网站的结构可能会更加复杂,可能需要进一步的分析和优化。此外,我们还可以根据需求进一步扩展分析内容,例如对招标金额进行分析、对招标单位进行分析等,以满足不同的业务需求。总之,Python 爬虫和数据可视化技术为我们提供了强大的工具,可以帮助我们更好地理解和利用招标信息,从而为企业决策提供有力支持。

你可能感兴趣的:(python,开发语言)