奔跑吧邓邓子

【Python爬虫(68)】扒一扒招聘网站，让求职“有备而来”

【Python爬虫】专栏简介：本专栏是 Python 爬虫领域的集大成之作，共 100 章节。从 Python 基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。

一、引言
二、爬取准备
- 2.1 确定目标招聘网站
- 2.2 环境搭建
- 2.3 了解网站反爬虫机制及应对策略
三、爬取实战
- 3.1 发送 HTTP 请求获取网页内容
- 3.2 解析网页提取关键数据
- 3.3 处理分页数据
- 3.4 数据存储
- - 存储到 CSV 文件
  - 存储到 SQLite 数据库
四、数据分析
- 4.1 数据清洗
- 4.2 洞察行业人才需求趋势
五、为求职者提供职业规划建议
- 5.1 匹配个人优势与市场需求
- 5.2 技能提升建议
- 5.3 薪资预期建议
六、总结与展望

一、引言

在当今竞争激烈的就业市场中，求职者如同在浩渺星空中寻找最契合自己的那颗 “职业之星”，而招聘网站则是这片星空中的璀璨星系，汇聚了海量的职业信息。对于求职者而言，精准获取这些信息，犹如拥有了一把开启理想职业大门的钥匙。通过爬取招聘网站数据，求职者能够从宏观层面把握行业趋势，了解不同行业的发展态势，从而在职业选择时做出更具前瞻性的决策；从微观角度深入剖析具体职位的要求，如技能、经验、学历等，提前做好针对性的准备，提升自己在求职过程中的竞争力。

对于行业分析者来说，招聘网站数据是一座蕴藏着无限价值的宝藏。它反映了市场的动态变化，企业的招聘需求犹如市场的脉搏，每一次跳动都传递着行业发展的信号。通过对这些数据的深入挖掘和分析，能够洞察行业人才需求的趋势，是技术型人才供不应求，还是管理型人才备受青睐；是新兴行业蓬勃发展带来大量的岗位空缺，还是传统行业在转型升级中对人才提出了新的要求。这些信息对于行业的发展规划、人才培养方向的调整都具有重要的指导意义。

本文将深入探讨如何运用 Python 爬虫技术，精准地从招聘网站中获取职位信息、企业招聘要求以及薪资待遇等关键数据，并在此基础上进行深度分析，挖掘数据背后隐藏的行业人才需求趋势，为求职者提供切实可行的职业规划建议，助力大家在求职的道路上少走弯路，找到属于自己的职业发展方向。

二、爬取准备

2.1 确定目标招聘网站

在浩瀚的网络招聘海洋中，存在着众多各具特色的招聘网站，如前程无忧、智联招聘、BOSS 直聘、拉勾网等。前程无忧和智联招聘历史悠久，拥有庞大的企业用户群体和丰富的职位资源，覆盖了各个行业和领域，无论是传统制造业还是新兴的科技行业，都能在上面找到大量的招聘信息。BOSS 直聘以其独特的直聊模式吸引了众多求职者和企业，让双方能够更直接地沟通交流，提高了招聘和求职的效率。拉勾网则专注于互联网行业，对互联网领域的职位进行了深度的挖掘和分类，为互联网人才提供了精准的求职渠道。

经过综合考量，我们选择 BOSS 直聘作为本次数据爬取的目标网站。这主要是因为其直聊模式使得招聘信息更加实时和准确，企业和求职者的沟通记录也能反映出更多的招聘细节。同时，BOSS 直聘的职位信息更新速度较快，能够及时反映市场的人才需求变化。而且，其网站页面结构相对清晰，便于我们定位和提取所需的数据，降低了爬虫开发的难度。

2.2 环境搭建

Python 作为一种功能强大且简洁易用的编程语言，在爬虫领域有着广泛的应用。首先，我们需要确保 Python 环境已经正确安装。可以从 Python 官方网站（https://www.python.org/downloads/）下载适合自己操作系统的 Python 安装包，按照安装向导的提示进行安装。在安装过程中，注意勾选 “Add Python to PATH” 选项，这样可以方便地在命令行中使用 Python 命令。

接下来，安装爬虫所需的关键库。requests 库是 Python 中用于发送 HTTP 请求的重要工具，它能够方便地模拟浏览器发送各种请求，获取网页的内容。可以使用 pip 命令进行安装：

pip install requests

BeautifulSoup 库则是用于解析 HTML 和 XML 文档的利器，它能够将复杂的网页结构转化为易于操作的对象树，方便我们提取其中的信息。安装命令如下：

pip install beautifulsoup4

此外，如果需要处理一些动态网页，可能还会用到 Selenium 库。Selenium 可以通过驱动浏览器，模拟用户的操作，获取动态加载的内容。安装 Selenium 的同时，还需要下载对应浏览器的驱动，例如 Chrome 浏览器的驱动 ChromeDriver。安装 Selenium 的命令为：

pip install selenium

2.3 了解网站反爬虫机制及应对策略

BOSS 直聘为了保护自身的数据安全和服务器稳定，采取了一系列反爬虫机制。常见的反爬虫手段包括限制 IP 访问频率，如果某个 IP 在短时间内发送过多的请求，就会被认为是爬虫行为，网站可能会对该 IP 进行封禁，限制其访问。验证码也是一种常见的反爬虫方式，当网站检测到异常访问时，会要求用户输入验证码进行验证，只有通过验证才能继续访问。

为了应对这些反爬虫机制，我们可以采取多种策略。使用代理 IP 是一种有效的方法，通过代理服务器发送请求，隐藏我们的真实 IP 地址，避免因频繁请求而被封禁。可以从一些专业的代理 IP 提供商购买代理 IP，或者使用免费的代理 IP 资源，但需要注意其稳定性和可靠性。例如，在使用 requests 库发送请求时，可以通过设置 proxies 参数来使用代理 IP：

import requests

proxies = {
    "http": "http://your_proxy_ip:your_proxy_port",
    "https": "https://your_proxy_ip:your_proxy_port"
}
response = requests.get(url, proxies=proxies)

设置合理的请求头也能降低被识别为爬虫的风险。请求头中包含了许多关于请求的信息，如 User - Agent（用于标识浏览器类型和版本等）、Referer（表示请求的来源页面）等。我们可以模拟真实浏览器的请求头，让网站认为请求是来自正常用户。例如：

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
    "Referer": "https://www.zhipin.com/"
}
response = requests.get(url, headers=headers)

此外，设置合理的请求间隔也很重要。避免短时间内发送大量请求，我们可以在每次请求后添加一定的时间间隔，模拟用户正常的浏览行为。例如，使用 time.sleep () 函数来实现：

import time

for i in range(10):
    response = requests.get(url, headers=headers)
    # 处理响应数据
    time.sleep(2)  # 每次请求后暂停2秒

通过以上这些方法，我们可以有效地应对 BOSS 直聘的反爬虫机制，顺利地进行数据爬取工作。

三、爬取实战

3.1 发送 HTTP 请求获取网页内容

在 Python 中，我们使用 requests 库来发送 HTTP 请求，获取招聘网站的网页内容。requests 库提供了简洁而强大的接口，使得发送各种类型的请求变得轻而易举。下面是一个简单的示例代码，展示如何使用 requests 库获取 BOSS 直聘上 Python 相关职位的搜索页面：

import requests

# 目标URL
url = "https://www.zhipin.com/c101010100/?query=Python&page=1"

# 设置请求头，模拟浏览器访问
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
    "Referer": "https://www.zhipin.com/"
}

# 发送GET请求
response = requests.get(url, headers=headers)

# 检查请求是否成功
if response.status_code == 200:
    # 获取网页源代码
    html_content = response.text
    print("网页内容获取成功")
else:
    print(f"请求失败，状态码: {response.status_code}")

在上述代码中，我们首先定义了目标 URL，这里是 BOSS 直聘上搜索 Python 职位且位于第一页的页面。然后，设置了请求头 headers，其中 User - Agent 用于模拟真实的浏览器，让网站认为请求是来自正常用户；Referer 表示请求的来源页面，这在一些网站中用于防止盗链。接着，使用 requests.get () 方法发送 GET 请求，并将响应存储在 response 变量中。最后，通过检查 response 的 status_code 属性来判断请求是否成功，如果状态码为 200，则表示请求成功，获取网页的源代码并进行后续处理；否则，打印出请求失败的状态码。

3.2 解析网页提取关键数据

获取到网页内容后，我们需要使用解析库来提取其中的关键数据，如职位信息、企业招聘要求、薪资待遇等。这里我们使用 BeautifulSoup 库，它能够将复杂的 HTML 文档转换为易于操作的对象树，方便我们定位和提取所需信息。

首先，我们需要安装 BeautifulSoup 库，如果尚未安装，可以使用以下命令进行安装：

pip install beautifulsoup4

安装完成后，就可以在代码中使用它来解析网页了。以下是具体的解析代码示例，展示如何提取职位名称、企业名称、薪资和招聘要求：

from bs4 import BeautifulSoup

# 假设html_content是之前获取到的网页内容
soup = BeautifulSoup(html_content, "html.parser")

# 提取职位信息
job_list = soup.select("div.job-list li")
for job in job_list:
    # 职位名称
    job_title = job.select_one("div.job-title").text.strip()
    # 企业名称
    company_name = job.select_one("div.company-text div.name").text.strip()
    # 薪资
    salary = job.select_one("span.red").text.strip()
    # 招聘要求，这里假设招聘要求在一个class为job-desc的div标签内
    job_requirements = job.select_one("div.job-desc").text.strip()

    print(f"职位名称: {job_title}")
    print(f"企业名称: {company_name}")
    print(f"薪资: {salary}")
    print(f"招聘要求: {job_requirements}")
    print("-" * 50)

在这段代码中，我们首先使用 BeautifulSoup 将网页内容 html_content 解析为一个对象 soup，指定解析器为 “html.parser”。然后，通过 CSS 选择器 “div.job-list li” 定位到每个职位的列表项。对于每个职位，再使用 select_one () 方法结合相应的 CSS 选择器来提取职位名称、企业名称、薪资和招聘要求。例如，“div.job-title” 用于定位职位名称所在的标签，“.text.strip ()” 则用于获取标签内的文本并去除两端的空白字符。通过这种方式，我们可以准确地从网页中提取出所需的关键数据。

3.3 处理分页数据

大多数招聘网站都会对职位信息进行分页展示，为了获取更多的数据，我们需要处理分页情况。首先，我们需要分析分页 URL 的规律。以 BOSS 直聘为例，观察发现其分页 URL 的变化规律是在原 URL 的基础上添加 “&page = 页码” 参数，如第一页的 URL 为 “https://www.zhipin.com/c101010100/?query=Python&page=1”，第二页为"https://www.zhipin.com/c101010100/?query=Python&page=2"，以此类推。

接下来，我们编写代码实现多页数据的爬取。在爬取过程中，还需要判断是否到达最后一页，以避免无效的请求。一种常见的判断方法是检查页面中是否存在表示下一页的链接或按钮，并且该链接或按钮是否处于禁用状态。如果下一页的链接或按钮处于禁用状态，说明已经到达最后一页。以下是实现多页数据爬取的代码示例：

import requests
from bs4 import BeautifulSoup

# 基础URL
base_url = "https://www.zhipin.com/c101010100/?query=Python&page="

# 模拟浏览器请求头
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
    "Referer": "https://www.zhipin.com/"
}

page = 1
while True:
    # 拼接当前页的URL
    current_url = base_url + str(page)
    response = requests.get(current_url, headers=headers)

    if response.status_code == 200:
        soup = BeautifulSoup(response.text, "html.parser")

        # 提取职位信息
        job_list = soup.select("div.job-list li")
        for job in job_list:
            # 职位名称
            job_title = job.select_one("div.job-title").text.strip()
            # 企业名称
            company_name = job.select_one("div.company-text div.name").text.strip()
            # 薪资
            salary = job.select_one("span.red").text.strip()
            # 招聘要求，这里假设招聘要求在一个class为job-desc的div标签内
            job_requirements = job.select_one("div.job-desc").text.strip()

            print(f"职位名称: {job_title}")
            print(f"企业名称: {company_name}")
            print(f"薪资: {salary}")
            print(f"招聘要求: {job_requirements}")
            print("-" * 50)

        # 判断是否到达最后一页
        next_page = soup.select_one("a.next.disabled")
        if next_page:
            print("已到达最后一页")
            break
        else:
            page += 1
    else:
        print(f"请求第{page}页失败，状态码: {response.status_code}")
        break

在上述代码中，我们使用一个 while 循环来不断请求下一页的数据。每次循环中，首先拼接当前页的 URL，然后发送请求并获取响应。如果请求成功，解析网页并提取职位信息，同时通过检查是否存在 class 为 “next disabled” 的 a 标签（表示下一页按钮已禁用）来判断是否到达最后一页。如果到达最后一页，退出循环；否则，将页码加 1，继续下一页的请求。通过这种方式，我们可以高效地获取招聘网站上的多页数据。

3.4 数据存储

爬取到的数据需要进行存储，以便后续的分析和使用。常见的数据存储方式有多种，如存储到 CSV 文件、数据库等。这里我们分别展示如何将数据存储到 CSV 文件和 SQLite 数据库中。

存储到 CSV 文件

CSV（Comma - Separated Values）文件是一种常见的文本文件格式，以逗号分隔值，适合存储简单的数据表格。在 Python 中，我们可以使用内置的 csv 模块来操作 CSV 文件。以下是将爬取到的职位数据存储到 CSV 文件的代码示例：

import requests
from bs4 import BeautifulSoup
import csv

# 基础URL
base_url = "https://www.zhipin.com/c101010100/?query=Python&page="

# 模拟浏览器请求头
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
    "Referer": "https://www.zhipin.com/"
}

# 打开CSV文件，准备写入数据，newline=''用于避免写入时出现多余的空行
with open('jobs.csv', 'w', newline='', encoding='utf-8') as csvfile:
    fieldnames = ['职位名称', '企业名称', '薪资', '招聘要求']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)

    # 写入表头
    writer.writeheader()

    page = 1
    while True:
        # 拼接当前页的URL
        current_url = base_url + str(page)
        response = requests.get(current_url, headers=headers)

        if response.status_code == 200:
            soup = BeautifulSoup(response.text, "html.parser")

            # 提取职位信息
            job_list = soup.select("div.job-list li")
            for job in job_list:
                # 职位名称
                job_title = job.select_one("div.job-title").text.strip()
                # 企业名称
                company_name = job.select_one("div.company-text div.name").text.strip()
                # 薪资
                salary = job.select_one("span.red").text.strip()
                # 招聘要求，这里假设招聘要求在一个class为job-desc的div标签内
                job_requirements = job.select_one("div.job-desc").text.strip()

                # 写入CSV文件
                writer.writerow({
                    '职位名称': job_title,
                    '企业名称': company_name,
                    '薪资': salary,
                    '招聘要求': job_requirements
                })

            # 判断是否到达最后一页
            next_page = soup.select_one("a.next.disabled")
            if next_page:
                print("已到达最后一页")
                break
            else:
                page += 1
        else:
            print(f"请求第{page}页失败，状态码: {response.status_code}")
            break

在这段代码中，我们首先使用 open () 函数以写入模式打开一个名为 “jobs.csv” 的文件，并指定编码为 “utf-8”，同时设置 newline=‘’ 以避免写入时出现多余的空行。然后，创建一个 csv.DictWriter 对象，指定字段名（即表头）。在爬取每一页数据时，将提取到的职位信息以字典的形式通过 writer.writerow () 方法写入 CSV 文件。这样，所有爬取到的数据都会按行存储在 CSV 文件中，方便后续的数据分析和处理。

存储到 SQLite 数据库

SQLite 是一种轻量级的嵌入式数据库，非常适合在本地进行数据存储和管理。在 Python 中，可以使用 sqlite3 模块来操作 SQLite 数据库。以下是将职位数据存储到 SQLite 数据库的代码示例：

import requests
from bs4 import BeautifulSoup
import sqlite3

# 基础URL
base_url = "https://www.zhipin.com/c101010100/?query=Python&page="

# 模拟浏览器请求头
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
    "Referer": "https://www.zhipin.com/"
}

# 连接到SQLite数据库，如果数据库不存在则会创建一个新的
conn = sqlite3.connect('jobs.db')
c = conn.cursor()

# 创建表
c.execute('''CREATE TABLE IF NOT EXISTS jobs
             (id INTEGER PRIMARY KEY AUTOINCREMENT,
             职位名称 TEXT,
             企业名称 TEXT,
             薪资 TEXT,
             招聘要求 TEXT)''')

page = 1
while True:
    # 拼接当前页的URL
    current_url = base_url + str(page)
    response = requests.get(current_url, headers=headers)

    if response.status_code == 200:
        soup = BeautifulSoup(response.text, "html.parser")

        # 提取职位信息
        job_list = soup.select("div.job-list li")
        for job in job_list:
            # 职位名称
            job_title = job.select_one("div.job-title").text.strip()
            # 企业名称
            company_name = job.select_one("div.company-text div.name").text.strip()
            # 薪资
            salary = job.select_one("span.red").text.strip()
            # 招聘要求，这里假设招聘要求在一个class为job-desc的div标签内
            job_requirements = job.select_one("div.job-desc").text.strip()

            # 插入数据到数据库
            c.execute("INSERT INTO jobs (职位名称, 企业名称, 薪资, 招聘要求) VALUES (?,?,?,?)",
                      (job_title, company_name, salary, job_requirements))

        # 判断是否到达最后一页
        next_page = soup.select_one("a.next.disabled")
        if next_page:
            print("已到达最后一页")
            break
        else:
            page += 1
    else:
        print(f"请求第{page}页失败，状态码: {response.status_code}")
        break

# 提交事务并关闭连接
conn.commit()
conn.close()

在上述代码中，首先使用 sqlite3.connect () 方法连接到名为 “jobs.db” 的 SQLite 数据库，如果该数据库不存在，则会自动创建一个新的数据库。然后，通过游标对象 c 执行 SQL 语句，创建一个名为 “jobs” 的表，表中包含 id（自增长主键）、职位名称、企业名称、薪资和招聘要求等字段。在爬取每一页数据时，将提取到的职位信息通过 c.execute () 方法执行 INSERT INTO 语句插入到数据库表中。最后，提交事务并关闭数据库连接，确保数据的完整性和安全性。通过这种方式，我们可以将爬取到的招聘数据存储到 SQLite 数据库中，方便进行更复杂的数据查询和分析操作。

四、数据分析

4.1 数据清洗

从招聘网站爬取的数据往往存在各种质量问题，如缺失值、重复值和异常值，这些问题会严重影响数据分析的准确性和可靠性，因此数据清洗是数据分析前至关重要的一步。

处理缺失值时，我们需要根据数据的特点和实际情况选择合适的方法。以薪资字段为例，如果某个职位的薪资信息缺失，若缺失值较少，直接删除该数据行可能对整体分析影响不大；但如果缺失值较多，全部删除会导致数据量大幅减少，影响分析结果的代表性。此时，可以采用填充的方法，比如对于一些技术岗位，如果该岗位在市场上有较为明确的薪资范围，可以通过分析其他同类型岗位的薪资数据，取其平均值或中位数来填充缺失的薪资值。在 Python 中，使用 pandas 库处理缺失值十分便捷。假设我们将爬取到的数据存储在一个 DataFrame 对象 df 中，可以通过以下代码检查各列的缺失值数量：

import pandas as pd

# 读取数据
df = pd.read_csv('jobs.csv')
# 检查缺失值
missing_values = df.isnull().sum()
print(missing_values)

对于薪资描述、公司名称等字段，可以填充为空字符串 “”；对于年限要求、学历要求等字段，填充为 “未指定” 或其他默认值。对于缺失较多的数据行（如超过 50% 字段缺失），可以考虑删除：

# 填充缺失值
df['薪资'].fillna("", inplace=True)
df['公司名称'].fillna("", inplace=True)
df['年限要求'].fillna("未指定", inplace=True)
df['学历要求'].fillna("未指定", inplace=True)

# 删除超过50%字段缺失的行
df.dropna(thresh=len(df.columns)*0.5, axis=0, inplace=True)

重复值的存在会占用存储空间，增加计算资源的消耗，并且可能导致分析结果出现偏差。在招聘数据中，可能会出现由于网络波动或爬虫程序异常导致重复抓取的职位信息。使用 pandas 库的 duplicated () 方法可以轻松检查数据中是否存在重复行，该方法会返回一个布尔序列，指示每一行是否为重复行。通过 sum () 方法可以统计重复行的数量，然后使用 drop_duplicates () 方法删除重复行，确保数据的唯一性。示例代码如下：

# 检查重复数据
duplicates = df.duplicated().sum()
print(f"重复行数量：{duplicates}")

# 删除重复行
df.drop_duplicates(inplace=True)

异常值是指那些明显偏离其他数据的观测值，它们可能是由于数据录入错误、数据采集设备故障或其他异常原因导致的。在招聘数据中，薪资和工作经验等数值字段可能会出现异常值。比如，在薪资字段中，如果出现月薪为 1 元或者 100 万元这样明显不符合常理的数据，就需要进行处理。使用箱线图可以直观地检测异常值，箱线图能够展示数据的分布情况，包括最小值、第一四分位数、中位数、第三四分位数和最大值。通过观察箱线图中是否存在超出正常范围的点（即异常值），可以判断数据是否存在异常。对于异常值，可以选择删除、替换或进行特殊处理。例如，如果发现某个职位的薪资异常高，可能是数据录入错误，可以通过进一步核实或参考同行业同职位的薪资水平进行修正；如果是真实存在的高薪职位，但不符合整体数据的分布规律，可以将其单独标记出来，在后续分析中进行特殊考虑。在 Python 中，可以使用 matplotlib 库绘制箱线图来检测薪资字段的异常值，并通过条件筛选删除异常值：

import matplotlib.pyplot as plt

# 绘制箱线图
plt.figure(figsize=(10, 6))
df['薪资'].plot(kind='box')
plt.title("薪资分布箱线图")
plt.show()

# 删除异常值（假设薪资低于3000或高于30000的职位为异常值）
df = df[(df['薪资'] >= 3000) & (df['薪资'] <= 30000)]

4.2 洞察行业人才需求趋势

通过对清洗后的数据进行多维度分析，我们能够深入洞察行业人才需求的趋势，为求职者和行业相关人士提供有价值的参考。

从职位类型分布来看，不同行业的职位需求差异明显。以互联网行业为例，通过对爬取的招聘数据进行统计分析，我们可以发现软件开发工程师、数据分析师、产品经理等职位的招聘数量占据了较大比例。在过去几年中，随着大数据、人工智能等技术的快速发展，数据分析师和算法工程师等相关职位的需求呈现出爆发式增长。据相关数据统计，在 2023 年，数据分析师职位的招聘量相比上一年增长了 30%，这表明互联网行业对于数据处理和分析能力的重视程度不断提高。我们可以使用 Python 的 pandas 和 matplotlib 库来绘制职位类型分布的柱状图，直观地展示不同职位类型的需求情况：

import pandas as pd
import matplotlib.pyplot as plt

# 读取数据
df = pd.read_csv('jobs.csv')

# 统计职位类型分布
job_type_distribution = df['职位名称'].value_counts()

# 绘制柱状图
job_type_distribution.plot(kind='bar', figsize=(12, 6))
plt.title('职位类型分布')
plt.xlabel('职位名称')
plt.ylabel('招聘数量')
plt.show()

技能要求是衡量行业人才需求的重要指标之一。在互联网行业，对于编程语言的掌握是许多职位的基本要求。例如，Python 作为一种广泛应用于数据科学、人工智能和软件开发等领域的编程语言，在招聘要求中频繁出现。通过对招聘数据中技能要求字段的文本分析，我们可以使用 Python 的自然语言处理库（如 jieba）对技能要求进行分词处理，然后统计每个技能词的出现频率，从而了解企业对不同技能的需求程度。以数据分析师职位为例，除了 Python 外，SQL、Excel、机器学习算法等技能也是企业重点关注的。在数据分析师的招聘要求中，提及 SQL 的频率达到了 80%，这说明数据查询和处理能力是数据分析师必备的技能之一。我们可以使用词云图来直观地展示技能要求的分布情况，使用 wordcloud 库生成词云图的示例代码如下：

from wordcloud import WordCloud
import jieba
import matplotlib.pyplot as plt

# 读取数据
df = pd.read_csv('jobs.csv')

# 提取技能要求字段
skills = df['招聘要求'].str.cat(sep=' ')

# 分词处理
words = jieba.lcut(skills)

# 生成词云图
wordcloud = WordCloud(width=800, height=400, background_color='white').generate(' '.join(words))

# 显示词云图
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.title('技能要求词云图')
plt.show()

学历和经验要求反映了企业对于人才层次和工作经历的期望。通过对招聘数据的分析，我们可以发现不同行业和职位对学历和经验的要求各不相同。在金融行业，对于一些高级管理职位和核心技术岗位，硕士及以上学历的要求较为普遍。例如，投资银行的高级分析师职位，80% 以上要求应聘者具有硕士及以上学历，并且需要有 5 年以上相关工作经验。而在一些新兴的互联网创业公司，对于技术岗位，本科及以上学历且有 3 年左右工作经验的人才需求较大。我们可以使用 pandas 的 pivot_table () 函数来统计不同学历和经验要求下的职位数量，然后使用 seaborn 库绘制热力图进行可视化展示：

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# 读取数据
df = pd.read_csv('jobs.csv')

# 统计不同学历和经验要求下的职位数量
pivot_data = pd.pivot_table(df, index='学历要求', columns='年限要求', aggfunc='size', fill_value=0)

# 绘制热力图
plt.figure(figsize=(10, 6))
sns.heatmap(pivot_data, annot=True, fmt='d', cmap='YlGnBu')
plt.title('学历与经验要求分布')
plt.xlabel('年限要求')
plt.ylabel('学历要求')
plt.show()

薪资水平是求职者关注的重点，同时也能反映行业的人才价值和市场供需关系。通过对薪资数据的分析，我们可以了解不同职位、不同地区的薪资水平差异。以北京、上海、深圳等一线城市为例，互联网行业的软件开发工程师职位，平均月薪普遍在 15k - 25k 之间，而在二线城市如杭州、南京，平均月薪则在 10k - 18k 左右。我们可以使用 pandas 和 matplotlib 库绘制不同城市和职位的薪资箱线图，展示薪资的分布情况和差异：

import pandas as pd
import matplotlib.pyplot as plt

# 读取数据
df = pd.read_csv('jobs.csv')

# 绘制不同城市和职位的薪资箱线图
plt.figure(figsize=(12, 8))
sns.boxplot(x='工作城市', y='薪资', hue='职位名称', data=df)
plt.title('不同城市和职位的薪资分布')
plt.xlabel('工作城市')
plt.ylabel('薪资')
plt.legend(title='职位名称', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.show()

通过以上对招聘数据的多维度分析，我们能够全面、深入地洞察行业人才需求趋势，为求职者制定合理的职业规划和企业制定有效的招聘策略提供有力的数据支持。

五、为求职者提供职业规划建议

5.1 匹配个人优势与市场需求

在职业规划的征程中，求职者宛如在浩瀚星空中寻找最适合自己的那颗职业之星，而将个人优势与市场需求精准匹配则是指引方向的关键导航。根据前文对招聘数据的深入分析，我们能清晰洞察各行业的人才需求趋势。例如，在互联网行业蓬勃发展的当下，软件开发、数据分析、人工智能等领域呈现出旺盛的人才需求。倘若求职者在编程方面具备扎实的基础，对代码有着浓厚的兴趣和独特的天赋，那么投身软件开发领域或许是一个明智之选。在这个领域中，他们可以凭借自身的编程技能，参与到各类软件项目的开发中，从基础的应用程序到复杂的系统架构，不断发挥自己的优势，实现个人价值的最大化。

又比如，若求职者擅长数据处理和分析，对数据有着敏锐的洞察力，那么数据分析师的岗位则与他们的优势高度契合。在这个岗位上，他们能够运用所学的数据分析工具和方法，如 Python 的 pandas、numpy 库，以及专业的数据分析软件 Tableau 等，对海量的数据进行清洗、分析和可视化呈现，为企业的决策提供有力的数据支持。通过深入挖掘数据背后的信息，他们可以帮助企业发现潜在的市场机会，优化业务流程，提升运营效率。

再以金融行业为例，随着金融科技的迅速崛起，对既懂金融知识又具备一定技术能力的复合型人才需求大增。如果求职者拥有金融专业背景，同时又掌握编程、数据分析等技能，那么在金融科技领域将大有可为。他们可以参与到金融产品的创新研发中，利用技术手段优化金融服务流程，提高金融风险的防控能力，为金融行业的发展注入新的活力。

5.2 技能提升建议

针对热门职位和技能要求，求职者应积极主动地提升自身技能，以满足市场的需求，增强自己在职场上的竞争力。对于渴望从事软件开发的求职者来说，深入学习编程语言是至关重要的。Python 作为一种广泛应用于软件开发、数据分析、人工智能等领域的编程语言，具有简洁、高效、易上手等优点，是众多开发者的首选。求职者可以通过在线学习平台，如慕课网、网易云课堂等，学习 Python 的基础语法、数据结构、算法等知识，并通过实际项目的练习，提升自己的编程能力。例如，参与开源项目，与其他开发者共同协作，不仅可以积累项目经验，还能拓宽自己的技术视野，学习到更多先进的开发理念和技术。

在数据处理和分析方面，掌握专业的工具和技能是必不可少的。除了前文提到的 Python 的相关库，SQL 作为一种用于数据库管理和查询的语言，在数据处理中发挥着重要作用。求职者可以通过学习 SQL，掌握数据库的基本操作，如数据的插入、更新、查询和删除等，能够从数据库中高效地获取所需的数据。同时，学习数据可视化工具，如 Tableau、PowerBI 等，将数据分析结果以直观、美观的图表形式呈现出来，使数据更易于理解和解读。通过参加相关的培训课程和实践项目，求职者可以不断提升自己的数据处理和分析能力，为从事数据分析师等相关岗位打下坚实的基础。

对于想要进入人工智能领域的求职者，机器学习和深度学习是核心技能。机器学习算法如线性回归、决策树、支持向量机等，是实现人工智能的基础。求职者可以通过阅读专业书籍，如《机器学习实战》《深度学习》等，深入学习这些算法的原理和应用。同时，利用开源的机器学习框架，如 TensorFlow、PyTorch 等，进行实际项目的开发和实践。例如，搭建一个图像识别模型，对不同类别的图像进行分类和识别；或者开发一个自然语言处理模型，实现文本的情感分析、机器翻译等功能。通过不断地实践和探索，求职者可以逐渐掌握机器学习和深度学习的技能，在人工智能领域中崭露头角。

5.3 薪资预期建议

依据薪资数据分析，帮助求职者合理设定薪资预期是职业规划中不可或缺的一环。薪资水平受到多种因素的影响，如行业、地区、工作经验、技能水平等。在不同行业中，薪资水平存在显著差异。以互联网行业和传统制造业为例，互联网行业由于其创新性和快速发展的特点，对人才的需求旺盛，薪资水平普遍较高。而传统制造业的薪资水平相对较低，但随着制造业的转型升级，对高端技术人才的需求增加，相关岗位的薪资也在逐渐提升。

地区因素对薪资的影响也十分明显。一线城市如北京、上海、深圳等，经济发达，企业众多，就业机会丰富，薪资水平往往高于二三线城市。以软件开发工程师岗位为例，在一线城市的平均月薪可能在 15k - 25k 之间，而在二线城市如杭州、南京，平均月薪则在 10k - 18k 左右。工作经验和技能水平也是决定薪资的关键因素。一般来说，工作经验越丰富，技能水平越高，薪资也就越高。例如，一位拥有 5 年以上工作经验的资深数据分析师，其薪资往往会比刚入行的新手高出数倍。

求职者在设定薪资预期时，应充分考虑这些因素。可以通过参考招聘网站上同行业、同地区、同岗位的薪资范围，了解市场行情。同时，结合自己的实际情况，如工作经验、技能水平、学历等，合理评估自己的价值。如果自身技能水平较高，且拥有相关的项目经验，那么可以适当提高薪资预期；反之，如果经验不足，技能还有待提升，则应保持相对合理的薪资期望。在与企业进行薪资谈判时，要自信地展示自己的优势和价值，同时也要保持一定的灵活性，以达成双方都满意的薪资协议。

六、总结与展望

在当今数字化时代，招聘网站犹如一座蕴藏着无限机遇与信息的宝库，而 Python 爬虫技术则为我们打开了这座宝库的大门。通过本文详细阐述的爬取招聘网站数据的过程，我们能够精准地获取职位信息、企业招聘要求以及薪资待遇等关键数据。这些数据不仅是求职者了解市场需求、规划职业发展的重要依据，也是行业分析者洞察人才需求趋势、把握市场动态的有力工具。

对于求职者而言，这些数据犹如一盏明灯，照亮了他们在求职道路上的前行方向。通过对招聘数据的分析，求职者能够清晰地了解不同行业、不同职位的技能要求和薪资水平，从而更好地匹配个人优势与市场需求。在技能提升方面，根据数据分析得出的热门技能和职位要求，求职者可以有针对性地学习和提升自己的技能，如深入学习 Python 编程、掌握数据处理和分析工具等，增强自己在职场上的竞争力。在薪资预期方面，依据薪资数据分析，求职者能够更加合理地设定自己的薪资目标，在与企业的薪资谈判中做到心中有数，争取到更符合自身价值的薪资待遇。

从行业发展的角度来看，招聘数据的分析为企业制定招聘策略、优化人才结构提供了重要参考。企业可以根据人才需求趋势，提前布局，招聘和培养符合企业发展战略的人才。同时，对于行业研究机构和政府部门来说，这些数据也有助于了解行业的发展态势和人才供需状况，为制定相关政策和规划提供数据支持。

展望未来，随着互联网技术的不断发展和招聘市场的日益成熟，爬虫技术在招聘领域的应用前景将更加广阔。一方面，随着人工智能、大数据等技术的不断进步，爬虫技术将更加智能化和高效化。未来的爬虫不仅能够更加精准地获取招聘数据，还能够对数据进行实时分析和处理，为求职者和企业提供更加及时、准确的信息服务。例如，利用自然语言处理技术，爬虫可以自动解析招聘要求中的关键技能和职责，为求职者提供更精准的职位推荐；利用机器学习算法，爬虫可以根据求职者的简历和求职历史，预测其适合的职位和薪资水平，为求职者提供个性化的职业规划建议。

另一方面，随着数据安全和隐私保护意识的不断提高，爬虫技术在应用过程中也将更加注重合法性和合规性。未来的爬虫将需要遵循更加严格的法律法规和道德准则，确保数据的合法获取和使用。同时，招聘网站也将不断加强反爬虫技术的研发和应用，这将促使爬虫技术不断创新和升级，以适应新的挑战。例如，爬虫开发者可以采用更加智能的反反爬虫策略，如动态 IP 切换、请求频率控制、验证码识别技术等，确保爬虫的稳定运行和数据的有效获取。

Python 爬虫技术在招聘网站数据爬取和分析领域已经展现出了巨大的价值，未来也将继续发挥重要作用。我们期待着爬虫技术在招聘领域能够不断创新和发展，为求职者和企业创造更多的价值，推动整个招聘行业的智能化、高效化发展。

你可能感兴趣的:(Python爬虫,python,爬虫,开发语言,招聘网站)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
Jupyter Notebook：数据科学的“瑞士军刀” a小胡哦机器学习基础人工智能机器学习
在数据科学的世界里，JupyterNotebook是一个不可或缺的工具，它就像是数据科学家手中的“瑞士军刀”，功能强大且灵活多变。今天，就让我们一起深入了解这个神奇的工具。一、JupyterNotebook是什么？JupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它支持多种编程语言，其中Python是最常用的语言之一。Jupy
Django学习笔记（一）
学习视频为：pythondjangoweb框架开发入门全套视频教程一、安装pipinstalldjango==****检查是否安装成功django.get_version()二、django新建项目操作1、新建一个项目django-adminstartprojectproject_name2、新建APPcdproject_namedjango-adminstartappApp注：一个project
Python 程序设计讲义（26）：字符串的用法——字符的编码睿思达DBA_WGX Python 讲义 python 开发语言
Python程序设计讲义（26）：字符串的用法——字符的编码目录Python程序设计讲义（26）：字符串的用法——字符的编码一、字符的编码二、`ASCII`编码三、`Unicode`编码四、使用`ord()`函数查询一个字符对应的`Unicode`编码五、使用`chr()`函数查询一个`Unicode`编码对应的字符六、`Python`字符串的特征一、字符的编码计算机默认只能处理二进制数，而不能处
【Python】pypinyin-汉字拼音转换工具鸟哥大大 Python python 自然语言处理
文章目录1.主要功能2.安装3.常用API3.1拼音风格3.2核心API3.2.1pypinyin.pinyin()3.2.2pypinyin.lazy_pinyin()3.2.3pypinyin.load_single_dict()3.2.4pypinyin.load_phrases_dict()3.2.5pypinyin.slug()3.3注册新的拼音风格4.基本用法4.1库导入4.2基本汉字
python编程第十四课：数据可视化小小源助手 Python代码实例信息可视化 python 开发语言
Python数据可视化：让数据“开口说话”在当今数据爆炸的时代，数据可视化已成为探索数据规律、传达数据信息的关键技术。Python凭借其丰富的第三方库，为数据可视化提供了强大而灵活的解决方案。本文将带你深入了解Matplotlib库的基础绘图、Seaborn库的高级可视化以及交互式可视化工具Plotly，帮助你通过图表清晰地展示数据背后的故事。一、Matplotlib库基础绘图Matplotlib
Python数据可视化：用代码绘制数据背后的故事 AAEllisonPang Python 信息可视化 python 开发语言
引言：当数据会说话在数据爆炸的时代，可视化是解锁数据价值的金钥匙。Python凭借其丰富的可视化生态库，已成为数据科学家的首选工具。本文将带您从基础到高级，探索如何用Python将冰冷数字转化为引人入胜的视觉叙事。一、基础篇：二维可视化的艺术表达1.1Matplotlib：可视化领域的瑞士军刀importmatplotlib.pyplotaspltimportnumpyasnpx=np.linsp
python学习笔记（汇总）朕的剑还未配妥 python学习笔记整理 python 学习开发语言
文章目录一.基础知识二.python中的数据类型三.运算符四.程序的控制结构五.列表六.字典七.元组八.集合九.字符串十.函数十一.解决bug一.基础知识print函数字符串要加引号，数字可不加引号，如print(123.4)print('小谢')print("洛天依")还可输入表达式，如print(1+3)如果使用三引号，print打印的内容可不在同一行print("line1line2line
Gerapy爬虫管理框架深度解析：企业级分布式爬虫管控平台 Python×CATIA工业智造爬虫分布式 python pycharm
引言：爬虫工程化的必然选择随着企业数据采集需求指数级增长，传统单点爬虫管理模式面临三重困境：管理效率瓶颈：手动部署耗时占开发总时长的40%以上系统可靠性低：研究显示超过65%的爬虫故障源于部署或调度错误资源利用率差：平均爬虫服务器CPU利用率不足30%爬虫管理方案对比：┌───────────────┬─────────────┬───────────┬───────────┬──────────
PDF转Markdown - Python 实现方案与代码 Eiceblue Python Python PDF pdf python 开发语言 vscode
PDF作为广泛使用的文档格式，转换为轻量级标记语言Markdown后，可无缝集成到技术文档、博客平台和版本控制系统中，提高内容的可编辑性和可访问性。本文将详细介绍如何使用国产Spire.PDFforPython库将PDF文档转换为Markdown格式。技术优势：精准保留原始文档结构（段落/列表/表格）完整提取文本和图像内容无需Adobe依赖的纯Python实现支持Linux/Windows/mac
使用Python和Gradio构建实时数据可视化工具 PythonAI编程架构实战家信息可视化 python 开发语言 ai
使用Python和Gradio构建实时数据可视化工具关键词：Python、Gradio、数据可视化、实时数据、Web应用、交互式界面、数据科学摘要：本文将详细介绍如何使用Python和Gradio框架构建一个实时数据可视化工具。我们将从基础概念开始，逐步深入到核心算法实现，包括数据处理、可视化技术以及Gradio的交互式界面设计。通过实际项目案例，读者将学习如何创建一个功能完整、响应迅速的实时数据
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
数据可视化：数据世界的直观呈现卢政权1 信息可视化数据分析数据挖掘
在当今数字化浪潮中，数据呈爆炸式增长。数据可视化作为一种强大的技术手段，能够将复杂的数据转化为直观的图形、图表等形式，让数据背后的信息一目了然。无论是在商业决策、科学研究还是日常数据分析中，数据可视化都发挥着极为重要的作用。它帮助我们快速理解数据的分布、趋势、关联等特征，从而为进一步的分析和行动提供有力支持。接下来，我们将深入探讨数据可视化的奥秘，并通过代码示例展示其实际应用。一、Python数据
Python 程序设计讲义（25）：循环结构——嵌套循环
Python程序设计讲义（25）：循环结构——嵌套循环目录Python程序设计讲义（25）：循环结构——嵌套循环一、嵌套循环的执行流程二、嵌套循环对应的几种情况1、内循环和外循环互不影响2、外循环迭代影响内循环的条件3、外循环迭代影响内循环的循环体嵌套循环是指在一个循环体中嵌套另一个循环。while循环中可以嵌入另一个while循环或for循环。反之，也可以在for循环中嵌入另一个for循环或wh
基于Python引擎的PP-OCR模型库推理张欣-男 python ocr 开发语言 PaddleOCR PaddlePaddle
基于Python引擎的PP-OCR模型库推理1.文本检测模型推理#下载超轻量中文检测模型：wgethttps://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_det_infer.tartarxfch_PP-OCRv3_det_infer.tarpython3tools/infer/predict_det.py--image_dir=".
一个开源AI牛马神器 | AiPy，平替Manus，装完直接上手写Python！ Agent加载失败人工智能 python 开源算法 AI编程
还记得三个月前那个在闲鱼被炒到万元邀请码的Manus吗？现在你点官网，直接提示「所在地区不可用」了它走了，但更香的国产开源项目出现了：AiPy（爱派）。主打一个极致简化的AIAgent理念：别搞什么插件市场、Agent路由，直接给AI一个Python解释器，让它用自然语言写代码干活。听起来狠活？实际体验更狠：•完全本地化，界面傻瓜式操作，支持自然语言生成&执行Python任务；•数据清洗、文档总结
零数学基础理解AI核心概念：梯度下降可视化实战九章云极AladdinEdu 人工智能 gpu算力深度学习 pytorch python 语言模型 opencv
点击“AladdinEdu，同学们用得起的【H卡】算力平台”，H卡级别算力，按量计费，灵活弹性，顶级配置，学生专属优惠。用Python动画演示损失函数优化过程，数学公式具象化读者收获：直观理解模型训练本质，破除"数学恐惧症"当盲人登山者摸索下山路径时，他本能地运用了梯度下降算法。本文将用动态可视化技术，让你像感受重力一样理解AI训练的核心原理——无需任何数学公式推导。一、梯度下降：AI世界的"万有
2025.07 Java入门笔记01 殷浩焕笔记
一、熟悉IDEA和Java语法（一）LiuCourseJavaOOP1.一直在用C++开发，python也用了些，Java是真的不熟，用什么IDE还是问的同事；2.一开始安装了jdk-23，拿VSCode当编辑器，在cmd窗口编译运行，也能玩；但是想正儿八经搞项目开发，还是需要IDE；3.安装了IDEA社区版：（1）IDE通常自带对应编程语言的安装包，例如IDEA自带jbr-21（和jdk是不同的
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str