爱分享的飘哥

第二十四篇 Requests+BeautifulSoup，秒抓网站信息！你的智能信息收集器！

python 爬虫

序言：手动复制粘贴网页数据？效率太低了
1.网页数据抓取基础：HTTP请求与网页结构速览
- 1.1 HTTP请求：浏览器如何和网页交互？
- 1.2 网页结构：HTML，信息的载体
2. Requests库：发送网络请求的利器
- 2.1 安装与基础用法：你的第一个HTTP请求
- 2.2 处理请求头与参数：模拟浏览器访问
3. BeautifulSoup：解析网页的利器
- 3.1 安装与基础用法：快速解析HTML内容
- 3.2 精准定位元素：CSS选择器与Tag查找
4.实战：秒抓网站信息！你的智能信息收集器
- 4.1 案例一：抓取新闻标题与链接
- 4.2 案例二：批量抓取电商商品信息
5.尾声：静态网页数据抓取，开启信息获取新维度！

序言：手动复制粘贴网页数据？效率太低了

在职场中，你是不是也经常需要从各种网站上获取信息？

市场调研：需要收集竞品官网的商品价格、库存信息。

内容创作：需要收集大量新闻标题、文章摘要作为素材。

我们将手把手教你如何利用Python的Requests库和BeautifulSoup库，轻松实现：

发送网络请求：像浏览器一样访问网页。

解析网页内容：从复杂的HTML中精准提取你想要的数据。

自动化数据采集：批量高效地获取网站信息。

1.网页数据抓取基础：HTTP请求与网页结构速览

要像Python一样从网站上获取信息，我们首先要了解两个基础概念：

HTTP请求

网页结构

1.1 HTTP请求：浏览器如何和网页交互？

如何实现：每次你在浏览器输入网址，点击链接，其实就是浏览器向网站服务器发送了一个HTTP请求。服务器收到请求后，返回网页数据（HTML、CSS、JavaScript等）。

HTTP方法：

GET：最常见，用于获取资源，如访问网页、下载图片。

POST：用于提交数据，如登录、提交表单。

URL：统一资源定位符，即网址，指明了要访问的资源位置。
请求头 (Headers)：包含浏览器信息（User-Agent）、Cookie等，告诉服务器你是谁、想做什么。

响应 (Response)：服务器返回的数据，包括状态码（200 OK，404 Not Found等）和响应体（通常是HTML内容）。

1.2 网页结构：HTML，信息的载体

作用：网页内容主要是由HTML编写的。HTML使用标签（）来定义网页的结构和内容，例如标题（

）、段落（
）、链接（）、图片（）、表格（
）等。

标签与属性：标签可以有属性，提供额外信息。

例如，href是属性。

嵌套结构： HTML元素可以嵌套，形成树形结构，方便我们层层深入找到想要的数据

代码：

<div class="news-item">
    <h2><a href="/news/detail/123">最新新闻标题</a></h2>
    <p class="summary">这是一段新闻摘要...</p>
    <span class="date">2023-10-27</span>
</div>

2. Requests库：发送网络请求的利器

Requests库是Python中发送HTTP请求的利器，它比Python内置的urllib更简单、更人性化。它是实现Python网页数据抓取的第一步。

作用： Requests将复杂的HTTP请求封装成简单的函数调用，你只需要指定URL，就能获取网页内容

安装;

pip install requests

2.1 安装与基础用法：你的第一个HTTP请求

让我们来发送你的第一个HTTP GET请求，获取一个网页的HTML内容！

代码：

import requests # 导入requests库

def fetch_webpage_content(url):
    """
    发送HTTP GET请求，获取网页内容。
    这是Requests库基础用法，你的第一个HTTP请求。
    :param url: 目标网页的URL
    :return: 网页的HTML文本，或None如果请求失败
    """
    print(f" 正在发送GET请求到：{url}")
    try:
        # 发送GET请求，获取响应
        response = requests.get(url) 
        response.raise_for_status() # 检查请求是否成功（200 OK），如果不是则抛出异常

        # 打印响应状态码
        print(f"   ✅ 请求成功！状态码：{response.status_code}")
        # 返回响应的文本内容（即网页的HTML代码）
        return response.text 
    except requests.exceptions.RequestException as e:
        print(f"❌ 请求失败：{e}")
        return None

if __name__ == "__main__":
    # 请替换为你要抓取的网页URL
    # 建议选择一个内容简单、不涉及登录的静态网页进行测试
    # 例如：一个新闻网站的某个文章页，或一个简单的博客页面
    test_url = "https://www.example.com" # 替换为你自己的测试URL

    html_content = fetch_webpage_content(test_url)
    if html_content:
        print("\n--- 网页HTML内容截取 (前500字符) ---")
        print(html_content[:500]) # 打印HTML内容的前500字符

步骤：

安装库： pip install requests。

修改代码URL：复制上方代码到VS Code，保存为fetch_html.py。修改 test_url 为你要抓取的网页URL。

运行：在VS Code终端运行 python fetch_html.py。## 2.2 处理请求头与参数：模拟浏览器访问

2.2 处理请求头与参数：模拟浏览器访问

场景：有些网站会检测你是否是真实的浏览器访问，或者需要你在请求中带上特定的参数（如查询参数）。直接发送请求可能会被拒绝。

方案： Requests允许你轻松添加自定义的请求头（如User-Agent）和URL查询参数，模拟更真实的浏览器行为。

代码：

import requests

def fetch_with_headers_params(url, headers=None, params=None):
    """
    发送带请求头和/或URL参数的HTTP GET请求。
    模拟浏览器访问，这是Python Requests教程的进阶用法。
    :param url: 目标网页的URL
    :param headers: 请求头字典 (如 {'User-Agent': '...'})
    :param params: URL查询参数字典 (如 {'query': 'python'})
    :return: 网页的HTML文本，或None
    """
    print(f" 正在发送带Headers/Params的GET请求到：{url}")
    print(f"   Headers: {headers}")
    print(f"   Params: {params}")
    try:
        response = requests.get(url, headers=headers, params=params)
        response.raise_for_status()
        print(f"   ✅ 请求成功！状态码：{response.status_code}")
        # 打印最终请求的URL，可以看到参数被正确拼接
        print(f"   实际请求URL：{response.url}")
        return response.text
    except requests.exceptions.RequestException as e:
        print(f"❌ 请求失败：{e}")
        return None

if __name__ == "__main__":
    # 模拟浏览器User-Agent，防止被网站识别为爬虫
    my_headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
    }

    # 搜索查询参数 (例如：在Baidu搜索“Python自动化”)
    search_params = {
        'wd': 'Python自动化',
        'ie': 'utf-8'
    }

    # 示例1：带User-Agent访问网站
    # test_url_with_headers = "https://www.baidu.com" # 访问百度
    # fetch_with_headers_params(test_url_with_headers, headers=my_headers)

    # 示例2：带查询参数进行搜索
    search_url = "https://www.baidu.com/s" # 百度搜索的URL
    fetch_with_headers_params(search_url, headers=my_headers, params=search_params)

展示：

3. BeautifulSoup：解析网页的利器

拿到网页的HTML内容后，它还是一堆字符串。我们需要BeautifulSoup这个强大的利器，它能将杂乱的HTML代码解析成易于操作的结构，让我们精准定位和提取

作用： BeautifulSoup将HTML/XML文档解析成一个树形结构，你可以像导航文件目录一样，通过标签名、属性、CSS选择器等方式找到你想要的元素。

安装BeautifulSoup：

pip install beautifulsoup4

3.1 安装与基础用法：快速解析HTML内容

让我们来解析一份HTML内容，体验BeautifulSoup的基础用法。

代码：

from bs4 import BeautifulSoup # 导入BeautifulSoup类
import requests # 假设requests已安装

def parse_html_basic(html_content):
    """
    使用BeautifulSoup解析HTML内容并提取基本信息。
    这是BeautifulSoup教程的入门。
    :param html_content: 网页的HTML文本
    """
    if not html_content: return print("❌ HTML内容为空，无法解析。")
    
    print(" 正在使用BeautifulSoup解析HTML内容...")
    
    # **核心操作：创建BeautifulSoup对象**
    soup = BeautifulSoup(html_content, 'html.parser') # 'html.parser'是Python内置的HTML解析器
    
    # 获取页面标题
    title = soup.title.string if soup.title else "无标题"
    print(f"   ✅ 页面标题：{title}")

    # 获取所有段落文本
    paragraphs = soup.find_all('p') # 查找所有<p>标签
    print("\n   --- 所有段落内容 ---")
    for i, p in enumerate(paragraphs[:3]): # 只打印前3个
        print(f"   [{i+1}] {p.get_text()[:50]}...") # get_text()提取标签内的纯文本

    # 获取所有链接
    links = soup.find_all('a') # 查找所有<a>标签
    print("\n   --- 所有链接 (前5个) ---")
    for i, link in enumerate(links[:5]):
        href = link.get('href') # 获取href属性值
        text = link.get_text() # 获取链接文本
        print(f"   [{i+1}] 文本：'{text[:30]}...' | 链接：'{href}'")
    
    print("✨ HTML内容解析完成！")

if __name__ == "__main__":
    # 示例HTML内容
    sample_html = """
    
    示例网页
    
        欢迎来到自动化世界！
        -item">
            这是第一段内容。
            这是第二段，/about">了解更多。
        
        这是第三段，用于演示。
        /contact">联系我们
    
    
    """
    parse_html_basic(sample_html)

步骤：

安装库： pip install beautifulsoup4。

修改代码HTML：复制上方代码到VS Code，保存为

parse_html.py。你可以修改sample_html内容来测试。

运行：运行 python parse_html.py。

3.2 精准定位元素：CSS选择器与Tag查找

场景：网页内容复杂，你只想提取某个特定区域（如新闻列表）中的标题或价格，而不是所有p标签或a标签。

方案： BeautifulSoup支持通过标签名、属性、CSS类名、ID等多种方式精准定位你想要的HTML元素。
find() / find_all()：最常用的查找方法，查找第一个匹配的标签或所有匹配的标签。

select()：使用CSS选择器语法进行查找，非常强大和灵活。

代码：

from bs4 import BeautifulSoup
import requests

def extract_specific_data(url):
    """
    从指定URL的网页中提取特定数据（如新闻标题和链接）。
    这是Python网页数据抓取和网页信息提取的关键。
    :param url: 目标网页URL
    """
    html_content = requests.get(url).text # 假设请求成功
    if not html_content: return print(f"❌ 无法获取网页内容：{url}")

    print(f" 正在从 '{url}' 提取特定数据...")
    soup = BeautifulSoup(html_content, 'html.parser')

    # 示例：假设网页中有这样的结构
    # <div id="news-list">
    #     <div class="item">
    #         <h3><a href="/news/1">新闻标题1</a></h3>
    #         <p>摘要1</p>
    #     </div>
    #     <div class="item">
    #         <h3><a href="/news/2">新闻标题2</a></h3>
    #         <p>摘要2</p>
    #     </div>
    # </div>

    # **核心操作1：按ID查找元素**
    news_list_div = soup.find(id="news-list")
    if not news_list_div:
        print("   ℹ️ 未找到ID为 'news-list' 的元素。")
        return

    print("\n   --- 新闻标题和链接 ---")
    # **核心操作2：按CSS选择器查找所有匹配元素**
    # 查找 news_list_div 内所有 class 为 'item' 的 div，再查找其下的 h3 > a 标签
    news_items = news_list_div.select('div.item h3 > a') 
    
    if not news_items:
        print("   ℹ️ 未找到新闻条目。")
        return

    for i, item_link in enumerate(news_items):
        title = item_link.get_text(strip=True) # 提取文本并去除首尾空白
        link_href = item_link.get('href') # 获取链接属性
        print(f"   [{i+1}] 标题：'{title}' | 链接：'{link_href}'")
    
    print("✨ 特定数据提取完成！")

if __name__ == "__main__":
    # 使用一个模拟的包含新闻列表的URL进行测试
    # 实际项目中需要替换为真实的网页URL，并根据其HTML结构调整选择器
    # 建议创建一个简单的本地HTML文件用于测试，或使用允许爬取的网站
    test_news_url = "https://www.example.com/news" # 替换为你自己的测试URL

    extract_specific_data(test_news_url)

4.实战：秒抓网站信息！你的智能信息收集器

现在，你已经掌握了Python网页数据抓取的核心技巧——Requests和BeautifulSoup。

作用：整合HTTP请求（Requests）和HTML解析（BeautifulSoup），实现数据从网页到结构化输出（如列表、字典，最终可保存为CSV或Excel）的自动化流程。

4.1 案例一：抓取新闻标题与链接

场景：每天都需要收集某个新闻网站的最新头条，并整理成链接列表。

方案：结合Requests获取网页，BeautifulSoup解析，然后提取所有新闻标题和链接。

代码：

import requests
from bs4 import BeautifulSoup
import os

def scrape_news_headlines(url, output_file="news_headlines.csv"):
    """
    抓取指定新闻网站的标题和链接，并保存到CSV文件。
    这是Python网页数据抓取和自动化数据采集的典型案例。
    :param url: 新闻网站的URL
    :param output_file: 输出CSV文件路径
    """
    print(f" 正在抓取新闻标题和链接从：{url}")
    try:
        response = requests.get(url)
        response.raise_for_status() # 检查HTTP请求状态

        soup = BeautifulSoup(response.text, 'html.parser')
        
        # 假设新闻标题和链接在一个特定的div下，例如 id="main-news-list"
        # 并且每个新闻条目在一个class="news-item"的div里，标题在h2/h3的a标签里
        news_container = soup.find(id="main-news-list") # 根据实际网站结构调整
        if not news_container:
            print("❌ 未找到新闻列表容器，请检查选择器。")
            return
        
        headlines_data = []
        # 查找所有新闻条目
        items = news_container.find_all('div', class_='news-item') # 根据实际网站结构调整
        
        if not items:
            print("❌ 未找到新闻条目，请检查选择器。")
            return

        for item in items:
            title_tag = item.find('h3') # 查找标题标签 (h2/h3等)
            link_tag = title_tag.find('a') if title_tag else None # 查找链接标签
            
            if title_tag and link_tag:
                title = title_tag.get_text(strip=True)
                link = link_tag.get('href')
                # 确保链接是完整的，如果网站返回相对路径，需要拼接
                if link and not link.startswith('http'):
                    link = requests.utils.urljoin(url, link) # 自动拼接完整URL
                headlines_data.append({'标题': title, '链接': link})
                print(f"   ✅ 抓取：'{title}'")
        
        # 将数据保存到CSV文件
        if headlines_data:
            df = pd.DataFrame(headlines_data)
            df.to_csv(output_file, index=False, encoding='utf-8')
            print(f"✨ 新闻标题和链接已保存到：'{output_file}'")
        else:
            print("ℹ️ 未抓取到任何新闻标题。")

    except requests.exceptions.RequestException as e:
        print(f"❌ 请求失败：{e}")
    except Exception as e:
        print(f"❌ 抓取或解析失败：{e}")

if __name__ == "__main__":
    # 请替换为你要抓取的新闻网站URL，并根据其HTML结构调整代码中的find/select方法
    # 建议选择一个内容简单、结构清晰的公开新闻页面进行测试
    news_url = "https://example.com/news" # 替换为真实的URL
    output_csv_path = os.path.expanduser("~/Desktop/latest_news.csv")

    # 注意：需要根据实际网页的HTML结构来调整 soup.find() 和 .select() 的参数
    # 如果网站结构复杂或有反爬机制，可能需要更高级的技术（如Selenium，将在下篇介绍）

    scrape_news_headlines(news_url, output_csv_path)

操作：

安装库： pip install requests beautifulsoup4 pandas。

找网站：找到一个你想抓取新闻标题的网站URL，并检查其HTML结构（F12开发者工具）。

修改代码：修改 news_url，并最重要的是根据实际网页结构调整 soup.find() 和 item.find() 等选择器。

运行：运行 python scrape_news.py。

4.2 案例二：批量抓取电商商品信息

场景：你需要监控竞品电商网站上的商品价格和库存，手动逐个查看耗时且容易漏掉变化。

方案：结合Requests和BeautifulSoup，批量访问商品列表页，提取每个商品的名称和价格。

代码：


```go
import requests
from bs4 import BeautifulSoup
import pandas as pd
import os

def scrape_ecommerce_products(url, output_file="ecommerce_products.csv"):
    """
    抓取电商网站的商品名称和价格，并保存到CSV文件。
    这是Python网页数据抓取和自动化数据采集的进阶案例。
    :param url: 电商网站商品列表页的URL
    :param output_file: 输出CSV文件路径
    """
    print(f" 正在抓取电商商品信息从：{url}")
    try:
        response = requests.get(url)
        response.raise_for_status()

        soup = BeautifulSoup(response.text, 'html.parser')
        
        # 假设商品信息在一个class为 'product-list' 的div中
        # 每个商品在一个 class为 'product-item' 的div里
        # 商品名称在 class='product-title' 的h3/a标签里
        # 价格在 class='product-price' 的span标签里
        
        product_list_container = soup.find('div', class_='product-list') # 根据实际网站结构调整
        if not product_list_container:
            print("❌ 未找到商品列表容器，请检查选择器。")
            return
        
        products_data = []
        items = product_list_container.find_all('div', class_='product-item') # 根据实际网站结构调整
        
        if not items:
            print("❌ 未找到商品条目，请检查选择器。")
            return

        for item in items:
            title_tag = item.find('h3', class_='product-title') # 查找商品标题
            price_tag = item.find('span', class_='product-price') # 查找商品价格
            
            product_name = title_tag.get_text(strip=True) if title_tag else "N/A"
            product_price = price_tag.get_text(strip=True) if price_tag else "N/A"
            
            products_data.append({'商品名称': product_name, '价格': product_price})
            print(f"   ✅ 抓取：'{product_name}' - '{product_price}'")
        
        if products_data:
            df = pd.DataFrame(products_data)
            df.to_csv(output_file, index=False, encoding='utf-8')
            print(f"✨ 商品信息已保存到：'{output_file}'")
        else:
            print("ℹ️ 未抓取到任何商品信息。")

    except requests.exceptions.RequestException as e:
        print(f"❌ 请求失败：{e}")
    except Exception as e:
        print(f"❌ 抓取或解析失败：{e}")

if __name__ == "__main__":
    # 请替换为你要抓取的电商网站商品列表URL
    # 建议选择一个内容简单、结构清晰的公开电商列表页进行测试
    ecommerce_url = "https://example.com/products" # 替换为真实的URL
    output_csv_path = os.path.expanduser("~/Desktop/ecommerce_products.csv")

    # 注意：务必根据实际网页的HTML结构来调整 soup.find() 和 .find_all() 的参数
    # 如果网站有反爬机制，或者商品信息是动态加载的，可能需要更高级的技术（如Selenium，将在下篇介绍）
    scrape_ecommerce_products(ecommerce_url, output_csv_path)

`
操作步骤：参照2.1节准备环境。找一个包含商品列表的电商网站URL，并检查其HTML结构。

最重要的是根据实际网页结构调整代码中的 find() 和 find_all() 选择器。修改代码URL，运行脚本。
效果展示：

5.尾声：静态网页数据抓取，开启信息获取新维度！

恭喜你！通过本篇文章，你已经掌握了Python网页数据抓取的核心技能，亲手打造了一个能够秒抓网站信息的的痛点出发，学会了：
HTTP请求基础：了解浏览器如何与网站交互的原理。

Requests库：你的利器，轻松发送HTTP请求，获取网页内容，并处理请求头与参数。

BeautifulSoup库：你的解析工具，将杂乱的HTML代码解析成结构化数据，实现网页信息提取的精准定位。

实战案例：成功抓取新闻标题和链接，以及电商商品信息，实现自动化数据采集。
[表格：Requests vs BeautifulSoup功能协作]

库名	核心功能	作用
Requests	发送HTTP请求	获取网页的原始HTML内容
BeautifulSoup	解析HTML，提取数据	从HTML中找到并提取你想要的信息

现在，你不再需要为手动复制粘贴网页数据而烦恼。

除了今天学到的静态网页抓取，你还希望Python爬虫能帮你解决哪些数据获取问题？比如：需要登录的网站数据？动态加载内容的网站？或者处理验证码？在评论区分享你的需求和想法，你的建议可能会成为我们下一篇文章的灵感来源！
敬请期待！网页数据抓取系列还有更精彩的内容！在下一篇文章中，我们将探索如何利用Selenium库，应对更复杂的动态网页和需要模拟浏览器操作的网站，让你的Python网页数据抓取能力无所不能！同时，本系列所有代码都将持续更新并汇总在我的GitHub仓库中，敬请关注！未来，这个**“Python职场效率专家实战包”还将包含更多开箱即用、功能强大**的自动化工具，

x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
三菱PLC全套学习资料及应用手册 good2know
本文还有配套的精品资源，点击获取简介：三菱PLC作为工业自动化领域的核心设备，其系列产品的学习和应用需要全面深入的知识。本次资料包为学习者提供从基础到进阶的全方位学习资源，包括各种型号PLC的操作手册、编程指南、软件操作教程以及实际案例分析，旨在帮助用户系统掌握PLC的编程语言、指令系统及在各类工业应用中的实施。1.三菱PLC基础知识入门1.1PLC的基本概念可编程逻辑控制器（PLC）是工业自动化
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
氧惠官方邀请码333777，氧惠邀请码怎么获得？氧惠邀请码有什么套路？知行导师
问：氧惠邀请码怎么获得？答：氧惠官方邀请码333777返点高佣金高真的高。问：氧惠邀请码有什么套路？答：氧惠官方邀请码333777返点高佣金高真的高。氧惠APP汇聚各大主流电商和生活服务平台优惠，展示全网全品类商品，满足网购爱好者对品质好货与极致性价比的追求，并同时享受大平台购物权益保障。满足用户日常吃喝玩乐衣食住行的聚合APP，独特的商业模式，响应国家号召，为实现全民共富而努力奋斗。氧惠邀请码3
Matrix-Breakout 2 Morpheus靶场解题过程
信息收集目标探测靶机目标很明显就是61.139.2.141了扫描开放端口发现22、80、81访问端口主机访问80翻译一下，并没有发现什么审查源代码发现里面有一张图片，下载下来看看是否有图片的隐写wgethttp://61.139.2.141/trinity.jpegstegoveritas-itrinity.jpeg-o/home/kali/Desktop/11分解后发现什么都没有，里面的keep
常规笔记本和加固笔记本的区别 luchengtech 电脑三防笔记本加固计算机加固笔记本
在现代科技产品中，笔记本电脑因其便携性和功能性被广泛应用。根据使用场景和需求的不同，笔记本可分为常规笔记本和加固笔记本，二者在多个方面存在显著区别。适用场景是区分二者的重要标志。常规笔记本主要面向普通消费者和办公人群，适用于家庭娱乐、日常办公、学生学习等相对稳定的室内环境。比如，人们在家用它追剧、处理文档，学生在教室用它完成作业。而加固笔记本则专为特殊行业设计，像军事、野外勘探、工业制造、交通运输
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
02-Breakout靶机攻略 ZLlllllll0 02-Breakout靶机
第一步搭建靶机下载地址：https://download.vulnhub.com/empire/02-Breakout.zip下载好了之后直接用VM打开然后右击虚拟机，把网络连接改成nat模式第二步，信息收集然后开启虚拟机，左上角编辑，虚拟网络编辑器里面看一下靶机是哪个网段。打开kali用nmap扫一下的这个网段的存活主机，也就是扫除这个靶机的具体ip地址nmap192.168.109.1/24扫
旧系统UI焕新陷阱：保留业务习惯与引入新交互的平衡点把控贝格前端工场 ui 交互
摘要**想给老旧系统换上“高颜值新衣”，却遭遇员工集体吐槽“不会用”？满心期待新交互能提升效率，结果用户操作频频出错，业务进度反而被拖慢？旧系统UI焕新本是优化体验的好机会，可在保留多年养成的业务操作习惯，与引入更先进便捷的新交互方式之间，却横亘着巨大鸿沟。稍有不慎，就会陷入“改了不如不改”的尴尬境地。这场关于“守旧”与“创新”的博弈，究竟该如何破局？一、旧系统UI焕新：一场甜蜜又棘手的改造工程旧
心脏猝死姜地主
什么是猝死？猝死就是平时身体健康、或貌似健康的患者，在出乎意料的短时间内，因自然疾病而突然死亡。猝死基本上都在1小时之内死亡。因为实在太快了，80%的死亡都发生在医院之外，连抢救的机会都没有。猝死是一件非常令人震惊的、对日常生活有极大冲击力的事。一个人昨天还好端端的，还热情洋溢地发朋友圈，今天可能突然就没了。2018年，吉祥三宝里的父亲，蒙古族歌手布仁巴雅尔就是突发心脏病去世，享年58岁。麻醉界有
日常黄梅飘香
这几天，没有写文。不过也一直关注，关注上好友的文章。最近看小红书看到邓为，又看了长相思。看了杨紫演的小六。邓为演的叶十七。还挺好。杨紫还挺让人开心，喜欢的。可爱。邓为演的也很迷人。很温顺。最近小孩高三，开始返校上课了。我也决定每天晚上老早睡，不拖到十一点，或更晚。早起，锻炼也行，下地刨地种菜要紧。说的容易，做起来难。前两天下雨，我净在家玩了。看手机没够。拼多多一看就想买。想给小孩买件新衣服。又想买
全面解读设备状态监测 xiatianxy 设备状态监测设备状态监测
长期以来，基于巡检和定期维护维修保养的方式，对电机\泵类\风机等旋转类设备的故障维修，大多都是在设备问题出现之后的事后维护或者定期的预防性维护，前者无法减少或避免设备故障的发生，后者则存在维修不足或维修过剩等问题。另外，日常维护工作严重依赖于人的责任心和经验，一旦出现人员更替，设备的运营管理压力加大，并且现场丰富的维护保养经验也很难传承到新人手中。维护利器——设备状态监测设备状态监测，即对运行中的
深入理解 Tomcat Wrapper 原理北漂老男人 Tomcat tomcat java
深入理解TomcatWrapper原理一、引言在Tomcat的分层容器架构中，Wrapper作为最底层的容器，专门负责管理单个Servlet的生命周期及请求分发。每一个Servlet（包括JSP、Filter等）都对应一个Wrapper。Wrapper是Servlet规范与Tomcat容器实现之间的桥梁，直接关系到请求的分发效率、Servlet的加载与重用、安全隔离等。本文将系统剖析Wrapper
Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
大数据之路：阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余：不同业务重复存储相同数据（如用户基础信息），导致存储成本激增。计算资源浪费：未经聚合的明细数据直接参与计算（如全表扫描），消耗大量CPU/内存资源。数据一致性缺失：同一指标在不同业务线的口径差异（如“活跃用户”定义不同），引发决策冲突。开发效率低下：每次分析需重新编写复杂逻辑，无法复用已有模型。数据建模核心价值性能提升：分层设计（ODS→DWD→DWS→ADS）
学C++的五大惊人好处
为什么要学c++学c++有什么用学习c++的好处有1.中考可以加分2.高考可能直接录取3.就业广且工资高4.在未来30--50年c++一定是一个很受欢迎的职业5.c++成功的例子deepsick等AI智能C++语言兼备编程效率和编译运行效率的语言C++语言是C语言功能增强版,在c语言的基础上添加了面向对象编程和泛型编程的支持既继承了C语言高效，简洁，快速和可移植的传统,又具备类似Java、Go等其
Android 基础知识：Android 应用权限详解流水mpc android
这篇文章为大家系统的梳理一下Android权限相关的知识，在日常开发中，我们都用过权限，但是对于权限的一些细节我们可能掌握的还不够全面，这篇文章会全面的为大家介绍权限相关的知识。当然，本篇文章依然是参考了Google的官方文档：应用权限。本文目录一、认识Android权限（一）Android系统为什么需要权限？Android系统设置权限的目的是保护Android用户的隐私。对于用户的敏感数据And
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
K8S 常用命令全解析：高效管理容器化集群恩爸编程 docker kubernetes 容器 k8s常用命令 k8s有哪些常用命令 k8s命令有哪些 K8S常用命令有哪些
K8S常用命令全解析：高效管理容器化集群一、引言Kubernetes（K8S）作为强大的容器编排平台，其丰富的命令行工具（kubectl）为用户提供了便捷的方式来管理集群中的各种资源。熟练掌握K8S常用命令对于开发人员和运维人员至关重要，能够有效提高容器化应用的部署、监控与维护效率。本文将详细介绍一些K8S常用命令及其使用案例。二、基础资源操作命令（一）kubectlcreate功能：用于创建K8
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
践行5.0-第五周02.26-03.04 初队长
一年又一年，正月十五一过这个年也就过去了，元宵节过去了代表大家又将焦点集中到了最终的年度目标上了，而我也经过了这两周的调试，让自己也步入了正轨，但是在过程中自己经常会被手机视频等一些所影响，导致效率并不失很高，因此，接下来的一周践行会将手机封存起来，并将自己的一日五色表践行深入。一日五色表：践行5.0的90天目标：1、工作日每天保证一日五色表完成，形成习惯；检视：一日五色表的操作觉得还是在应付，并
大学生入门：分支结构及其易踩坑的点山中月侣 java大学生入门 java 开发语言经验分享
循环和分支在我们的日常代码中出现频率很高，无论是简单的数据处理还是复杂的业务逻辑，都会经常用到，它们看似简单，但是使用起来还是有很多隐藏的问题的，接下来我们一起学习或者复习一下：一、分支结构1、if语句主要包括三种：if语句、if-else语句、if-elseif-else语句if语句：if(条件表达式){//条件为真时执行的代码块}如果要执行的语句只有一句，可以省略“{}”，但是不建议if-el
守住绿色，“妙”手回春不知火鸾
守住绿色，“妙”手回春为了提高实地考察的效率，尽快了解妙山村的共富特色。2022年7月7日“寻根乡行，青春助力”暑期实践团开展探访妙山村的前期准备工作。参加此次准备工作的主要有两名团队负责人以及路玉呈、俞可欣、陈慧钰这三位团队成员。早上9点，团队负责人通知三位成员参加前期准备会议。此次会议主要围绕“是什么？为什么？做什么？”这几个方面来进行讨论。首先了解妙山村的地理位置以及它的民风民俗，致富特色。
08.学习闭环三部曲：预习、实时学习、复习 0058b195f4dc
人生就是一本效率手册，你怎样对待时间，时间就会给你同比例的回馈。单点突破法。预习，实时学习，复习。1、预习：凡事提前【计划】（1）前一晚设置三个当日目标。每周起始于每周日。（2）提前学习。预习法进行思考。预不预习效果相差20％，预习法学会提问。（3）《学会提问》。听电子书。2.实时学习（1）（10％）相应场景，思维导图，快速笔记。灵感笔记。（2）大纲，基本记录，总结篇。3.复习法则，（70％），最
Gerapy爬虫管理框架深度解析：企业级分布式爬虫管控平台 Python×CATIA工业智造爬虫分布式 python pycharm
引言：爬虫工程化的必然选择随着企业数据采集需求指数级增长，传统单点爬虫管理模式面临三重困境：管理效率瓶颈：手动部署耗时占开发总时长的40%以上系统可靠性低：研究显示超过65%的爬虫故障源于部署或调度错误资源利用率差：平均爬虫服务器CPU利用率不足30%爬虫管理方案对比：┌───────────────┬─────────────┬───────────┬───────────┬──────────
数据可视化：数据世界的直观呈现卢政权1 信息可视化数据分析数据挖掘
在当今数字化浪潮中，数据呈爆炸式增长。数据可视化作为一种强大的技术手段，能够将复杂的数据转化为直观的图形、图表等形式，让数据背后的信息一目了然。无论是在商业决策、科学研究还是日常数据分析中，数据可视化都发挥着极为重要的作用。它帮助我们快速理解数据的分布、趋势、关联等特征，从而为进一步的分析和行动提供有力支持。接下来，我们将深入探讨数据可视化的奥秘，并通过代码示例展示其实际应用。一、Python数据
读书|日常听课最需要什么百草丰茂
今天继续阅读赵国忠老师主编的《听课最需要什么》第一章《日常听课最需要什么》的第2～4个建议。老师们有很多机会听课，学校教研、外出学习、公开课比武，有些老师听了很多课，却毫无收获；有的老师却从听课开始，逐步走上了专业成长的道路。我想肯定是因为有些老师还没有了解听课的需要，今天大家就和我一起来聆听一下优秀教师给我们的听课建议。一、听课要有备而来。在现实中，常常看见老师们特别是年轻的老师们，带着一支笔，
如何在 Ubuntu 24.04 或 22.04 Linux 上安装和运行 Redis 服务器山岚的运维笔记 Linux 运维及使用 linux 服务器 ubuntu redis 数据库
Redis（RemoteDictionaryServer，远程字典服务器）是一种内存数据结构存储，通常用作NoSQL数据库、缓存和消息代理。它是开源的，因此用户可以免费安装，无需支付任何费用。Redis旨在为需要快速数据访问和低延迟的应用程序提供速度和效率。Redis支持多种数据类型，包括字符串（Strings）、列表（Lists）、集合（Sets）、哈希（Hashes）、有序集合（SortedS
2023-06-05 关于小学生被撞离世后母亲坠亡的一些个人看法图图捡垃圾
额……老铁们，我AcFun老乐子人了，今天咱简单接着更新吃瓜日常，跟各位唠唠武汉汉阳#小学生被撞离世后母亲坠亡#的一些个人看法。免责声明：此看法只代表个人观点，没有对当事双方、媒体、网友或群众评论或指责的意思。小学生在校内被老师开车撞倒送医后身亡武汉一小学生在校内被老师开车撞倒送医后身亡，警方介入调查首先新闻刷出来的时候咱看到的情况大概是这样的，评论区有人指出不是什么撞倒是学生蹲车底被碾压，老师在
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1