iknow181

【爬虫】TOR爬虫的设计与思考

案例

目标

aHR0cDovL2RyYWdvbmZvcnh4YnAzYXdjN216czVka3N3cnVhM3pucXl4NXJvZWZtaTRzbWpyc2RpMjJ4d3FkLm9uaW9uL3d3dy5jaXR5b2Zncm92ZW9rLmdvdg==

base64解码

站点难点与发现

1. 网站有 token 校验与刷新机制，每小时刷新一次 token，之前的链接会失效。

2.token 是通过 JavaScript 动态注入 的，而不是页面初始加载的 HTML 就包含的内容。得通过手动刷新主目录获得，直接静态爬取不会执行 JS ，无法获得 token。

3.如果想实现自动化爬取，需要使用 selenium + Tor 浏览器驱动来模拟完整浏览器行为。（我没用这种）

4.发现改变的只是 token，前面的路径结构没有发生改变，可以更新 token 后直接拼接到链接参数后面。

http://fsguestuctexqqaoxuahuydfa6ovxuhtng66pgyr5gqcrsi7qgchpkad.onion/?path=Incode&token=

两个爬取脚本

先爬取下载目录，后下载链接，有图形化界面

# 导入所需模块
import os
import time
import sys
import json
import threading
import tkinter as tk
from tkinter import messagebox
from urllib.parse import urljoin, urlparse, unquote, parse_qs
import requests
from bs4 import BeautifulSoup
from tqdm import tqdm
from concurrent.futures import ThreadPoolExecutor, as_completed

# ------------------------ 全局配置区域 ------------------------

# 下载的根目录
download_root = r"F:\workfile\20250612"

# 支持识别并下载的文件扩展名
file_extensions = [
    '.csv', '.pdf', '.zip', '.7z', '.doc', '.docx', '.xls', '.xlsx',
    '.rar', '.db', '.bak', '.tar', '.gz', '.json', '.txt', '.doc', '.adb', '.jpg', '.jpeg', '.png'
]

# Tor 网络代理配置（默认 Tor Browser 使用9150端口）
proxies = {
    'http': 'socks5h://127.0.0.1:9150',
    'https': 'socks5h://127.0.0.1:9150'
}

# 跳过目录记录文件 / 已下载文件记录文件
visited_file = 'visited_dirs.txt'
download_record_file = 'downloaded_files.json'
downloaded_files = set()  # 内存中已下载文件的集合

# Token 和控制状态变量（供 GUI 操作）
current_token = ''
paused = False  # 是否暂停下载
crawl_finished = False  # 下载是否已完成
task_lock = threading.Lock()  # 用于线程间同步的锁

# ------------------------ 初始化辅助函数 ------------------------

# 读取需要跳过的目录关键词
def load_skip_keywords():
    if not os.path.exists(visited_file):
        return set()
    with open(visited_file, encoding="utf-8") as f:
        return set(line.strip() for line in f if line.strip())

# 读取已下载文件记录
def load_downloaded_files():
    if os.path.exists(download_record_file):
        with open(download_record_file, encoding="utf-8") as f:
            return set(json.load(f))
    return set()

# 将文件下载记录写入JSON文件
def save_downloaded_file(path):
    downloaded_files.add(path)
    with open(download_record_file, 'w', encoding='utf-8') as f:
        json.dump(list(downloaded_files), f, ensure_ascii=False, indent=2)

# 加载配置
skip_keywords = load_skip_keywords()
downloaded_files = load_downloaded_files()

# ------------------------ 实用函数 ------------------------

# 过滤非法文件名字符
def safe_filename(filename):
    return "".join(c for c in filename if c.isalnum() or c in (' ', '.', '_', '-')).rstrip()

# 判断是否是直接下载链接
def is_direct_file_url(href):
    href = href.lower()
    return any(href.endswith(ext) for ext in file_extensions)

# 判断是否是 "?download" 形式的下载链接
def is_download_link(href):
    return href.startswith("/download?")

# 判断是否是可递归的目录链接（含 path 和 token 参数）
def is_directory_link(href):
    return "path=" in href and "token=" in href

# 根据URL解析本地目标目录路径
def get_local_dir_from_url(url):
    parsed = urlparse(url)
    query_params = parse_qs(parsed.query)
    if 'path' in query_params:
        dir_path = query_params['path'][0].replace('/', os.sep)
    else:
        dir_path = parsed.path.strip('/').replace('/', os.sep)
    return os.path.join(download_root, dir_path)

# 判断是否应该跳过该目录
def should_skip_dir(url):
    decoded_url = unquote(url)
    for keyword in skip_keywords:
        if keyword.lower() in decoded_url.lower():
            return True
    return False

# ------------------------ 下载核心逻辑 ------------------------

# 下载并保存单个文件
def save_file(file_url, local_dir, filename, indent):
    filename = unquote(filename)
    filename = safe_filename(filename)
    local_path = os.path.join(local_dir, filename)
    file_key = os.path.relpath(local_path, download_root)

    # 已记录则跳过
    if file_key in downloaded_files:
        print(f"{indent}✅ 已记录下载: {file_key}")
        return

    # 如果文件已存在且非空，也记录为已下载
    if os.path.exists(local_path) and os.path.getsize(local_path) > 0:
        print(f"{indent}⏩ 文件已存在，跳过: {filename}")
        save_downloaded_file(file_key)
        return

    os.makedirs(local_dir, exist_ok=True)
    try:
        with requests.get(file_url, proxies=proxies, timeout=20, stream=True) as r:
            if r.status_code == 403:
                print(f"{indent}❌ Token 已过期，返回 403，终止程序。")
                os._exit(1)
            elif r.status_code == 200:
                total = int(r.headers.get('content-length', 0))
                if total == 0:
                    print(f"{indent}⚠️ 文件大小为0，跳过: {filename}")
                    return
                # 使用 tqdm 显示下载进度
                with open(local_path, 'wb') as f, tqdm(
                        desc=f"{indent}⬇️ 下载: {filename}",
                        total=total,
                        unit='B',
                        unit_scale=True,
                        unit_divisor=1024,
                        leave=False
                ) as bar:
                    for chunk in r.iter_content(chunk_size=8192):
                        if chunk:
                            f.write(chunk)
                            bar.update(len(chunk))
                save_downloaded_file(file_key)
            else:
                print(f"{indent}⚠️ 下载失败: 状态码 {r.status_code} -> {file_url}")
    except Exception as e:
        print(f"{indent}❌ 下载出错: {e}")

# 递归爬取页面中的链接和文件
def crawl(url, depth=0, executor=None, futures=None):
    global paused
    indent = '    ' * depth
    while paused:
        print(f"{indent}⏸️ 暂停中...")
        time.sleep(1)

    if should_skip_dir(url):
        print(f"{indent}⏭️ 目录跳过: {url}")
        return

    print(f"{indent} 访问目录: {url}")
    try:
        r = requests.get(url, proxies=proxies, timeout=15)
    except Exception as e:
        print(f"{indent}❌ 请求失败: {url} -> {e}")
        return

    if r.status_code == 403:
        print(f"{indent} Token 过期（403），脚本自动终止")
        os._exit(1)

    if r.status_code != 200:
        print(f"{indent}⚠️ 状态异常: {r.status_code} -> {url}")
        return

    # 解析HTML
    soup = BeautifulSoup(r.text, 'html.parser')
    links = soup.find_all('a')

    # 如果当前页面没有文件，则不继续递归
    has_files = any(
        is_direct_file_url(a.get('href', '')) or is_download_link(a.get('href', ''))
        for a in links
    )

    if not has_files:
        print(f"{indent} 无文件，跳过递归: {url}")
        return

    local_dir = get_local_dir_from_url(url)
    os.makedirs(local_dir, exist_ok=True)

    # 遍历所有链接
    for a in links:
        href = a.get('href', '')
        if not href:
            continue
        full_url = urljoin(url, href)

        # 文件下载任务加入线程池
        if is_direct_file_url(href):
            filename = os.path.basename(unquote(urlparse(href).path))
            futures.append(executor.submit(save_file, full_url, local_dir, filename, indent))
        elif is_download_link(href):
            params = parse_qs(urlparse(href).query)
            path_param = params.get('path', ['unknown'])[0]
            filename = os.path.basename(unquote(path_param))
            futures.append(executor.submit(save_file, full_url, local_dir, filename, indent))
        elif is_directory_link(href):
            time.sleep(0.2)  # 控制访问速度
            crawl(full_url, depth + 1, executor, futures)

# ------------------------ 图形界面（Tkinter） ------------------------

# 启动爬虫主逻辑
def start_crawler():
    global current_token, paused
    paused = False
    start_url = f"http://fsguestuctexqqaoxuahuydfa6ovxuhtng66pgyr5gqcrsi7qgchpkad.onion/?path=Incode&token={current_token.strip()}"

    def run():
        with ThreadPoolExecutor(max_workers=10) as executor:
            futures = []
            crawl(start_url, executor=executor, futures=futures)
            for _ in as_completed(futures):
                pass
        messagebox.showinfo("完成", "所有文件已下载完成！")

    threading.Thread(target=run, daemon=True).start()

# 暂停任务
def pause_crawler():
    global paused
    paused = True
    messagebox.showinfo("已暂停", "下载已暂停，请更换 Token 后继续。")

# 恢复任务
def resume_crawler():
    global paused
    paused = False
    messagebox.showinfo("恢复中", "已恢复下载任务。")

# 启动 GUI
def launch_gui():
    global current_token
    root = tk.Tk()
    root.title("Onion 文件爬虫")

    # Token 输入
    tk.Label(root, text="Token:").grid(row=0, column=0, padx=5, pady=5)
    token_entry = tk.Entry(root, width=80)
    token_entry.grid(row=0, column=1, padx=5, pady=5)

    # 更新 Token 按钮
    def update_token():
        global current_token
        current_token = token_entry.get().strip()
        messagebox.showinfo("Token 更新", "Token 已更新")

    tk.Button(root, text="更新 Token", command=update_token).grid(row=0, column=2, padx=5)

    # 控制按钮
    tk.Button(root, text="开始爬取", command=start_crawler).grid(row=1, column=0, padx=5, pady=10)
    tk.Button(root, text="暂停下载", command=pause_crawler).grid(row=1, column=1, padx=5, pady=10)
    tk.Button(root, text="恢复下载", command=resume_crawler).grid(row=1, column=2, padx=5, pady=10)

    root.mainloop()

# ------------------------ 程序入口 ------------------------
if __name__ == "__main__":
    launch_gui()

边爬边下载，无图形化界面

import os
import time
import requests
from urllib.parse import urljoin, urlparse, unquote, parse_qs
from bs4 import BeautifulSoup
from tqdm import tqdm
from concurrent.futures import ThreadPoolExecutor, as_completed
import sys

# 配置 Tor 的代理，用于访问 .onion 网站
proxies = {
    'http': 'socks5h://127.0.0.1:9150',
    'https': 'socks5h://127.0.0.1:9150'
}

# 文件下载保存的根目录
download_root = r"F:\workfile\20250612"

# 常见的可下载文件扩展名
file_extensions = ['.csv', '.pdf', '.zip', '.7z', '.doc', '.docx', '.xls', '.xlsx',
                   '.rar', '.db', '.bak', '.tar', '.gz', '.json', '.txt', '.doc', '.adb', '.jpg', '.jpeg', '.png']

# 读取跳过的目录关键词
def load_skip_keywords():
    path = "visited_dirs.txt"
    if not os.path.exists(path):
        return set()
    with open(path, encoding="utf-8") as f:
        return set(line.strip() for line in f if line.strip())

skip_keywords = load_skip_keywords()

# 判断链接是否是文件链接
def is_direct_file_url(href):
    href = href.lower()
    return any(href.endswith(ext) for ext in file_extensions)

# 判断是否是“/download?”开头的下载链接
def is_download_link(href):
    return href.startswith("/download?")

# 判断是否是目录链接（用于递归）
def is_directory_link(href):
    return "path=" in href and "token=" in href

# 对文件名进行安全处理，去除不合法字符
def safe_filename(filename):
    return "".join(c for c in filename if c.isalnum() or c in (' ', '.', '_', '-')).rstrip()

# 下载文件函数
def save_file(file_url, local_dir, filename, indent):
    filename = unquote(filename)
    filename = safe_filename(filename)
    local_path = os.path.join(local_dir, filename)

    # 如果文件已存在且非空，跳过下载
    if os.path.exists(local_path) and os.path.getsize(local_path) > 0:
        print(f"{indent}⏩ 文件已存在，跳过: {filename}")
        return

    os.makedirs(local_dir, exist_ok=True)
    try:
        with requests.get(file_url, proxies=proxies, timeout=20, stream=True) as r:
            if r.status_code == 403:
                print(f"{indent}❌ Token 已过期，返回 403，终止程序。")
                sys.exit(1)  # token 过期时直接退出程序
            elif r.status_code == 200:
                total = int(r.headers.get('content-length', 0))
                if total == 0:
                    print(f"{indent}⚠️ 文件大小为0，跳过: {filename}")
                    return
                # 使用 tqdm 显示下载进度
                with open(local_path, 'wb') as f, tqdm(
                        desc=f"{indent}⬇️ 下载: {filename}",
                        total=total,
                        unit='B',
                        unit_scale=True,
                        unit_divisor=1024,
                        leave=False
                ) as bar:
                    for chunk in r.iter_content(chunk_size=8192):
                        if chunk:
                            f.write(chunk)
                            bar.update(len(chunk))
            else:
                print(f"{indent}⚠️ 下载失败: 状态码 {r.status_code} -> {file_url}")
    except Exception as e:
        print(f"{indent}❌ 下载出错: {e}")

# 根据 URL 中的 path 参数，构造本地保存路径
def get_local_dir_from_url(url):
    parsed = urlparse(url)
    query_params = parse_qs(parsed.query)
    if 'path' in query_params:
        dir_path = query_params['path'][0].replace('/', os.sep)
    else:
        dir_path = parsed.path.strip('/').replace('/', os.sep)
    return os.path.join(download_root, dir_path)

# 判断是否需要跳过该目录（根据关键词）
def should_skip_dir(url):
    decoded_url = unquote(url)
    for keyword in skip_keywords:
        if keyword.lower() in decoded_url.lower():
            return True
    return False

# 主爬虫函数，支持递归和多线程下载
def crawl(url, depth=0, executor=None, futures=None):
    indent = '    ' * depth

    if should_skip_dir(url):
        print(f"{indent}⏭️ 目录跳过（整层不递归）: {url}")
        return

    print(f"{indent} 访问目录: {url}")
    try:
        r = requests.get(url, proxies=proxies, timeout=15)
    except Exception as e:
        print(f"{indent}❌ 请求失败: {url} -> {e}")
        return

    if r.status_code == 403:
        print(f"{indent} Token 过期（403），脚本自动终止")
        os._exit(1)

    if r.status_code != 200:
        print(f"{indent}⚠️ 状态异常: {r.status_code} -> {url}")
        return

    soup = BeautifulSoup(r.text, 'html.parser')
    links = soup.find_all('a')

    # 判断该页面是否包含可下载的文件
    has_files = any(
        is_direct_file_url(a.get('href', '')) or is_download_link(a.get('href', ''))
        for a in links
    )

    if not has_files:
        print(f"{indent} 无文件，跳过递归: {url}")
        return  # 不创建本地目录，也不递归

    local_dir = get_local_dir_from_url(url)
    os.makedirs(local_dir, exist_ok=True)

    for a in links:
        href = a.get('href', '')
        if not href:
            continue
        full_url = urljoin(url, href)

        if is_direct_file_url(href):
            filename = os.path.basename(unquote(urlparse(href).path))
            print(f"{indent} 文件下载: {filename} -> {full_url}")
            futures.append(executor.submit(save_file, full_url, local_dir, filename, indent))
        elif is_download_link(href):
            params = parse_qs(urlparse(href).query)
            path_param = params.get('path', ['unknown'])[0]
            filename = os.path.basename(unquote(path_param))
            print(f"{indent} 下载链接: {filename} -> {full_url}")
            futures.append(executor.submit(save_file, full_url, local_dir, filename, indent))
        elif is_directory_link(href):
            time.sleep(1)  # 防止访问过快导致封禁
            crawl(full_url, depth + 1, executor, futures)

# 程序入口
if __name__ == "__main__":
    start_time = time.time()

    # TODO：替换成你要爬取的入口URL
    start_url = "http://xxxxxxx.onion/?path=...&token=..."

    max_workers = 8  # 并发下载线程数
    skip_keywords = load_skip_keywords()  # 加载跳过列表

    with ThreadPoolExecutor(max_workers=max_workers) as executor:
        futures = []
        crawl(start_url, executor=executor, futures=futures)
        for _ in as_completed(futures):
            pass

    elapsed = time.time() - start_time
    print(f"\n✅ 全部下载完成！总耗时：{elapsed:.2f} 秒")

这是 支持断点续传、Token 自动控制、目录结构还原、GUI 操作 的完整TOR .onion 网站爬虫系统。它专为需要授权访问、Token 有效期受限的网络目录站点设计。

总结了下TOR爬虫的设计要点，以便后续写其他项目的爬虫是可以提供帮助与参考。

TOR爬虫设计要点汇总

️ 1. 目录结构还原

根据网页 URL 中的 ?path=xxx 参数自动解析本地路径。
使用 urlparse + parse_qs 提取目录层级。
本地路径拼接方式统一用 os.path.join()，兼容跨平台。

2. 下载任务管理与去重

✅ 已爬目录记录：使用 visited_dirs.txt，防止重复遍历目录。
✅ 已下载文件记录：使用 downloaded_files.json，保存相对路径，防止重复下载。
✅ 支持多种常见文件后缀识别（如 .pdf、.xlsx、.bak、.7z 等），根据链接后缀或 /download? 模式判断是否是文件。
✅ 真实存在但无后缀的文件，保留原始文件名。

3. Token 控制与断点续传

Token 写入 GUI 输入框，通过按钮更新。
Token 过期（403）自动检测，并立刻终止程序防止无效爬取。
GUI 提供 暂停 / 恢复 按钮，支持中断后 Token 更新再恢复下载。
所有任务基于 URL 构建，Token 更新后直接重用任务列表继续。

4. 多线程下载加速

使用 concurrent.futures.ThreadPoolExecutor 控制下载线程数（推荐 max_workers=10）。
启动时统一提交任务，使用 tqdm 显示文件下载进度。
多线程任务间线程安全使用：使用 threading.Lock()、任务列表共享等方式防止状态错乱。

️ 5. 图形化界面（GUI）交互

使用 tkinter 实现 Token 输入、更新、控制按钮。
界面控件包括：

- Token 输入框
- 【更新 Token】按钮
- 【开始爬取】、【暂停下载】、【恢复下载】按钮

所有操作均通过后台线程运行，防止 GUI 阻塞。

6. 异常处理与健壮性

✅ 检查文件已存在 & 非空再下载。
✅ 状态码检查（如 403 Token 过期、404/500 错误页面跳过）。
✅ 所有异常均被捕获记录，防止崩溃。
✅ 控制爬取频率（如 time.sleep(0.2) 防止被服务器限速）。

️ 7. 使用须知与运行要求

Tor 浏览器需运行并监听本地 127.0.0.1:9150 端口（Socks5）。
依赖库：requests、bs4、tqdm、tkinter（内置）。
所有网络请求需加 proxies={'http': 'socks5h://...', 'https': 'socks5h://...'}。
可直接在 Windows 上运行（建议 UTF-8 编码保存）。

8. 可扩展性建议

✅ 可添加 Token 续期自动化（配合 headless 浏览器登录）。
✅ 支持任务列表导出（如导出所有文件链接为 JSON 或 CSV）。
✅ 支持单个文件失败自动重试，重试上限设置。
✅ 增加进度可视化面板（GUI 显示爬取百分比）。

✅ 适用于以下场景：

场景	适配说明
网站目录站（含 token 授权）	完美适配，支持目录深层遍历、token 控制
文件托管站下载	多线程高效下载、支持文件跳过与记录
断点续传下载需求	完整状态记录、异常断点后可恢复

免责声明

本博客所发布的《TOR爬虫的设计与思考》仅供技术研究与学习交流之用，严禁将文中内容用于任何非法用途。博主不鼓励、支持或参与任何形式的网络入侵、未授权的数据访问、侵犯隐私或违反国家法律法规的行为。

请读者在遵守所在国家/地区相关法律的前提下使用本博客提供的信息与技术。任何因擅自使用该技术用于非法活动所产生的后果，均由使用者自行承担，作者不负任何法律责任。

若您对本博客内容有任何疑问或发现违规之处，欢迎及时联系博主处理。

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
移动端城市区县二级联动选择功能实现包 good2know
本文还有配套的精品资源，点击获取简介：本项目是一套为移动端设计的jQuery实现方案，用于简化用户在选择城市和区县时的流程。它包括所有必需文件：HTML、JavaScript、CSS及图片资源。通过动态更新下拉菜单选项，实现城市到区县的联动效果，支持数据异步加载。开发者可以轻松集成此功能到移动网站或应用，并可基于需求进行扩展和优化。1.jQuery移动端解决方案概述jQuery技术简介jQuery
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
用代码生成艺术字：设计个性化海报的秘密
本文围绕“用代码生成艺术字：设计个性化海报的秘密”展开，先概述代码生成艺术字在海报设计中的独特价值，接着介绍常用的代码工具（如HTML、CSS、JavaScript等），详细阐述从构思到实现的完整流程，包括字体样式设计、动态效果添加等，还分享了提升艺术字质感的技巧及实际案例。最后总结代码生成艺术字的优势，为设计师提供打造个性化海报的实用指南，助力提升海报设计的独特性与吸引力，符合搜索引擎SEO标准
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
Jupyter Notebook：数据科学的“瑞士军刀” a小胡哦机器学习基础人工智能机器学习
在数据科学的世界里，JupyterNotebook是一个不可或缺的工具，它就像是数据科学家手中的“瑞士军刀”，功能强大且灵活多变。今天，就让我们一起深入了解这个神奇的工具。一、JupyterNotebook是什么？JupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它支持多种编程语言，其中Python是最常用的语言之一。Jupy
Django学习笔记（一）
学习视频为：pythondjangoweb框架开发入门全套视频教程一、安装pipinstalldjango==****检查是否安装成功django.get_version()二、django新建项目操作1、新建一个项目django-adminstartprojectproject_name2、新建APPcdproject_namedjango-adminstartappApp注：一个project
Python 程序设计讲义（26）：字符串的用法——字符的编码睿思达DBA_WGX Python 讲义 python 开发语言
Python程序设计讲义（26）：字符串的用法——字符的编码目录Python程序设计讲义（26）：字符串的用法——字符的编码一、字符的编码二、`ASCII`编码三、`Unicode`编码四、使用`ord()`函数查询一个字符对应的`Unicode`编码五、使用`chr()`函数查询一个`Unicode`编码对应的字符六、`Python`字符串的特征一、字符的编码计算机默认只能处理二进制数，而不能处
【Python】pypinyin-汉字拼音转换工具鸟哥大大 Python python 自然语言处理
文章目录1.主要功能2.安装3.常用API3.1拼音风格3.2核心API3.2.1pypinyin.pinyin()3.2.2pypinyin.lazy_pinyin()3.2.3pypinyin.load_single_dict()3.2.4pypinyin.load_phrases_dict()3.2.5pypinyin.slug()3.3注册新的拼音风格4.基本用法4.1库导入4.2基本汉字
python编程第十四课：数据可视化小小源助手 Python代码实例信息可视化 python 开发语言
Python数据可视化：让数据“开口说话”在当今数据爆炸的时代，数据可视化已成为探索数据规律、传达数据信息的关键技术。Python凭借其丰富的第三方库，为数据可视化提供了强大而灵活的解决方案。本文将带你深入了解Matplotlib库的基础绘图、Seaborn库的高级可视化以及交互式可视化工具Plotly，帮助你通过图表清晰地展示数据背后的故事。一、Matplotlib库基础绘图Matplotlib
Python数据可视化：用代码绘制数据背后的故事 AAEllisonPang Python 信息可视化 python 开发语言
引言：当数据会说话在数据爆炸的时代，可视化是解锁数据价值的金钥匙。Python凭借其丰富的可视化生态库，已成为数据科学家的首选工具。本文将带您从基础到高级，探索如何用Python将冰冷数字转化为引人入胜的视觉叙事。一、基础篇：二维可视化的艺术表达1.1Matplotlib：可视化领域的瑞士军刀importmatplotlib.pyplotaspltimportnumpyasnpx=np.linsp
python学习笔记（汇总）朕的剑还未配妥 python学习笔记整理 python 学习开发语言
文章目录一.基础知识二.python中的数据类型三.运算符四.程序的控制结构五.列表六.字典七.元组八.集合九.字符串十.函数十一.解决bug一.基础知识print函数字符串要加引号，数字可不加引号，如print(123.4)print('小谢')print("洛天依")还可输入表达式，如print(1+3)如果使用三引号，print打印的内容可不在同一行print("line1line2line
Gerapy爬虫管理框架深度解析：企业级分布式爬虫管控平台 Python×CATIA工业智造爬虫分布式 python pycharm
引言：爬虫工程化的必然选择随着企业数据采集需求指数级增长，传统单点爬虫管理模式面临三重困境：管理效率瓶颈：手动部署耗时占开发总时长的40%以上系统可靠性低：研究显示超过65%的爬虫故障源于部署或调度错误资源利用率差：平均爬虫服务器CPU利用率不足30%爬虫管理方案对比：┌───────────────┬─────────────┬───────────┬───────────┬──────────
PDF转Markdown - Python 实现方案与代码 Eiceblue Python Python PDF pdf python 开发语言 vscode
PDF作为广泛使用的文档格式，转换为轻量级标记语言Markdown后，可无缝集成到技术文档、博客平台和版本控制系统中，提高内容的可编辑性和可访问性。本文将详细介绍如何使用国产Spire.PDFforPython库将PDF文档转换为Markdown格式。技术优势：精准保留原始文档结构（段落/列表/表格）完整提取文本和图像内容无需Adobe依赖的纯Python实现支持Linux/Windows/mac
使用Python和Gradio构建实时数据可视化工具 PythonAI编程架构实战家信息可视化 python 开发语言 ai
使用Python和Gradio构建实时数据可视化工具关键词：Python、Gradio、数据可视化、实时数据、Web应用、交互式界面、数据科学摘要：本文将详细介绍如何使用Python和Gradio框架构建一个实时数据可视化工具。我们将从基础概念开始，逐步深入到核心算法实现，包括数据处理、可视化技术以及Gradio的交互式界面设计。通过实际项目案例，读者将学习如何创建一个功能完整、响应迅速的实时数据
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
数据可视化：数据世界的直观呈现卢政权1 信息可视化数据分析数据挖掘
在当今数字化浪潮中，数据呈爆炸式增长。数据可视化作为一种强大的技术手段，能够将复杂的数据转化为直观的图形、图表等形式，让数据背后的信息一目了然。无论是在商业决策、科学研究还是日常数据分析中，数据可视化都发挥着极为重要的作用。它帮助我们快速理解数据的分布、趋势、关联等特征，从而为进一步的分析和行动提供有力支持。接下来，我们将深入探讨数据可视化的奥秘，并通过代码示例展示其实际应用。一、Python数据
Python 程序设计讲义（25）：循环结构——嵌套循环
Python程序设计讲义（25）：循环结构——嵌套循环目录Python程序设计讲义（25）：循环结构——嵌套循环一、嵌套循环的执行流程二、嵌套循环对应的几种情况1、内循环和外循环互不影响2、外循环迭代影响内循环的条件3、外循环迭代影响内循环的循环体嵌套循环是指在一个循环体中嵌套另一个循环。while循环中可以嵌入另一个while循环或for循环。反之，也可以在for循环中嵌入另一个for循环或wh
基于Python引擎的PP-OCR模型库推理张欣-男 python ocr 开发语言 PaddleOCR PaddlePaddle
基于Python引擎的PP-OCR模型库推理1.文本检测模型推理#下载超轻量中文检测模型：wgethttps://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_det_infer.tartarxfch_PP-OCRv3_det_infer.tarpython3tools/infer/predict_det.py--image_dir=".
一个开源AI牛马神器 | AiPy，平替Manus，装完直接上手写Python！ Agent加载失败人工智能 python 开源算法 AI编程
还记得三个月前那个在闲鱼被炒到万元邀请码的Manus吗？现在你点官网，直接提示「所在地区不可用」了它走了，但更香的国产开源项目出现了：AiPy（爱派）。主打一个极致简化的AIAgent理念：别搞什么插件市场、Agent路由，直接给AI一个Python解释器，让它用自然语言写代码干活。听起来狠活？实际体验更狠：•完全本地化，界面傻瓜式操作，支持自然语言生成&执行Python任务；•数据清洗、文档总结
零数学基础理解AI核心概念：梯度下降可视化实战九章云极AladdinEdu 人工智能 gpu算力深度学习 pytorch python 语言模型 opencv
点击“AladdinEdu，同学们用得起的【H卡】算力平台”，H卡级别算力，按量计费，灵活弹性，顶级配置，学生专属优惠。用Python动画演示损失函数优化过程，数学公式具象化读者收获：直观理解模型训练本质，破除"数学恐惧症"当盲人登山者摸索下山路径时，他本能地运用了梯度下降算法。本文将用动态可视化技术，让你像感受重力一样理解AI训练的核心原理——无需任何数学公式推导。一、梯度下降：AI世界的"万有
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str