宅男很神经

【Python】OpenAI API

【Python 与 OpenAI API 深度探索：从基础到未来】

第一章：OpenAI API 概览与核心概念

1.1 OpenAI API 是什么？能做什么？

OpenAI API (Application Programming Interface，应用程序编程接口) 是一套允许开发者通过编程方式访问和使用 OpenAI 开发的各种先进人工智能模型的服务。这些模型经过海量数据的训练，能够在多种任务上达到甚至超越人类水平。通过 API，开发者可以将这些强大的 AI 能力集成到自己的应用程序、网站或工作流程中，而无需自行承担训练和部署这些复杂模型的巨大成本和技术挑战。

OpenAI API 的核心价值在于其提供的多样化模型，每种模型都有其擅长的领域：

1.1.1 GPT (Generative Pre-trained Transformer) 模型家族
- 概述：GPT 系列模型是 OpenAI 最著名的成果之一，它们是基于 Transformer 架构的大型语言模型 (LLM)。这些模型擅长理解和生成自然语言文本，能够执行广泛的文本相关任务。
- 主要模型及其特点：
  - gpt-4o (Omni): OpenAI 当前最先进的多模态模型，能够处理和生成文本、音频和图像。它在理解和生成方面达到了新的高度，速度更快，成本更低（相对于 gpt-4-turbo）。它是处理跨文本、视觉和音频输入的复杂任务的首选。
  - gpt-4-turbo: gpt-4 的增强版，拥有更大的上下文窗口 (128k tokens)，更新的知识库 (截至2023年4月)，并且在某些任务上性能更优，成本也相对较低。支持 JSON mode 和并行函数调用。
  - gpt-4: 比 gpt-3.5 更强大，具有更强的推理能力、更广泛的知识和更长的上下文窗口 (通常有 8k 和 32k 版本)。适用于需要深度理解和复杂推理的任务。
  - gpt-3.5-turbo: gpt-3 系列的优化版本，广泛应用于聊天机器人和各种文本生成任务。性价比高，响应速度快，是许多应用的理想选择。支持多种上下文窗口大小 (如 4k, 16k)。它是 InstructGPT 系列的继承者。
  - (旧版) text-davinci-003, text-curie-001, text-babbage-001, text-ada-001: 这些是旧版的 Completions API 模型，虽然仍然可用，但 OpenAI 强烈建议新应用使用更新的 Chat Completions API 模型 (如 gpt-3.5-turbo, gpt-4)，因为它们更强大、更灵活且通常更具成本效益。
- 应用场景：
  - 内容创作 (文章、博客、营销文案、剧本、诗歌)
  - 代码生成与解释
  - 问答系统
  - 文本摘要
  - 文本翻译
  - 情感分析
  - 聊天机器人与虚拟助手
  - 教育辅导
  - 数据分析与洞察提取
1.1.2 DALL·E 模型 (图像生成)
- 概述：DALL·E 模型能够根据文本描述生成全新的、富有创意的图像和艺术作品。它们将自然语言处理与计算机视觉相结合。
- 主要模型及其特点：
  - dall-e-3: 最新一代图像生成模型，对自然语言提示的理解能力更强，生成的图像质量更高、更符合细节要求，尤其擅长处理复杂的场景和细致的描述。它通常与 ChatGPT 集成，可以帮助用户优化提示词。
  - dall-e-2: 上一代图像模型，仍然非常强大。除了从文本生成图像，它还支持图像编辑 (in-painting, out-painting) 和生成图像变体。
- 应用场景：
  - 艺术创作与设计
  - 广告与营销素材生成
  - 产品概念可视化
  - 游戏与虚拟世界素材创建
  - 教育与娱乐内容配图
1.1.3 Whisper 模型 (语音转文本)
- 概述：Whisper 是一种通用的语音识别模型，可以将音频内容转换为文本。它在多种语言、口音和嘈杂环境下都表现出卓越的准确性。
- 主要模型及其特点：
  - whisper-1: 当前 API 提供的 Whisper 模型。
- 应用场景：
  - 会议记录与访谈转录
  - 语音助手与语音控制
  - 视频字幕生成
  - 语音邮件转文本
  - 数据分析 (从音频中提取信息)
  - 多语言语音内容的翻译 (可以转录并翻译成英文)
1.1.4 Embeddings 模型 (文本向量化)
- 概述：Embeddings 模型可以将文本转换为高维度的数字向量 (numerical vectors)。这些向量捕捉了文本的语义信息，使得机器可以更容易地理解文本之间的关系和相似性。
- 主要模型及其特点：
  - text-embedding-3-large: 最新、性能最好的嵌入模型，支持高达 3072 维。
  - text-embedding-3-small: 最新一代中更小、更高效的模型，支持高达 1536 维。这两个新模型支持通过 dimensions 参数缩短输出向量的维度，而不会显著损失概念表示能力。
  - text-embedding-ada-002: 上一代广泛使用的嵌入模型，输出 1536 维向量。性价比高。
- 应用场景：
  - 语义搜索 (根据意义而非关键词查找文本)
  - 文本聚类与分类
  - 推荐系统
  - 异常检测
  - 问答系统 (查找与问题最相关的文档片段)
  - 衡量文本相似度
1.1.5 Moderation 模型 (内容审核)
- 概述：Moderation 模型用于检测文本内容是否违反 OpenAI 的使用政策，例如是否包含仇恨言论、自残内容、色情内容、暴力内容等。
- 主要模型及其特点：
  - text-moderation-latest: 指向当前最新的审核模型。
  - text-moderation-stable: 指向一个相对稳定，不经常更新的审核模型版本。
- 应用场景：
  - 保护在线社区免受有害内容的侵害
  - 确保用户生成的内容符合规范
  - 过滤 AI 生成内容的潜在不当输出
1.1.6 Fine-tuning (模型微调)
- 概述：Fine-tuning 允许开发者使用自己的数据集来进一步训练 OpenAI 的基础模型，使其在特定任务上表现更好或学习特定的知识、风格。
- 支持微调的模型：包括 gpt-3.5-turbo, babbage-002, davinci-002 等 (具体列表请查阅最新 OpenAI 文档)。
- 应用场景：
  - 提升特定行业或领域术语的理解能力
  - 定制化模型输出的风格和语气
  - 在模型原有知识库之外教授新知识 (有限度)
  - 优化特定任务的性能，如特定类型的分类或摘要
1.1.7 Assistants API (构建AI助手)
- 概述：Assistants API 是一个更高级别的抽象，旨在帮助开发者构建复杂的 AI 助手。它简化了许多常见任务，如管理持久对话状态 (Threads)、调用模型定义的工具 (如 Code Interpreter, Retrieval, Function calling) 以及处理文件。
- 核心组件：Assistant (助手配置), Thread (对话线程), Message (消息), Run (执行任务), Tool (工具)。
- 应用场景：
  - 构建具有记忆能力和上下文感知的高级聊天机器人
  - 创建能够执行代码、分析数据、从文档中检索信息的 AI 代理
  - 自动化复杂的工作流程，如客户支持、数据分析报告生成等

通过组合使用这些模型和功能，开发者可以构建出功能强大且多样化的 AI 应用。接下来的章节将详细介绍如何使用 Python 与这些 API 进行交互。

1.2 API 密钥管理与安全性

在使用 OpenAI API 之前，您首先需要获取一个 API 密钥。这个密钥是您访问 API 服务的凭证，因此必须妥善保管。

1.2.1 获取 API 密钥
1. 注册 OpenAI 账户：如果您还没有 OpenAI 账户，请访问 OpenAI 官网并注册。
2. 访问 API Keys 页面：登录后，导航到您的账户设置中的 “API keys” 部分。通常可以在个人头像下拉菜单中找到 “View API keys” 或类似的选项。
3. 创建新的密钥：点击 “Create new secret key” 按钮。您可以选择为密钥命名，以便区分其用途 (例如 “my-python-app-key”)。
4. 复制并保存密钥：创建成功后，API 密钥会显示出来。请立即复制这个密钥并将其保存在一个安全的地方。一旦关闭该对话框，您将无法再次看到完整的密钥。 如果丢失，您需要创建一个新的密钥。
```
# 这是一个注释，提醒您API密钥的重要性
# API密钥示例格式 (请勿在代码中硬编码您的真实密钥):
# sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
# (上面的 x 代表随机字母和数字)

# 您的真实API密钥应该像这样：
# "sk-proj-YourUniqueCharactersAndNumbers" (对于项目密钥)
# 或者传统的 "sk-YourUniqueCharactersAndNumbers"

print("请访问 https://platform.openai.com/api-keys 获取您的API密钥。") # 打印提示信息
```

1.2.2 安全存储和使用密钥
将 API 密钥直接硬编码到您的 Python 脚本中是一种非常不安全的做法，尤其当代码需要共享或提交到版本控制系统 (如 Git) 时。以下是更安全的密钥管理方法：

环境变量 (推荐):
- 原理：将 API 密钥存储在操作系统的环境变量中。您的应用程序在运行时从环境中读取该密钥。
- 设置方法：
  - Linux/macOS: 在您的 shell 配置文件 (如 .bashrc, .zshrc) 中添加：
```
export OPENAI_API_KEY='你的真实API密钥'
```
    然后执行 source ~/.bashrc (或对应的配置文件) 使其生效。
  - Windows:
    - 通过系统属性 (搜索 “环境变量”) -> “高级” -> “环境变量…” 设置。
    - 或者在 PowerShell 中临时设置 (仅当前会话有效)：
```
$Env:OPENAI_API_KEY = "你的真实API密钥"
```
- Python 中读取:
```
import os # 导入os模块，用于访问操作系统功能

# 从环境变量中获取OpenAI API密钥
api_key = os.getenv("OPENAI_API_KEY") 

if api_key:
    # print(f"成功获取到API密钥: {api_key[:5]}...{api_key[-4:]}") # 打印部分密钥用于验证，注意不要完整打印
    pass # 如果获取到密钥，则执行后续操作
else:
    print("错误：未在环境变量中找到 OPENAI_API_KEY。") # 如果未获取到，打印错误信息
    print("请确保您已正确设置了 OPENAI_API_KEY 环境变量。")

# OpenAI Python 客户端库默认会自动查找名为 OPENAI_API_KEY 的环境变量
# 所以如果设置了环境变量，初始化客户端时通常不需要显式传递密钥
```
  中文解释:
  import os: 导入 Python 内置的 os 模块，它提供了与操作系统交互的功能。
  api_key = os.getenv("OPENAI_API_KEY"): 调用 os.getenv() 函数，尝试从环境变量中读取名为 “OPENAI_API_KEY” 的变量值。如果该环境变量存在，则返回其值；否则返回 None。
  if api_key:: 判断 api_key 是否成功获取到值 (不是 None 或空字符串)。
  else:: 如果未获取到密钥，则打印提示信息。

配置文件 (例如 .env 文件):

原理：将密钥存储在一个单独的、不受版本控制的配置文件中 (例如 .env 文件)，然后使用库 (如 python-dotenv) 来加载这些配置。

步骤:

安装 python-dotenv:
```
pip install python-dotenv
```
创建 .env 文件 (与您的 Python 脚本在同一目录或项目根目录)：
```
OPENAI_API_KEY="你的真实API密钥"
ANOTHER_CONFIG_VAR="some_value"
```
重要: 将 .env 文件添加到您的 .gitignore 文件中，以防止其被提交到 Git 仓库。
在 .gitignore 文件中添加一行：
```
.env
```

Python 中读取:

import os # 导入os模块
from dotenv import load_dotenv # 从dotenv库导入load_dotenv函数

# 加载 .env 文件中的环境变量
# 这会查找当前目录或父目录中的 .env 文件，并将其中的键值对加载到环境变量中
load_dotenv() 

api_key = os.getenv("OPENAI_API_KEY") # 从已加载的环境变量中获取API密钥

if api_key:
    # print(f"成功从.env文件加载API密钥: {api_key[:5]}...{api_key[-4:]}") # 验证密钥
    pass
else:
    print("错误：未能从 .env 文件加载 OPENAI_API_KEY。") # 错误提示
    print("请确保 .env 文件存在且包含 OPENAI_API_KEY。")

中文解释:
from dotenv import load_dotenv: 从 python-dotenv 库中导入 load_dotenv 函数。
load_dotenv(): 执行此函数会查找项目中的 .env 文件，并将其中的每一行 KEY=VALUE 解析为环境变量，加载到当前的运行环境中。这样 os.getenv() 就能读取到它们了。

密钥管理服务 (适用于生产环境和团队协作):

原理：使用专门的密钥管理服务，如 HashiCorp Vault, AWS Secrets Manager, Google Cloud Secret Manager, Azure Key Vault 等。这些服务提供了更高级的安全特性，如访问控制、审计日志、密钥轮换等。
集成方式：通常通过这些服务提供的 SDK 或客户端库在应用程序中安全地获取密钥。

示例概念 (AWS Secrets Manager):

# import boto3 # 导入AWS SDK for Python
# from botocore.exceptions import ClientError # 导入boto3客户端错误

# def get_secret(secret_name, region_name="your-aws-region"):
#     """从AWS Secrets Manager获取密钥"""
#     session = boto3.session.Session() # 创建一个boto3会话
#     client = session.client(
#         service_name='secretsmanager',
#         region_name=region_name
#     ) # 创建Secrets Manager客户端

#     try:
#         get_secret_value_response = client.get_secret_value(
#             SecretId=secret_name
#         ) # 调用API获取密钥值
#     except ClientError as e:
#         print(f"获取密钥 {secret_name} 失败: {e}") # 打印错误
#         raise e # 重新抛出异常
#     else:
#         # Secrets Manager 可以存储字符串或二进制，这里假设是字符串
#         # 如果密钥是JSON字符串，可能需要进一步解析
#         if 'SecretString' in get_secret_value_response:
#             secret = get_secret_value_response['SecretString'] # 获取密钥字符串
#             # 通常密钥会以JSON格式存储，例如 {"OPENAI_API_KEY": "your_key"}
#             # import json
#             # return json.loads(secret).get("OPENAI_API_KEY")
#             return secret # 返回获取到的密钥（或解析后的密钥）
#         else:
#             # decoded_binary_secret = base64.b64decode(get_secret_value_response['SecretBinary'])
#             # return decoded_binary_secret
#             print(f"密钥 {secret_name} 的格式非SecretString")
#             return None

# if __name__ == "__main__":
#     # 假设你在AWS Secrets Manager中存储的密钥名为 "openai/api_key"
#     # 并且该密钥的值就是你的OpenAI API密钥字符串或一个包含它的JSON
#     try:
#         # openai_api_key = get_secret("your_secret_name_in_aws", "your_aws_region")
#         # if openai_api_key:
#         #     print(f"成功从AWS Secrets Manager获取API密钥: {openai_api_key[:5]}...")
#         # else:
#         #     print("未能从AWS Secrets Manager获取到API密钥。")
#         print("AWS Secrets Manager 示例代码已注释掉，请根据实际情况取消注释并配置。")
#     except Exception as e:
#         # print(f"调用AWS Secrets Manager出错: {e}")
#         pass

中文解释 (AWS Secrets Manager 示例):
此示例代码展示了如何使用 boto3 (AWS SDK for Python) 从 AWS Secrets Manager 服务中检索预先存储的密钥。实际使用时需要正确配置 AWS凭证、区域以及密钥名称。这种方法将密钥管理中心化，提高了安全性，尤其适用于云环境中的生产应用。

1.2.3 API 密钥的最佳实践
- 不要在客户端代码中嵌入密钥：例如，不要在公开的 JavaScript 或移动应用代码中包含 API 密钥。应该通过后端服务代理 API 请求。
- 不要将密钥提交到版本控制系统：如前所述，使用 .gitignore 忽略包含密钥的文件。
- 为不同应用使用不同的密钥：这样可以方便地撤销某个应用的访问权限，而不会影响其他应用。也可以更好地追踪不同应用的用量。
- 定期轮换密钥：虽然 OpenAI 目前不强制密钥轮换，但在安全策略中考虑定期更换密钥是一个好习惯，尤其是在密钥可能已泄露的情况下。
- 限制密钥权限 (如果平台支持)：有些 API 平台允许创建具有特定权限范围或访问特定资源的密钥。OpenAI 目前的 API 密钥通常具有对账户下所有服务的访问权限，但组织管理员可以进行一些成员和权限管理。对于项目密钥 (Project API Keys)，可以实现更细致的权限控制。
- 监控 API 使用情况：定期检查 OpenAI 账户中的用量仪表盘，注意是否有异常的 API 调用，这可能表明密钥已泄露。
- 使用组织和项目功能：如果在一个团队或组织内工作，利用 OpenAI 的组织 (Organization) 和项目 (Project) 功能来管理访问和计费。项目 API 密钥可以被限定在特定项目内，提供更好的隔离和控制。

遵循这些安全实践，可以最大限度地降低 API 密钥泄露的风险及其潜在的不良后果。

1.3 理解 Token 与计费

OpenAI API 的使用并非免费 (通常新用户会有少量免费额度)，其计费方式与一个核心概念紧密相关：Token。

1.3.1 Token 是什么？如何计算？

定义：在自然语言处理中，Token 是模型处理文本的基本单位。对于英文文本，一个 Token 通常可以是一个单词、一个单词的一部分 (如 “eating” 中的 “eat” 和 “ing”)，或者一个标点符号。对于中文等其他语言，一个 Token 可能对应一个汉字，也可能对应一个词的一部分。
粗略估计:
- 对于英文：1 个 Token 大约是 4 个字符或 0.75 个单词。
- 对于中文：1 个 Token 大约是 0.5 - 0.7 个汉字 (具体取决于模型和编码)。一个汉字通常算作1到2个token。
Token 包含的内容：输入给模型的文本 (Prompt) 和模型生成的文本 (Completion/Response) 都会被计算 Token 数量。
计算工具:
- OpenAI 的 Tokenizer 工具：OpenAI 提供了一个在线的 Tokenizer 工具，您可以在上面粘贴文本，查看其被特定模型（如 gpt-3.5-turbo 或 gpt-4）分解后的 Token 数量和具体的 Token 形式。
- tiktoken 库 (Python)：OpenAI 开源了 tiktoken 库，允许开发者在代码中精确计算文本会被特定模型计为多少 Token。这对于成本预估和防止超出模型上下文长度限制非常有用。

import tiktoken # 导入tiktoken库

def count_tokens(text: str, model_name: str = "gpt-3.5-turbo") -> int:
    """
    使用tiktoken计算给定文本在特定模型下的token数量。
    
    参数:
        text (str): 需要计算token的文本。
        model_name (str): OpenAI模型的名称，例如 "gpt-3.5-turbo", "gpt-4", "text-embedding-ada-002"。
                           不同模型可能使用不同的编码方式。
    
    返回:
        int: 文本对应的token数量。
    """
    try:
        # 获取模型对应的编码器
        # tiktoken.encoding_for_model() 会根据模型名称返回正确的编码器实例
        encoding = tiktoken.encoding_for_model(model_name) 
    except KeyError:
        # 如果模型名称未知，则尝试使用一个通用的编码器 (例如cl100k_base，gpt-4和gpt-3.5-turbo使用)
        print(f"警告: 模型 '{
       model_name}' 未找到特定编码，将使用 'cl100k_base'。")
        encoding = tiktoken.get_encoding("cl100k_base") 
    
    # 使用编码器的encode方法将文本转换为token ID列表
    token_ids = encoding.encode(text) 
    # token ID列表的长度即为token数量
    return len(token_ids) 

# 示例用法
sample_text_en = "Hello, world! This is a test sentence."
sample_text_zh = "你好，世界！这是一个测试句子。"

# 针对 gpt-3.5-turbo 模型计算token
tokens_en_gpt35 = count_tokens(sample_text_en, "gpt-3.5-turbo")
tokens_zh_gpt35 = count_tokens(sample_text_zh, "gpt-3.5-turbo")

print(f"英文文本: '{
       sample_text_en}'") # 打印英文示例文本
print(f"使用 gpt-3.5-turbo 计算的Token数量: {
       tokens_en_gpt35}") # 打印英文Token数

print(f"中文文本: '{
       sample_text_zh}'") # 打印中文示例文本
print(f"使用 gpt-3.5-turbo 计算的Token数量: {
       tokens_zh_gpt35}") # 打印中文Token数

# 针对 gpt-4 模型计算token
tokens_en_gpt4 = count_tokens(sample_text_en, "gpt-4")
tokens_zh_gpt4 = count_tokens(sample_text_zh, "gpt-4")

print(f"使用 gpt-4 计算的英文Token数量: {
       tokens_en_gpt4}") # 打印英文Token数 (GPT-4)
print(f"使用 gpt-4 计算的中文Token数量: {
       tokens_zh_gpt4}") # 打印中文Token数 (GPT-4)

# 演示编码和解码
encoding_gpt35 = tiktoken.encoding_for_model("gpt-3.5-turbo")
encoded_tokens_zh = encoding_gpt35.encode(sample_text_zh)
print(f"中文文本 '{
       sample_text_zh}' 被编码为 Token IDs: {
       encoded_tokens_zh}") # 打印编码后的Token ID

decoded_text_zh = encoding_gpt35.decode(encoded_tokens_zh)
print(f"Token IDs 解码回文本: '{
       decoded_text_zh}'") # 打印解码后的文本

中文解释:
import tiktoken: 导入 OpenAI 官方提供的 tiktoken 库。
tiktoken.encoding_for_model(model_name): 这个函数会根据你指定的 model_name (例如 “gpt-3.5-turbo”) 返回一个该模型使用的特定编码器对象。不同的模型族可能使用不同的编码方案 (BPE - Byte Pair Encoding)。
encoding = tiktoken.get_encoding("cl100k_base"): 如果 encoding_for_model 找不到特定模型，我们回退到获取一个已知的编码器，例如 “cl100k_base”，它是 gpt-4, gpt-3.5-turbo 和 text-embedding-ada-002 等模型使用的编码。
token_ids = encoding.encode(text): 编码器的 encode 方法接收一个字符串，并返回一个由整数组成的列表，这些整数是文本被分解成的各个 Token 的 ID。
len(token_ids): 这个列表的长度就是文本所包含的 Token 数量。
decoded_text_zh = encoding_gpt35.decode(encoded_tokens_zh): 编码器的 decode 方法可以将 Token ID 列表转换回原始文本字符串。

1.3.2 不同模型的 Token 限制与成本

Token 限制 (Context Window):
- 每个 OpenAI 模型都有一个最大的 Token 数量限制，称为“上下文窗口” (Context Window)。这个限制包括了输入 Prompt 的 Token 和模型生成响应的 Token 的总和 (对于 Chat Models，是整个对话历史 + 生成的新消息)。
- 如果您的输入+预期输出超过了这个限制，API 请求可能会失败，或者输出会被截断。
- 示例模型及其典型上下文窗口大小 (请务必查阅 OpenAI 官方文档获取最新和最准确的信息):
  - gpt-4o: 128,000 tokens
  - gpt-4-turbo (如 gpt-4-1106-preview, gpt-4-0125-preview): 128,000 tokens
  - gpt-4: 8,192 tokens (gpt-4) 或 32,768 tokens (gpt-4-32k)
  - gpt-3.5-turbo (如 gpt-3.5-turbo-0125): 16,385 tokens (输入), 4,096 tokens (输出)
  - gpt-3.5-turbo (旧版如 gpt-3.5-turbo-0613): 4,096 tokens 或 16,385 tokens (gpt-3.5-turbo-16k)
  - text-embedding-ada-002: 8,191 tokens
- 重要: 选择模型时，需要考虑其上下文窗口是否能容纳您的任务所需的输入和预期输出。对于需要处理长文档或长对话历史的应用，具有更大上下文窗口的模型 (如 gpt-4-turbo, gpt-4o) 更为合适。
成本:
- OpenAI API 的价格根据所使用的模型、输入 Token 的数量和输出 Token 的数量来计算。
- 通常，更强大的模型 (如 gpt-4 系列) 比能力稍弱的模型 (如 gpt-3.5-turbo) 价格更高。
- 输入 Token 和输出 Token 的价格可能不同。例如，对于某些模型，输入 Token 的价格可能比输出 Token 的价格便宜。
- 价格单位：通常以每 1,000 Tokens (1k Tokens) 或每 1,000,000 Tokens (1M Tokens) 美元计价。
- 查看最新价格: 请务必访问 OpenAI 官方定价页面获取最新的、针对不同模型的详细价格信息。价格会随时间和模型更新而调整。
- Fine-tuning 的成本: Fine-tuning 模型会涉及训练成本 (按训练数据中的 Token 总数和训练时长/轮数计算) 和之后使用微调模型的推理成本 (通常与基础模型类似或略高)。
- DALL·E 成本: 按生成的图像数量、尺寸和质量 (如 DALL·E 3 的 hd 模式) 计费。
- Whisper 成本: 按音频时长 (例如，每分钟) 计费。
- Assistants API 成本: 涉及多个方面，包括底层模型调用 (如 GPT-4)、Code Interpreter 的使用 (按会话时长)、Retrieval (按存储和查询量)。

# 假设的费率 (美元/1k tokens) - 这些数字仅为示例，请务必查阅官方文档！
MOCK_RATES = {
     
    "gpt-3.5-turbo": {
     "input": 0.0005, "output": 0.0015}, # 假设每1k输入token $0.0005, 每1k输出token $0.0015
    "gpt-4": {
     "input": 0.03, "output": 0.06},          # 假设每1k输入token $0.03, 每1k输出token $0.06
    "gpt-4o": {
     "input": 0.005, "output": 0.015},       # 假设每1k输入token $0.005, 每1k输出token $0.015
}

def estimate_cost(input_tokens: int, output_tokens: int, model_name: str) -> float:
    """
    估算API调用的成本。
    
    参数:
        input_tokens (int): 输入的token数量。
        output_tokens (int): 输出的token数量。
        model_name (str): 使用的模型名称。
        
    返回:
        float: 估算的成本 (美元)。
    """
    if model_name not in MOCK_RATES:
        print(f"警告: 模型 '{
       model_name}' 的费率未知，无法估算成本。")
        return 0.0
        
    rate = MOCK_RATES[model_name] # 获取对应模型的费率
    cost = (input_tokens / 1000) * rate["input"] + \
           (output_tokens / 1000) * rate["output"] # 计算总成本
    return cost

# 示例：估算一次调用的成本
prompt = "请帮我写一首关于春天的诗，大约100字。"
# 假设模型生成了包含150个token的响应
# (这些token数是随意假设的，实际中需要用tiktoken精确计算)

# 使用 gpt-3.5-turbo
input_tokens_gpt35 = count_tokens(prompt, "gpt-3.5-turbo") # 计算输入token
# 假设输出 token 数，实际应从 API 响应的 usage 字段获取
# 或在请求中通过 max_tokens 限制，然后根据实际输出来计算
output_tokens_gpt35 = count_tokens("春天的风，轻拂杨柳岸。桃花笑靥，燕儿呢喃。", "gpt-3.5-turbo") # 假设这是模型的输出

cost_gpt35 = estimate_cost(input_tokens_gpt35, output_tokens_gpt35, "gpt-3.5-turbo")
print(f"使用 gpt-3.5-turbo (输入: {
       input_tokens_gpt35} tokens, 输出: {
       output_tokens_gpt35} tokens) 的估算成本: ${
       cost_gpt35:.6f}")

# 使用 gpt-4o
input_tokens_gpt4o = count_tokens(prompt, "gpt-4o")
output_tokens_gpt4o = count_tokens("春风拂绿柳，桃花逐水流。莺歌燕舞时，万象更新柔。", "gpt-4o") # 假设这是模型的输出

cost_gpt4o = estimate_cost(input_tokens_gpt4o, output_tokens_gpt4o, "gpt-4o")
print(f"使用 gpt-4o (输入: {
       input_tokens_gpt4o} tokens, 输出: {
       output_tokens_gpt4o} tokens) 的估算成本: ${
       cost_gpt4o:.6f}")

# 注意：上述成本估算使用的是假设的费率MOCK_RATES。
# 实际成本请务必参考OpenAI官方最新的定价页面。
# API响应中通常会包含 `usage` 字段，明确告知了该次调用的确切token消耗。

中文解释:
MOCK_RATES: 这是一个字典，模拟存储了不同模型的输入和输出 Token 的单价 (每千 Token)。再次强调，这里的费率是假设的，实际费率会变化，请务必查阅 OpenAI 官方文档。
estimate_cost(...): 这个函数接收输入 Token 数、输出 Token 数和模型名称，然后根据 MOCK_RATES 中的费率计算总成本。计算方法是：(输入Token数 / 1000) * 输入单价 + (输出Token数 / 1000) * 输出单价。
这个示例清晰地展示了不同模型以及输入/输出 Token 数量对成本的直接影响。

1.3.3 成本控制与优化策略
管理和优化 OpenAI API 的使用成本对于任何规模的应用都至关重要。
1. 选择合适的模型：
  - 并非所有任务都需要最强大的模型。对于简单任务 (如简单分类、格式转换)，gpt-3.5-turbo 可能已经足够，并且成本远低于 gpt-4 或 gpt-4o。
  - 在满足性能要求的前提下，优先选择成本效益更高的模型。
2. 优化 Prompt 长度：
  - Prompt 越长，消耗的输入 Token 就越多，成本也越高。
  - 尽量使 Prompt 简洁明了，只包含必要的信息。
  - 移除不相关的上下文或示例。
  - 使用更高效的 Prompt Engineering 技巧 (例如，few-shot learning 时提供简短但信息量大的示例)。
3. 限制输出长度 (max_tokens):
  - 在 API 请求中设置 max_tokens 参数，可以限制模型生成响应的最大 Token 数量。这不仅可以防止意外生成过长的文本，也能直接控制输出 Token 的成本。
  - 需要注意的是，如果 max_tokens 设置得太小，可能会导致输出不完整 (finish_reason 会是 length)。
4. 使用 tiktoken 预估成本:
  - 在发送 API 请求前，使用 tiktoken 计算 Prompt 的 Token 数量，可以提前预估输入成本。
5. 监控 API usage 字段:
  - OpenAI API 的响应中通常会包含一个 usage 对象，其中详细说明了该次请求消耗的 prompt_tokens (输入Token)、completion_tokens (输出Token) 和 total_tokens (总Token)。
  - 记录和分析这些数据，可以帮助您了解应用的实际 Token 消耗情况。
```
// API 响应中 usage 字段示例
{
       
  // ... 其他响应内容 ...
  "usage": {
       
    "prompt_tokens": 56,
    "completion_tokens": 150,
    "total_tokens": 206
  }
}
```
6. 设置预算与告警 (OpenAI Platform):
  - 在 OpenAI 平台的账户设置中，您可以设置每月的使用量上限 (硬限制或软限制) 和消费预警。当支出接近或达到设定的阈值时，您会收到通知。
7. 批处理请求 (Batching):
  - 对于某些 API (如 Embeddings API)，可以一次性提交多个输入项进行处理，这通常比逐个发送请求更高效，并可能在某些情况下降低总体开销 (例如，减少了 HTTP 请求的次数)。
8. 缓存 API 响应:
  - 对于那些输入相同、预期输出也基本不变的请求 (例如，对特定文档的摘要、常见问题的回答)，可以考虑缓存 API 的响应结果。
  - 使用 Redis 或其他缓存系统存储结果，当再次遇到相同请求时，直接从缓存返回，避免重复调用 API，从而节省成本和提高响应速度。
  - 需要注意缓存的有效期和更新策略。
9. 流式响应 (stream=True):
  - 对于 Chat Completions，使用流式响应本身不直接降低 Token 成本 (因为总 Token 数不变)，但它可以改善用户体验，让用户更快看到结果。在某些交互场景下，用户可能在看到部分结果后就中止请求，从而间接节省了未生成部分的 Token 成本。
10. 针对特定任务使用专用模型:
  - 例如，如果只需要语音转文本，直接使用 Whisper API；如果只需要文本向量化，使用 Embeddings API。这些专用模型通常比使用通用的大型语言模型 (如 GPT-4) 来模拟这些功能更具成本效益和性能优势。
11. 对于 Fine-tuning:
  - 仔细准备和清洗训练数据，高质量的数据比大量低质量数据更重要。
  - 监控微调过程中的指标，避免不必要的训练轮次。
  - 评估微调后的模型是否真的比使用 Prompt Engineering 的基础模型有显著优势，以证明其成本合理性。
12. 利用更低成本的 Embedding 模型和维度裁剪:
  - text-embedding-3-small 比 text-embedding-3-large 便宜。
  - 对于新的 text-embedding-3 系列模型，可以使用 dimensions 参数来获取更短的嵌入向量，这不仅可以减少存储和计算成本（例如在向量数据库中），而且 OpenAI 对这些缩短维度的嵌入有更低的定价。

通过综合运用这些策略，开发者可以有效地控制和优化 OpenAI API 的使用成本，确保项目的可持续性。

1.4 API 请求与响应结构

与 OpenAI API 交互本质上是进行 HTTP 网络请求。理解其通用的请求和响应结构有助于更好地使用和调试 API。

1.4.1 通用请求头 (HTTP Headers)
当您通过 HTTP 直接调用 API (例如使用 curl 或 requests 库，而不是 OpenAI 官方 Python 客户端库) 时，通常需要设置以下请求头：
- Authorization: 用于身份验证。
  - 值格式: Bearer YOUR_OPENAI_API_KEY
  - 示例: Authorization: Bearer sk-xxxxxxxxxxxxxxxxxxxx
- Content-Type: 指定请求体的格式。
  - 对于发送 JSON 数据的 POST 请求 (大部分 OpenAI API 都如此)，其值为 application/json。
  - 示例: Content-Type: application/json
- OpenAI-Organization (可选): 如果您的账户属于多个组织，您可以使用此头部指定请求应归属于哪个组织。值为您的组织 ID (Organization ID)。
  - 示例: OpenAI-Organization: org-xxxxxxxxxxxxxxxx
- OpenAI-Project (可选): 如果您使用了项目功能并希望将请求与特定项目关联，可以指定项目 ID。
  - 示例: OpenAI-Project: proj_xxxxxxxxxxxxxxxx
当使用 OpenAI 官方 Python 客户端库 (openai) 时，库会自动处理这些请求头的设置，您通常只需要在初始化客户端时提供 API 密钥。
1.4.2 基本 API 端点 (Endpoints)
OpenAI API 的所有端点都以一个基础 URL 开始，通常是 https://api.openai.com/v1/。
不同的功能对应不同的路径：
- Chat Completions: POST /v1/chat/completions
- Embeddings: POST /v1/embeddings
- Image Generation (DALL·E): POST /v1/images/generations
- Audio Transcriptions (Whisper): POST /v1/audio/transcriptions (这是一个 multipart/form-data 请求，因为需要上传文件)
- Fine-tuning Jobs: POST /v1/fine_tuning/jobs
- Files: POST /v1/files (用于上传文件)
- Assistants: POST /v1/assistants
- Threads: POST /v1/threads
- Moderations: POST /v1/moderations
完整的 API 端点列表和各端点的具体参数可以在 OpenAI API 参考文档中找到。
1.4.3 理解 JSON 响应格式
OpenAI API 的绝大多数成功响应都会返回 JSON 格式的数据。JSON (JavaScript Object Notation) 是一种轻量级的数据交换格式，易于人阅读和编写，也易于机器解析和生成。

一个典型的 JSON 响应结构可能包含以下部分：
- id: 唯一标识该次 API 响应的 ID (例如，Chat Completion ID)。
- object: 响应对象的类型 (例如，chat.completion, embedding, list)。
- created: API 响应创建的 Unix 时间戳。
- model: 本次请求使用的模型名称 (例如，gpt-3.5-turbo-0125)。
- choices (常用于 Chat Completions, Completions): 一个数组，包含了模型生成的候选项。
  - 每个 choice 对象通常包含:
    - index: 候选项的索引。
    - message (Chat Completions): 包含 role (assistant) 和 content (模型生成的文本) 的对象。
    - text (旧版 Completions): 模型生成的文本。
    - finish_reason: 模型停止生成的原因 (如 stop - 自然停止, length - 达到 max_tokens, tool_calls - 需要调用工具, content_filter - 内容被过滤)。
    - logprobs (如果请求了): Token 的对数概率信息。
- data (常用于 Embeddings, Files list, Models list): 一个数组，包含请求的数据列表 (例如，嵌入向量列表，文件对象列表)。
- usage (常用于 Chat Completions, Completions, Embeddings): 包含 Token 使用信息的对象，如 prompt_tokens, completion_tokens, total_tokens。
- 其他特定于 API 的字段。
示例 JSON 响应 (Chat Completion):
```
{
     
  "id": "chatcmpl-xxxxxxxxxxxxxxxxxxxxxxxxx",
  "object": "chat.completion",
  "created": 1700000000,
  "model": "gpt-3.5-turbo-0125",
  "choices": [
    {
     
      "index": 0,
      "message": {
     
        "role": "assistant",
        "content": "你好！我能为你做些什么？"
      },
      "logprobs": null,
      "finish_reason": "stop"
    }
  ],
  "usage": {
     
    "prompt_tokens": 10,
    "completion_tokens": 12,
    "total_tokens": 22
  },
  "system_fingerprint": "fp_xxxxxxxxxx" // 用于追踪模型变动的系统指纹
}
```
在 Python 中，可以使用 json 模块或 requests 库内置的 .json() 方法来轻松解析这些 JSON 响应。
1.4.4 错误处理与状态码
当 API 请求出现问题时，OpenAI API 会返回一个非 200 OK 的 HTTP 状态码，并且响应体通常也是 JSON 格式，包含一个 error 对象，其中描述了错误信息。

常见的 HTTP 状态码及其含义：
- 200 OK: 请求成功。
- 400 Bad Request: 请求无效。通常是由于请求参数错误、格式不正确等。错误响应中会包含具体原因。
  - 示例错误: 模型不支持的参数, max_tokens 超出模型限制等。
- 401 Unauthorized: 身份验证失败。通常是 API 密钥不正确、缺失或已过期/被撤销。
  - error.type: invalid_request_error
  - error.code: invalid_api_key
- 403 Forbidden: 请求被拒绝，通常与权限或内容策略有关（例如，触发了内容安全过滤器）。
- 404 Not Found: 请求的资源不存在 (例如，错误的端点，或尝试检索不存在的文件/模型)。
- 429 Too Many Requests: 超出速率限制 (Rate Limit)。OpenAI 对 API 的调用频率和 Token 处理速率都有限制，以保证服务的稳定性。
  - error.type: tokens 或 requests
  - 响应头中可能包含 Retry-After 字段，建议等待一段时间后再重试。
- 500 Internal Server Error: OpenAI 服务器端发生内部错误。这种情况通常是暂时的，可以稍后重试。
- 502 Bad Gateway: OpenAI 服务器作为网关或代理，从上游服务器收到了无效的响应。
- 503 Service Unavailable: OpenAI 服务器当前不可用 (例如，过载或正在进行维护)。通常也是暂时的，可以稍后重试。
示例错误 JSON 响应:
```
{
     
  "error": {
     
    "message": "You exceeded your current quota, please check your plan and billing details. For more information on usage limits, please visit: https://platform.openai.com/account/billing/limits.",
    "type": "insufficient_quota", // 错误类型
    "param": null,               // 导致错误的参数 (如果适用)
    "code": "insufficient_quota" // 错误码
  }
}
```
或者对于速率限制：
```
{
     
  "error": {
     
    "message": "Rate limit reached for requests to gpt-4 in organization org-xxxx on tokens per min (TPM): Limit 10000, Used 9500, Requested 1000. Please try again in 3s. Visit https://platform.openai.com/account/rate-limits to learn more.",
    "type": "tokens",
    "param": null,
    "code": "rate_limit_exceeded"
  }
}
```
健壮的应用程序应该能够正确处理这些错误情况，例如通过记录错误、通知用户、实现重试机制 (特别是对于 429, 500, 503 错误) 等。OpenAI Python 客户端库会将这些错误封装为特定的异常类。

1.5 OpenAI Python 客户端库 (openai)

虽然可以直接使用 requests 等 HTTP 库与 OpenAI API 交互，但 OpenAI 官方提供了 Python 客户端库 (openai)，它极大地简化了 API 调用过程，封装了请求构建、身份验证、错误处理等细节。强烈建议使用官方库进行开发。

1.5.1 安装与基本配置

安装:
使用 pip 安装最新版本的 openai 库：
```
pip install --upgrade openai
```
或者，如果您需要异步功能，可以安装带有 httpx 依赖的版本 (尽管最新版 openai 默认包含了 httpx)：
```
# pip install openai[httpx] # 旧版可能需要，新版通常已包含
```

基本配置 (API 密钥):
如 1.2.2 节所述，推荐将 API 密钥设置为环境变量 OPENAI_API_KEY。openai 库会自动检测并使用这个环境变量。

如果由于某种原因不能使用环境变量，您可以在初始化客户端时显式传递密钥：

from openai import OpenAI # 导入OpenAI类

# 假设你没有设置环境变量，或者想覆盖环境变量
# explicit_api_key = "sk-your_actual_api_key_here" # 非常不推荐直接硬编码

# client = OpenAI(api_key=explicit_api_key) # 显式传递API密钥

# 如果设置了环境变量 OPENAI_API_KEY，则可以不传 api_key 参数
try:
    client = OpenAI() # 客户端会自动查找 OPENAI_API_KEY 环境变量
    # 您可以进行一次简单的调用来测试配置是否成功，例如列出模型
    # models = client.models.list()
    # print("成功初始化OpenAI客户端并连接。可用模型数量:", len(models.data))
    print("OpenAI客户端初始化成功（依赖环境变量OPENAI_API_KEY）。")
except Exception as e:
    print(f"初始化OpenAI客户端失败: {
         e}") # 打印初始化错误
    print("请检查您的OPENAI_API_KEY环境变量是否已正确设置，或者网络连接是否正常。")

# 也可以通过 openai.api_key = "YOUR_KEY" 来全局设置 (已不推荐用于 >=1.0.0 版本)
# import openai
# openai.api_key = os.getenv("OPENAI_API_KEY") # 旧版用法示例，新版请使用客户端实例

中文解释:
from openai import OpenAI: 从 openai 库中导入核心的 OpenAI 类 (用于同步操作) 或 AsyncOpenAI (用于异步操作，稍后介绍)。
client = OpenAI(): 创建 OpenAI 类的一个实例。如果 OPENAI_API_KEY 环境变量已设置，它会自动被客户端使用。
client = OpenAI(api_key="sk-..."): 如果需要显式提供 API 密钥，可以在构造函数中通过 api_key 参数传入。

1.5.2 同步与异步客户端
openai Python 库 (版本 >= 1.0.0) 提供了同步和异步两种方式来调用 API。

同步客户端 (OpenAI):

这是标准的使用方式，API 调用会阻塞当前线程，直到收到响应。
适用于大多数常规脚本、Web 应用的后端请求处理 (在非异步框架中) 等。

from openai import OpenAI # 导入同步客户端

# 初始化同步客户端
# 它会自动查找 OPENAI_API_KEY 环境变量
client = OpenAI() 

# 后续章节将展示如何使用 client 对象调用各种 API
# 例如: response = client.chat.completions.create(...)
print("同步OpenAI客户端已准备就绪。")

异步客户端 (AsyncOpenAI):

基于 asyncio 和 httpx 实现，允许进行非阻塞的 API 调用。
适用于需要高并发处理大量 API 请求的场景，例如构建高性能的异步 Web 服务 (如 FastAPI, Starlette)、批处理任务等。
使用异步客户端需要在 async def 函数中使用 await 关键字。

from openai import AsyncOpenAI # 导入异步客户端
import asyncio # 导入asyncio库

# 初始化异步客户端
# 它也会自动查找 OPENAI_API_KEY 环境变量
async_client = AsyncOpenAI()

async def main_async_example(): # 定义一个异步函数
    try:
        # 异步调用示例：列出模型 (这是一个轻量级调用，适合测试)
        models_list = await async_client.models.list() # 使用await进行异步调用
        # print(f"异步获取到 {len(models_list.data)} 个模型。")
        print("异步OpenAI客户端已准备就绪，并成功连接测试。")
    except Exception as e:
        print(f"异步客户端测试失败: {
         e}")
    finally:
        await async_client.close() # 异步客户端使用完毕后，建议显式关闭以释放资源

# if __name__ == "__main__":
#     # 要运行异步代码，需要使用 asyncio.run()
#     # asyncio.run(main_async_example()) 
#     print("异步客户端示例代码已注释，如需运行请取消注释并确保在异步上下文中执行。")

# 提示：如果在Jupyter Notebook等已经有事件循环的环境中运行，
# 可以直接 await async_client.models.list() (在async cell中)
# 或者使用 get_running_loop().create_task(main_async_example())

中文解释 (异步):
from openai import AsyncOpenAI: 导入异步版本的客户端 AsyncOpenAI。
async_client = AsyncOpenAI(): 初始化异步客户端。
async def main_async_example():: 定义一个异步函数。异步操作必须在异步函数内执行。
models_list = await async_client.models.list(): await 关键字用于等待异步操作 async_client.models.list() 完成。在等待期间，事件循环可以去执行其他任务，从而实现非阻塞。
await async_client.close(): 在异步操作完成后，调用 close() 方法来妥善关闭底层的 HTTP 连接和资源。这在使用 httpx.AsyncClient 时是一个好习惯。对于脚本结束时会自动清理的简单情况可能不是严格必须，但对于长时间运行的服务是推荐的。

1.5.3 初始化客户端 (OpenAI())
OpenAI 和 AsyncOpenAI 客户端在初始化时还可以接受其他一些有用的参数，用于自定义其行为：

from openai import OpenAI, AsyncOpenAI # 导入客户端
import httpx # 导入httpx库，用于自定义传输配置

# --- 同步客户端的更多初始化选项 ---
sync_client_custom = OpenAI(
    api_key="sk-your_explicit_key_if_needed",  # 显式设置API密钥 (如果不用环境变量)
    organization="org-your_organization_id", # 指定组织ID (如果账户属于多个组织)
    project="proj_your_project_id",           # 指定项目ID (如果使用了项目功能)
    timeout=httpx.Timeout(30.0, connect=5.0), # 设置超时: 总超时30秒，连接超时5秒
                                              # 默认总超时是 10 分钟，连接超时是未指定 (通常依赖系统)
                                              # 对于 stream=True 的请求，默认是无限等待直到流结束
    max_retries=2,                            # 自动重试次数 (针对可重试的错误，如429, 5xx)
                                              # 默认是 2 次
    # http_client=httpx.Client(proxies="http://localhost:8080"), # 传递自定义的httpx客户端实例，例如用于设置代理
)
print("自定义配置的同步OpenAI客户端已创建 (但未使用实际密钥或ID)。")

# --- 异步客户端的更多初始化选项 (类似) ---
async_client_custom = AsyncOpenAI(
    api_key="sk-your_explicit_key_if_needed",
    organization="org-your_organization_id",
    project="proj_your_project_id",
    timeout=httpx.Timeout(60.0, read=20.0, write=10.0, connect=5.0), # 更细致的超时: 总60s, 读20s, 写10s, 连接5s
    max_retries=3,
    # http_client=httpx.AsyncClient(transport=httpx.ASGITransport(app=my_asgi_app)), # 高级自定义
)
print("自定义配置的异步OpenAI客户端已创建 (但未使用实际密钥或ID)。")

# 你可以通过 client.api_key, client.organization 等属性访问这些配置
# 例如:
# print(f"同步客户端的超时设置: {sync_client_custom.timeout}")
# print(f"异步客户端的重试次数: {async_client_custom.max_retries}")

# 使用完异步客户端后，记得关闭
async def close_custom_async_client()

你可能感兴趣的:(python,开发语言)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
Jupyter Notebook：数据科学的“瑞士军刀” a小胡哦机器学习基础人工智能机器学习
在数据科学的世界里，JupyterNotebook是一个不可或缺的工具，它就像是数据科学家手中的“瑞士军刀”，功能强大且灵活多变。今天，就让我们一起深入了解这个神奇的工具。一、JupyterNotebook是什么？JupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它支持多种编程语言，其中Python是最常用的语言之一。Jupy
Django学习笔记（一）
学习视频为：pythondjangoweb框架开发入门全套视频教程一、安装pipinstalldjango==****检查是否安装成功django.get_version()二、django新建项目操作1、新建一个项目django-adminstartprojectproject_name2、新建APPcdproject_namedjango-adminstartappApp注：一个project
Python 程序设计讲义（26）：字符串的用法——字符的编码睿思达DBA_WGX Python 讲义 python 开发语言
Python程序设计讲义（26）：字符串的用法——字符的编码目录Python程序设计讲义（26）：字符串的用法——字符的编码一、字符的编码二、`ASCII`编码三、`Unicode`编码四、使用`ord()`函数查询一个字符对应的`Unicode`编码五、使用`chr()`函数查询一个`Unicode`编码对应的字符六、`Python`字符串的特征一、字符的编码计算机默认只能处理二进制数，而不能处
【Python】pypinyin-汉字拼音转换工具鸟哥大大 Python python 自然语言处理
文章目录1.主要功能2.安装3.常用API3.1拼音风格3.2核心API3.2.1pypinyin.pinyin()3.2.2pypinyin.lazy_pinyin()3.2.3pypinyin.load_single_dict()3.2.4pypinyin.load_phrases_dict()3.2.5pypinyin.slug()3.3注册新的拼音风格4.基本用法4.1库导入4.2基本汉字
python编程第十四课：数据可视化小小源助手 Python代码实例信息可视化 python 开发语言
Python数据可视化：让数据“开口说话”在当今数据爆炸的时代，数据可视化已成为探索数据规律、传达数据信息的关键技术。Python凭借其丰富的第三方库，为数据可视化提供了强大而灵活的解决方案。本文将带你深入了解Matplotlib库的基础绘图、Seaborn库的高级可视化以及交互式可视化工具Plotly，帮助你通过图表清晰地展示数据背后的故事。一、Matplotlib库基础绘图Matplotlib
Python数据可视化：用代码绘制数据背后的故事 AAEllisonPang Python 信息可视化 python 开发语言
引言：当数据会说话在数据爆炸的时代，可视化是解锁数据价值的金钥匙。Python凭借其丰富的可视化生态库，已成为数据科学家的首选工具。本文将带您从基础到高级，探索如何用Python将冰冷数字转化为引人入胜的视觉叙事。一、基础篇：二维可视化的艺术表达1.1Matplotlib：可视化领域的瑞士军刀importmatplotlib.pyplotaspltimportnumpyasnpx=np.linsp
python学习笔记（汇总）朕的剑还未配妥 python学习笔记整理 python 学习开发语言
文章目录一.基础知识二.python中的数据类型三.运算符四.程序的控制结构五.列表六.字典七.元组八.集合九.字符串十.函数十一.解决bug一.基础知识print函数字符串要加引号，数字可不加引号，如print(123.4)print('小谢')print("洛天依")还可输入表达式，如print(1+3)如果使用三引号，print打印的内容可不在同一行print("line1line2line
PDF转Markdown - Python 实现方案与代码 Eiceblue Python Python PDF pdf python 开发语言 vscode
PDF作为广泛使用的文档格式，转换为轻量级标记语言Markdown后，可无缝集成到技术文档、博客平台和版本控制系统中，提高内容的可编辑性和可访问性。本文将详细介绍如何使用国产Spire.PDFforPython库将PDF文档转换为Markdown格式。技术优势：精准保留原始文档结构（段落/列表/表格）完整提取文本和图像内容无需Adobe依赖的纯Python实现支持Linux/Windows/mac
使用Python和Gradio构建实时数据可视化工具 PythonAI编程架构实战家信息可视化 python 开发语言 ai
使用Python和Gradio构建实时数据可视化工具关键词：Python、Gradio、数据可视化、实时数据、Web应用、交互式界面、数据科学摘要：本文将详细介绍如何使用Python和Gradio框架构建一个实时数据可视化工具。我们将从基础概念开始，逐步深入到核心算法实现，包括数据处理、可视化技术以及Gradio的交互式界面设计。通过实际项目案例，读者将学习如何创建一个功能完整、响应迅速的实时数据
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
数据可视化：数据世界的直观呈现卢政权1 信息可视化数据分析数据挖掘
在当今数字化浪潮中，数据呈爆炸式增长。数据可视化作为一种强大的技术手段，能够将复杂的数据转化为直观的图形、图表等形式，让数据背后的信息一目了然。无论是在商业决策、科学研究还是日常数据分析中，数据可视化都发挥着极为重要的作用。它帮助我们快速理解数据的分布、趋势、关联等特征，从而为进一步的分析和行动提供有力支持。接下来，我们将深入探讨数据可视化的奥秘，并通过代码示例展示其实际应用。一、Python数据
Python 程序设计讲义（25）：循环结构——嵌套循环
Python程序设计讲义（25）：循环结构——嵌套循环目录Python程序设计讲义（25）：循环结构——嵌套循环一、嵌套循环的执行流程二、嵌套循环对应的几种情况1、内循环和外循环互不影响2、外循环迭代影响内循环的条件3、外循环迭代影响内循环的循环体嵌套循环是指在一个循环体中嵌套另一个循环。while循环中可以嵌入另一个while循环或for循环。反之，也可以在for循环中嵌入另一个for循环或wh
基于Python引擎的PP-OCR模型库推理张欣-男 python ocr 开发语言 PaddleOCR PaddlePaddle
基于Python引擎的PP-OCR模型库推理1.文本检测模型推理#下载超轻量中文检测模型：wgethttps://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_det_infer.tartarxfch_PP-OCRv3_det_infer.tarpython3tools/infer/predict_det.py--image_dir=".
一个开源AI牛马神器 | AiPy，平替Manus，装完直接上手写Python！ Agent加载失败人工智能 python 开源算法 AI编程
还记得三个月前那个在闲鱼被炒到万元邀请码的Manus吗？现在你点官网，直接提示「所在地区不可用」了它走了，但更香的国产开源项目出现了：AiPy（爱派）。主打一个极致简化的AIAgent理念：别搞什么插件市场、Agent路由，直接给AI一个Python解释器，让它用自然语言写代码干活。听起来狠活？实际体验更狠：•完全本地化，界面傻瓜式操作，支持自然语言生成&执行Python任务；•数据清洗、文档总结
零数学基础理解AI核心概念：梯度下降可视化实战九章云极AladdinEdu 人工智能 gpu算力深度学习 pytorch python 语言模型 opencv
点击“AladdinEdu，同学们用得起的【H卡】算力平台”，H卡级别算力，按量计费，灵活弹性，顶级配置，学生专属优惠。用Python动画演示损失函数优化过程，数学公式具象化读者收获：直观理解模型训练本质，破除"数学恐惧症"当盲人登山者摸索下山路径时，他本能地运用了梯度下降算法。本文将用动态可视化技术，让你像感受重力一样理解AI训练的核心原理——无需任何数学公式推导。一、梯度下降：AI世界的"万有
2025.07 Java入门笔记01 殷浩焕笔记
一、熟悉IDEA和Java语法（一）LiuCourseJavaOOP1.一直在用C++开发，python也用了些，Java是真的不熟，用什么IDE还是问的同事；2.一开始安装了jdk-23，拿VSCode当编辑器，在cmd窗口编译运行，也能玩；但是想正儿八经搞项目开发，还是需要IDE；3.安装了IDEA社区版：（1）IDE通常自带对应编程语言的安装包，例如IDEA自带jbr-21（和jdk是不同的
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
Python STL概念学习与代码实践体制教科书
本文还有配套的精品资源，点击获取简介：通过”py_stl_learning”项目，学习者可以使用Python实现和理解C++STL的概念，包括数据结构、算法、容器适配器、模板和泛型容器等。Python中的列表、集合、字典等数据结构与STL中的vector、set、map等类似，而Python的itertools和functools模块提供了STL风格的算法功能。Python通过其面向对象的特性以及
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持