分散406

5.20 打卡

DAY 31 文件的规范拆分和写法

知识点回顾

规范的文件命名
规范的文件夹管理
机器学习项目的拆分
编码格式和类型注解

作业：尝试针对之前的心脏病项目，准备拆分的项目文件，思考下哪些部分可以未来复用。

heart_disease_prediction/
│
├── data/ # 数据文件夹
│ ├── raw/ # 原始数据
│ │ └── heart.csv # <-- 你的原始 heart.csv 文件应该放在这里
│ └── processed/ # 处理后的数据或中间结果 (可选)
│
├── src/ # 项目源代码目录
│ ├── __init__.py # 使 src 成为 Python 包
│ ├── config.py # 项目配置：路径、参数、特征列表等
│ ├── utils.py # 通用工具函数：如对象保存/加载
│ │
│ ├── data/ # 数据处理相关模块
│ │ ├── __init__.py
│ │ ├── loading.py # 数据加载和分割
│ │ ├── preprocessing.py # 数据清洗、缺失值处理、编码、缩放
│ │ └── feature_engineering.py # 特征工程 (可能很简单或不需要，但保留结构)
│ │
│ ├── models/ # 模型相关模块
│ │ ├── __init__.py
│ │ ├── training.py # 模型选择和训练
│ │ └── evaluation.py # 模型评估
│ │
│ └── visualization/ # 可视化相关模块
│ ├── __init__.py
│ └── plots.py # 绘制图表函数
│
├── models/ # 保存训练好的模型和预处理器
│ └── best_model.pkl # 训练好的模型
│ └── preprocessor.pkl # 拟合好的数据预处理器 (重要!)
│
├── notebooks/ # Jupyter/IPython Notebooks 用于探索性分析 (EDA) 或实验
│ └── heart_eda_modeling_exploration.ipynb
│
├── main.py # 项目主入口：运行完整的训练和评估流程
├── predict.py # 独立的预测脚本：加载模型对新数据进行预测
├── requirements.txt # 项目所需的 Python 库列表
└── README.md # 项目说明、设置和使用指南
1 heart_disease_prediction/src/config.py

# -*- coding: utf-8 -*-

"""
心脏病预测项目配置中心。
存储文件路径、参数、特征列表等。
"""

import os
from typing import List, Dict, Any

# 定义项目根目录，通过当前文件路径向上追溯两级
BASE_DIR: str = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))

# --- 数据相关配置 ---
RAW_DATA_DIR: str = os.path.join(BASE_DIR, 'data', 'raw')
# 原始数据文件名，请确保你的 heart.csv 放在 data/raw/ 目录下
RAW_DATA_FILE: str = os.path.join(RAW_DATA_DIR, 'heart.csv')
PROCESSED_DATA_DIR: str = os.path.join(BASE_DIR, 'data', 'processed') # 处理后数据保存路径 (可选)

# --- 模型保存相关配置 ---
MODELS_DIR: str = os.path.join(BASE_DIR, 'models')
# 训练好的模型保存路径
TRAINED_MODEL_PATH: str = os.path.join(MODELS_DIR, 'best_model.pkl')
# 拟合好的数据预处理器保存路径 (非常重要，预测时需要用同一个预处理器)
PREPROCESSOR_PATH: str = os.path.join(MODELS_DIR, 'preprocessor.pkl')

# --- 数据处理参数 ---
TARGET_COLUMN: str = 'target' # 目标变量的列名，heart.csv 通常是 'target'
TEST_SIZE: float = 0.2       # 测试集占总数据的比例
RANDOM_STATE: int = 42       # 随机种子，用于保证数据分割、模型初始化等的可复现性

# heart.csv 数据集的特征列表 (请根据你的实际文件核对并修改)
# 数值特征
NUMERICAL_FEATURES: List[str] = [
    'age',        # 年龄
    'trestbps',   # 静息血压
    'chol',       # 血清胆固醇
    'thalach',    # 最大心率
    'oldpeak'     # 运动引起的 ST 段压低
    # 如果有其他数值特征请添加
]

# 类别特征
CATEGORICAL_FEATURES: List[str] = [
    'sex',        # 性别 (0/1)
    'cp',         # 胸痛类型 (1-4)
    'fbs',        # 空腹血糖 > 120 mg/dl (0/1)
    'restecg',    # 静息心电图结果 (0/1/2)
    'exang',      # 运动诱发的心绞痛 (0/1)
    'slope',      # 运动最高峰时段 ST 段的坡度 (0/1/2)
    'ca',         # 主要血管的数量 (0-3)
    'thal'        # 地中海贫血症 (3=正常, 6=固定缺陷, 7=可逆缺陷)
    # 'ca' 和 'thal' 在某些版本的 heart.csv 中可能包含非数字值 ('?'), 需要在预处理中特别处理或清理
    # 如果有其他类别特征请添加
]

# 预处理参数：缺失值填充策略
# heart.csv 通常没有缺失值，但保留这个配置以备用或用于其他数据集
IMPUTATION_STRATEGY_NUM: str = 'median'        # 数值特征缺失值填充策略
IMPUTATION_STRATEGY_CAT: str = 'most_frequent' # 类别特征缺失值填充策略，或使用 'constant' 填充为 'missing'

# --- 模型配置 ---
# 选择要使用的模型名称，需要在 src/models/training.py 中实现对应的获取逻辑
SELECTED_MODEL: str = 'logistic_regression' # 可选 'random_forest', 'svm', 'knn' 等

# 各模型的超参数字典 (如果选择了其他模型，请在此处添加其参数)
LOGISTIC_REGRESSION_PARAMS: Dict[str, Any] = {
    'C': 1.0,
    'solver': 'liblinear', # 适用于小型数据集和二分类
    'random_state': RANDOM_STATE,
    'class_weight': 'balanced' # 对于目标类别不平衡的数据集很有用
}

RANDOM_FOREST_PARAMS: Dict[str, Any] = {
    'n_estimators': 200,      # 森林中的树数量
    'max_depth': 8,           # 树的最大深度，限制模型复杂度
    'random_state': RANDOM_STATE,
    'class_weight': 'balanced' # 对于目标类别不平衡的数据集很有用
}

# --- 评估配置 ---
# 需要计算和报告的评估指标列表
METRICS: List[str] = ['accuracy', 'precision', 'recall', 'f1', 'roc_auc']

# 其他可能的配置项：
# - 特征工程参数
# - 模型超参数调优的参数 (如交叉验证折数)
# - 日志文件路径等

2 heart_disease_prediction/src/utils.py

# -*- coding: utf-8 -*-

"""
通用工具函数：保存和加载 Python 对象、日志记录等。
"""

import joblib
import os
from typing import Any

def save_object(obj: Any, filepath: str) -> None:
    """
    使用 joblib 将 Python 对象 (如模型、预处理器) 保存到文件。

    Args:
        obj: 要保存的 Python 对象。
        filepath: 保存文件的完整路径。
    """
    # 确保目标目录存在，如果不存在则创建
    os.makedirs(os.path.dirname(filepath), exist_ok=True)
    joblib.dump(obj, filepath)
    print(f"对象已成功保存到 {filepath}")

def load_object(filepath: str) -> Any:
    """
    使用 joblib 从文件加载 Python 对象。

    Args:
        filepath: 要加载的文件的完整路径。

    Returns:
        从文件加载的 Python 对象。

    Raises:
        FileNotFoundError: 如果指定路径的文件不存在。
    """
    if not os.path.exists(filepath):
        raise FileNotFoundError(f"错误：文件未找到：{filepath}")
    obj = joblib.load(filepath)
    print(f"对象已成功从 {filepath} 加载")
    return obj

# 根据需要添加其他通用工具函数，例如：
# def setup_logging(log_filepath: str): ...
# def report_metrics(metrics: Dict[str, float]): ...

3 heart_disease_prediction/src/data/loading.py

# -*- coding: utf-8 -*-

"""
负责数据加载和初始分割（特征/目标、训练集/测试集）。
"""

import pandas as pd
from sklearn.model_selection import train_test_split
from typing import Tuple

# 从 src.config 导入配置
from src.config import TARGET_COLUMN, TEST_SIZE, RANDOM_STATE, RAW_DATA_FILE

def load_data(filepath: str = RAW_DATA_FILE) -> pd.DataFrame:
    """
    从 CSV 文件加载数据集。

    Args:
        filepath: CSV 数据文件的路径。

    Returns:
        包含数据的 pandas DataFrame。

    Raises:
        FileNotFoundError: 如果数据文件未找到。
        Exception: 读取 CSV 时发生的其他错误。
    """
    print(f"尝试从 {filepath} 加载数据...")
    try:
        df = pd.read_csv(filepath)
        print(f"成功加载数据。数据形状: {df.shape}")
        return df
    except FileNotFoundError:
        print(f"错误：数据文件未找到：{filepath}")
        raise # 重新抛出异常
    except Exception as e:
        print(f"加载数据时发生错误：{e}")
        raise # 重新抛出异常


def split_features_target(df: pd.DataFrame, target_column: str = TARGET_COLUMN) -> Tuple[pd.DataFrame, pd.Series]:
    """
    将 DataFrame 分割为特征 (X) 和目标 (y)。

    Args:
        df: 输入 DataFrame。
        target_column: 目标列的名称。

    Returns:
        一个元组，包含特征 DataFrame (X) 和目标 Series (y)。

    Raises:
        ValueError: 如果目标列未在 DataFrame 中找到。
    """
    print(f"分割特征和目标变量 (目标列: '{target_column}')...")
    if target_column not in df.columns:
        raise ValueError(f"错误：目标列 '{target_column}' 未在 DataFrame 的列中找到。")
    X = df.drop(columns=[target_column])
    y = df[target_column]
    print(f"分割完成。特征形状: {X.shape}, 目标形状: {y.shape}")
    return X, y

def split_train_test(X: pd.DataFrame, y: pd.Series, test_size: float = TEST_SIZE, random_state: int = RANDOM_STATE) -> Tuple[pd.DataFrame, pd.DataFrame, pd.Series, pd.Series]:
    """
    将数据分割为训练集和测试集。

    Args:
        X: 特征 DataFrame。
        y: 目标 Series。
        test_size: 测试集占总数据的比例。
        random_state: 随机种子。

    Returns:
        一个元组，包含 X_train, X_test, y_train, y_test。
    """
    print(f"分割数据为训练集和测试集 (测试集比例: {test_size}, 随机种子: {random_state})...")
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=test_size, random_state=random_state, stratify=y # 分类问题使用 stratify 保证训练集和测试集中目标类别的比例相似
    )
    print(f"分割完成。训练集样本数: {len(X_train)}, 测试集样本数: {len(X_test)}")
    return X_train, X_test, y_train, y_test

4 heart_disease_prediction/src/data/preprocessing.py

# -*- coding: utf-8 -*-

"""
负责数据预处理（处理缺失值、编码、缩放）的函数。
使用 scikit-learn 的 Pipeline 和 ColumnTransformer 构建预处理流程。
"""

import pandas as pd
import numpy as np  # 预处理器输出通常是 numpy 数组
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from typing import List, Tuple

# 从 src.config 导入配置
from src.config import NUMERICAL_FEATURES, CATEGORICAL_FEATURES, \
                       IMPUTATION_STRATEGY_NUM, IMPUTATION_STRATEGY_CAT

def create_preprocessor(
    numerical_features: List[str] = NUMERICAL_FEATURES,
    categorical_features: List[str] = CATEGORICAL_FEATURES,
    num_imputer_strategy: str = IMPUTATION_STRATEGY_NUM,
    cat_imputer_strategy: str = IMPUTATION_STRATEGY_CAT
) -> ColumnTransformer:
    """
    创建一个 ColumnTransformer，用于对数值和类别特征应用不同的预处理步骤。

    Args:
        numerical_features: 数值特征列名列表。
        categorical_features: 类别特征列名列表。
        num_imputer_strategy: 数值特征缺失值填充策略。
        cat_imputer_strategy: 类别特征缺失值填充策略。

    Returns:
        一个未拟合的 scikit-learn ColumnTransformer 对象。
    """
    print("创建数据预处理器...")

    # 1. 数值特征处理管道：缺失值填充 -> 标准化
    numerical_pipeline = Pipeline(steps=[
        ('imputer', SimpleImputer(strategy=num_imputer_strategy)), # 填充策略 (如 median, mean)
        ('scaler', StandardScaler())                               # 标准化 (均值为0，方差为1)
    ])

    # 2. 类别特征处理管道：缺失值填充 -> One-Hot 编码
    # 注意：如果 heart.csv 的 'ca'/'thal' 确实有 '?'，
    # SimpleImputer 需要设置 missing_values='?'
    categorical_pipeline = Pipeline(steps=[
        ('imputer', SimpleImputer(strategy=cat_imputer_strategy, fill_value='missing')), # 填充策略 (如 most_frequent, constant)
        ('onehot', OneHotEncoder(handle_unknown='ignore')) # One-Hot 编码。handle_unknown='ignore' 在预测时遇到训练集未见过的类别时忽略，而不是报错
    ])

    # 3. 使用 ColumnTransformer 组合不同类型的特征处理管道
    preprocessor = ColumnTransformer(
        transformers=[
            ('num', numerical_pipeline, numerical_features),
            ('cat', categorical_pipeline, categorical_features)
        ],
        remainder='passthrough' # 对于不在 numerical_features 和 categorical_features 列表中的列，不做任何处理直接通过
        # 或者设置为 'drop' 来丢弃未指定的列
    )

    print("数据预处理器创建完成。")
    return preprocessor

def apply_preprocessing(X: pd.DataFrame, preprocessor: ColumnTransformer) -> np.ndarray:
     """
     将拟合好的预处理器应用于特征 DataFrame。

     Args:
         X: 输入特征 DataFrame (例如 X_train, X_test 或新数据)。
         preprocessor: 拟合好的 scikit-learn ColumnTransformer 对象。

     Returns:
         经过预处理的特征的 NumPy 数组。
         (ColumnTransformer 默认输出 NumPy 数组)
     """
     print("应用数据预处理...")
     # 注意：这里只调用 transform，fit 应该只在训练数据上调用一次
     X_processed = preprocessor.transform(X)
     print(f"数据预处理应用完成。输出形状: {X_processed.shape}")
     return X_processed

# 在 main.py 中，你会先调用 preprocessor.fit_transform(X_train) 来拟合并转换训练数据
# 然后调用 preprocessor.transform(X_test) 来转换测试数据 (只转换，不拟合)

5 heart_disease_prediction/src/data/feature_engineering.py

# -*- coding: utf-8 -*-

"""
负责创建新特征的函数。
对于 heart.csv 数据集，通常特征已经比较精简，可能不需要复杂的特征工程。
保留这个文件结构，以便未来扩展或用于其他数据集。
"""

import pandas as pd
from typing import List

# 可以从 config 导入特征列表，虽然在这个简单示例中可能不需要
# from src.config import NUMERICAL_FEATURES, CATEGORICAL_FEATURES

def create_features(df: pd.DataFrame) -> pd.DataFrame:
    """
    基于现有特征创建新特征。

    Args:
        df: 输入 DataFrame (训练集或测试集，包含所有原始列)。

    Returns:
        添加了新特征（或原始）的 DataFrame。
    """
    print("进行特征工程 (如果需要)...")

    # 在这里添加你的特征工程逻辑。例如：
    # - 创建交互特征 (如 age 和 chol 的乘积)
    # - 对某些特征进行分箱 (如 age 分为老年/中年/青年)
    # - 处理 'ca' 和 'thal' 中的特殊字符串/缺失值（如果 load_data 或 preprocessing 没有处理）

    # 示例：创建一个简单的交互特征 (假设 age 和 chol 列存在)
    # if 'age' in df.columns and 'chol' in df.columns:
    #     df['age_x_chol'] = df['age'] * df['chol']
    #     print("创建了特征 'age_x_chol'")

    # 对于标准的 heart.csv 数据集，通常不需要复杂的特征工程，原始特征效果就不错。
    # 此处保留函数框架，但默认不进行任何特征创建，直接返回原始 DataFrame。
    # 如果你的具体 heart.csv 版本需要特征工程，请在此处添加代码。

    print(f"特征工程完成 (可能未创建新特征)。当前形状: {df.shape}")

    # 如果创建了新特征，**非常重要**：
    # 1. 确定新特征的类型 (数值或类别)。
    # 2. **更新 src/config.py 中的 NUMERICAL_FEATURES 或 CATEGORICAL_FEATURES 列表**，以便预处理器能够处理这些新特征。
    #    或者，设计 preprocessor 更灵活地识别所有数值/类别列。

    return df

# 可以添加特征选择、降维等其他与特征相关的函数
# def select_features(X: pd.DataFrame) -> pd.DataFrame: ...

6 heart_disease_prediction/src/models/training.py

# -*- coding: utf-8 -*-

"""
负责模型选择和训练的函数。
"""

import pandas as pd # 目标变量 y 通常是 pandas Series
import numpy as np  # 特征 X 经过预处理后通常是 numpy 数组
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
# 根据 config.py 中 SELECTED_MODEL 的设置，导入相应的模型类
from sklearn.base import BaseEstimator # 用于类型提示，表示一个 scikit-learn 估计器

# 从 src.config 导入配置
from src.config import SELECTED_MODEL, LOGISTIC_REGRESSION_PARAMS, RANDOM_FOREST_PARAMS, RANDOM_STATE

def get_model(model_name: str = SELECTED_MODEL) -> BaseEstimator:
    """
    根据模型名称获取指定的模型实例，并设置预定义参数。

    Args:
        model_name: 要实例化模型名称 ('logistic_regression', 'random_forest' 等)。
                    名称应与 config.py 中 SELECTED_MODEL 保持一致，并在本函数中有对应的实现。

    Returns:
        一个未拟合的 scikit-learn 模型实例。

    Raises:
        ValueError: 如果模型名称不受支持。
    """
    print(f"获取模型：{model_name}...")
    if model_name == 'logistic_regression':
        model = LogisticRegression(**LOGISTIC_REGRESSION_PARAMS)
    elif model_name == 'random_forest':
        model = RandomForestClassifier(**RANDOM_FOREST_PARAMS)
    # TODO: 在这里添加对其他模型名称的支持及其参数
    # elif model_name == 'svm':
    #    from sklearn.svm import SVC
    #    model = SVC(**SVM_PARAMS) # 需要在 config.py 中定义 SVM_PARAMS
    # elif model_name == 'knn':
    #    from sklearn.neighbors import KNeighborsClassifier
    #    model = KNeighborsClassifier(**KNN_PARAMS) # 需要在 config.py 中定义 KNN_PARAMS
    else:
        raise ValueError(f"错误：模型 '{model_name}' 不受支持。请检查 config.py 或在 get_model 函数中添加其实现。")

    print(f"模型 {type(model).__name__} 已创建。")
    return model

def train_model(model: BaseEstimator, X_train: np.ndarray, y_train: pd.Series) -> BaseEstimator:
    """
    使用训练数据拟合模型。

    Args:
        model: 未拟合的 scikit-learn 模型实例。
        X_train: 训练集的特征（经过预处理的 NumPy 数组）。
        y_train: 训练集的目标变量（pandas Series）。

    Returns:
        拟合好的 scikit-learn 模型实例。
    """
    print(f"训练模型 {type(model).__name__}...")
    model.fit(X_train, y_train)
    print("模型训练完成。")
    return model

# 可以添加超参数调优、交叉验证等相关的函数
# def tune_hyperparameters(model: BaseEstimator, X_train, y_train): ...

7 heart_disease_prediction/src/models/evaluation.py

# -*- coding: utf-8 -*-

"""
负责模型性能评估的函数。
"""

import pandas as pd
import numpy as np
from sklearn.metrics import (
    accuracy_score,
    precision_score,
    recall_score,
    f1_score,
    roc_auc_score,
    confusion_matrix, # 可选用于混淆矩阵
    roc_curve         # 可选用于 ROC 曲线数据
)
from typing import Dict, List, Union

# 从 src.config 导入需要报告的评估指标列表
from src.config import METRICS

def evaluate_model(
    y_true: pd.Series,        # 真实标签
    y_pred: np.ndarray,       # 预测标签
    y_proba: np.ndarray,      # 预测概率 (通常是 (n_samples, n_classes) 形状)
    metrics_list: List[str] = METRICS
) -> Dict[str, float]:
    """
    使用指定的指标列表评估模型性能。

    Args:
        y_true: 真实的标签值 (pandas Series)。
        y_pred: 预测的标签值 (NumPy 数组)。
        y_proba: 预测的概率分数 (NumPy 数组)。对于二分类，通常是 (n_samples, 2) 形状。
                 第一个维度是每个样本，第二个维度是属于每个类别的概率 [P(class 0), P(class 1)]。
        metrics_list: 要计算的指标名称列表 ('accuracy', 'precision', 'recall', 'f1', 'roc_auc' 等)。

    Returns:
        一个字典，键是指标名称，值是计算出的分数。如果计算失败，值为 float('nan')。
    """
    print("评估模型性能...")
    metrics: Dict[str, float] = {}

    # 提取正类的概率 (假设正类是 1)
    # y_proba 形状通常是 (n_samples, n_classes)。对于二分类，取列索引 1 的概率。
    y_proba_positive_class = None
    if y_proba.ndim == 2 and y_proba.shape[1] == 2:
         y_proba_positive_class = y_proba[:, 1]
    elif y_proba.ndim == 1 and 'roc_auc' in metrics_list:
         # 如果只请求了 roc_auc 并且 y_proba 是一维的，假设它已经是正类概率
         y_proba_positive_class = y_proba
         print("警告：y_proba 是一维数组，假设其为正类概率，用于 ROC AUC 计算。")
    elif 'roc_auc' in metrics_list:
         print(f"警告：y_proba 形状 {y_proba.shape} 异常，无法计算 ROC AUC。")


    for metric_name in metrics_list:
        try:
            if metric_name == 'accuracy':
                score = accuracy_score(y_true, y_pred)
            elif metric_name == 'precision':
                # 对于二分类，默认计算正类 (pos_label=1) 的精度
                score = precision_score(y_true, y_pred, zero_division=0) # zero_division=0 在没有预测出正类时返回 0
            elif metric_name == 'recall':
                 # 对于二分类，默认计算正类 (pos_label=1) 的召回率
                score = recall_score(y_true, y_pred, zero_division=0) # zero_division=0 在真实正类数为 0 时返回 0
            elif metric_name == 'f1':
                 # 对于二分类，默认计算正类 (pos_label=1) 的 F1 分数
                score = f1_score(y_true, y_pred, zero_division=0) # zero_division=0 在没有真实正类或没有预测出正类时返回 0
            elif metric_name == 'roc_auc':
                if y_proba_positive_class is not None:
                    score = roc_auc_score(y_true, y_proba_positive_class)
                else:
                    score = float('nan') # 无法计算 ROC AUC
            # TODO: 在这里添加对其他指标的支持
            # elif metric_name == 'log_loss':
            #     if y_proba.ndim == 2:
            #          from sklearn.metrics import log_loss
            #          score = log_loss(y_true, y_proba)
            #     else:
            #          score = float('nan')
            else:
                print(f"警告：不支持的评估指标 '{metric_name}'。")
                metrics[metric_name] = float('nan') # 标记为 NaN 或跳过
                continue

            metrics[metric_name] = score

        except Exception as e:
            print(f"计算指标 '{metric_name}' 时发生错误: {e}")
            metrics[metric_name] = float('nan') # 标记计算失败

    print("评估完成。指标结果:")
    # 打印每个指标的结果
    for metric_name, score in metrics.items():
         print(f"- {metric_name}: {score:.4f}" if not np.isnan(score) else f"- {metric_name}: 计算失败")

    return metrics

# 可以添加其他评估相关的函数，例如交叉验证分数计算等

8 heart_disease_prediction/src/visualization/plots.py

# -*- coding: utf-8 -*-

"""
负责生成各种可视化图表的函数。
"""

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from sklearn.metrics import roc_curve, confusion_matrix, RocCurveDisplay # 导入 RocCurveDisplay 更方便绘制 ROC

# 从 src.config 导入目标列名称
from src.config import TARGET_COLUMN

def plot_feature_distribution(df: pd.DataFrame, feature: str, target: str = TARGET_COLUMN) -> None:
    """
    绘制单个特征的分布图，可选按目标变量分组。

    Args:
        df: 输入 DataFrame。
        feature: 要绘制分布的特征名称。
        target: 目标列名称 (用于 hue)。
    """
    print(f"绘制特征 '{feature}' 的分布图...")
    plt.figure(figsize=(10, 6))
    # 判断特征类型，选择合适的绘图方式
    if df[feature].dtype in ['int64', 'float64']:
        # 数值特征使用直方图和 KDE (核密度估计)
        sns.histplot(data=df, x=feature, hue=target, kde=True, stat='density', common_norm=False)
        # common_norm=False 使每个类别（心脏病 vs 无心脏病）的 KDE 曲线独立标准化，更易比较分布形状
    else:
        # 类别特征使用计数图
        # order=df[feature].value_counts().index 按照类别数量排序绘制
        sns.countplot(data=df, x=feature, hue=target, order=df[feature].value_counts().index)
        plt.xticks(rotation=45, ha='right') # 旋转 x 轴标签避免重叠

    plt.title(f'特征 "{feature}" 按 "{target}" 分组的分布')
    plt.xlabel(feature)
    plt.ylabel('密度' if df[feature].dtype in ['int64', 'float64'] else '数量')
    plt.tight_layout() # 调整布局，防止元素重叠
    plt.show()

def plot_roc_curve(y_true: pd.Series, y_proba: np.ndarray, model_name: str = "模型") -> None:
    """
    绘制 ROC 曲线。

    Args:
        y_true: 真实的标签值 (pandas Series)。
        y_proba: 预测的概率分数 (NumPy 数组)。对于二分类，应包含正类 (1) 的概率。
        model_name: 模型名称，用于图表标题/图例。
    """
    print(f"绘制模型 '{model_name}' 的 ROC 曲线...")
    # 确保 y_proba 是针对正类 (标签为 1) 的概率
    y_proba_positive_class = None
    if y_proba.ndim == 2 and y_proba.shape[1] == 2:
         y_proba_positive_class = y_proba[:, 1] # 取第二列作为正类概率 (通常标签 1 是正类)
    elif y_proba.ndim == 1:
         y_proba_positive_class = y_proba # 假设输入的一维数组就是正类概率
    else:
         print("错误：y_proba 形状异常，无法提取正类概率绘制 ROC 曲线。")
         return # 无法绘制，直接返回

    # 使用 RocCurveDisplay 可以简化绘制过程并自动计算 AUC
    # from_predictions 需要真实标签和预测概率
    try:
        roc_display = RocCurveDisplay.from_predictions(y_true, y_proba_positive_class, name=model_name)
        plt.figure(figsize=(8, 8))
        roc_display.plot(ax=plt.gca()) # 将绘制结果添加到当前 matplotlib 轴上

        plt.plot([0, 1], [0, 1], 'k--', label='随机猜测') # 绘制对角线作为随机猜测的参照
        plt.xlim([0.0, 1.0])
        plt.ylim([0.0, 1.05])
        plt.xlabel('假阳性率 (False Positive Rate)')
        plt.ylabel('真阳性率 (True Positive Rate)')
        plt.title(f'接收者操作特征 (ROC) 曲线 - {model_name}')
        plt.legend(loc="lower right")
        plt.grid(True)
        plt.show()
    except Exception as e:
        print(f"绘制 ROC 曲线时发生错误: {e}")


def plot_confusion_matrix(y_true: pd.Series, y_pred: np.ndarray, classes: List[str] = ['无心脏病', '有心脏病']) -> None:
    """
    绘制混淆矩阵。

    Args:
        y_true: 真实的标签值 (pandas Series)。
        y_pred: 预测的标签值 (NumPy 数组)。
        classes: 类别名称列表，用于混淆矩阵的行和列标签。
                 例如对于 heart.csv，[0, 1] 对应 ['无心脏病', '有心脏病']。
    """
    print("绘制混淆矩阵...")
    cm = confusion_matrix(y_true, y_pred)
    plt.figure(figsize=(8, 6))
    # 使用 seaborn 的 heatmap 绘制混淆矩阵热力图
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=classes, yticklabels=classes)
    plt.title('混淆矩阵')
    plt.xlabel('预测标签')
    plt.ylabel('真实标签')
    plt.show()

# 根据需要添加其他绘图函数（如特征重要性图、校准曲线、数据分布图等）

9 heart_disease_prediction/main.py

# -*- coding: utf-8 -*-

"""
主脚本：协调心脏病预测项目的整个训练和评估流程。
依次执行：加载数据 -> 特征工程 -> 分割数据 -> 预处理 -> 模型训练 -> 模型评估 -> 保存结果。
"""

import pandas as pd
import numpy as np
import sys
import os

# 将项目根目录下的 src 目录添加到 Python 解释器的路径中，
# 这样就可以使用 from src.module import ... 方式导入
# os.path.dirname(__file__) 获取当前文件 (main.py) 的目录
# os.path.abspath(...) 获取绝对路径
# os.path.join(...) 拼接路径
# os.path.dirname(...) 获取父目录
# 所以 os.path.abspath(os.path.join(os.path.dirname(__file__), 'src')) 就是 src 目录的绝对路径
sys.path.insert(0, os.path.abspath(os.path.join(os.path.dirname(__file__), 'src')))

# 从 src 模块导入所需的函数和配置
from src.config import (
    RAW_DATA_FILE,        # 原始数据文件路径
    TRAINED_MODEL_PATH,   # 模型保存路径
    PREPROCESSOR_PATH,    # 预处理器保存路径
    SELECTED_MODEL,       # 选择的模型名称
    TARGET_COLUMN,        # 目标列名称 (在 split_features_target 内部使用，但导入一下，方便检查)
    METRICS               # 评估指标列表 (在 evaluate_model 内部使用，但导入一下，方便检查)
)
# 从 src.data 子包导入数据处理相关函数
from src.data.loading import load_data, split_features_target, split_train_test
from src.data.preprocessing import create_preprocessor, apply_preprocessing
from src.data.feature_engineering import create_features # 导入特征工程函数
# 从 src.models 子包导入模型相关函数
from src.models.training import get_model, train_model
from src.models.evaluation import evaluate_model
# 从 src.visualization 子包导入绘图函数
from src.visualization.plots import plot_roc_curve, plot_confusion_matrix
# 从 src.utils 导入工具函数
from src.utils import save_object # 导入保存对象的函数

def main():
    print("--- 启动心脏病预测训练流程 ---")

    # --- 1. 加载数据 ---
    try:
        df = load_data(RAW_DATA_FILE)
    except FileNotFoundError:
        print("数据加载失败，请检查 config.py 中的 RAW_DATA_FILE 路径和文件是否存在。退出流程。")
        sys.exit(1) # 数据文件未找到时立即退出脚本
    except Exception as e:
        print(f"数据加载时发生意外错误：{e}。退出流程。")
        sys.exit(1)

    # --- 2. 特征工程 ---
    # 注意：通常特征工程在分割之前应用到整个数据集，以保持一致性。
    # 如果你的特征工程依赖时间顺序或其他只应在训练集上学习的方面，则需要在分割后分别处理训练集和测试集。
    df_engineered = create_features(df.copy()) # 对数据副本进行操作，避免修改原始 DataFrame

    # --- 3. 分割特征和目标变量 ---
    try:
        X, y = split_features_target(df_engineered)
    except ValueError as e:
        print(f"特征/目标分割失败：{e}。请检查 config.py 中的 TARGET_COLUMN。退出流程。")
        sys.exit(1)

    # --- 4. 分割训练集和测试集 ---
    X_train, X_test, y_train, y_test = split_train_test(X, y)

    # --- 5. 创建并拟合预处理器 ---
    # 创建预处理器对象
    preprocessor = create_preprocessor()
    # **在训练集上**拟合预处理器，并转换训练集
    X_train_processed = preprocessor.fit_transform(X_train)
    # 使用**已经拟合好的**预处理器转换测试集 (只调用 transform)
    X_test_processed = preprocessor.transform(X_test)

    print("预处理完成。")

    # --- 6. 获取并训练模型 ---
    try:
        model = get_model(SELECTED_MODEL)
    except ValueError as e:
        print(f"模型获取失败：{e}。请检查 config.py 中的 SELECTED_MODEL。退出流程。")
        sys.exit(1)

    trained_model = train_model(model, X_train_processed, y_train)

    # --- 7. 评估模型 ---
    print("\n--- 在测试集上进行模型评估 ---")
    # 使用训练好的模型对测试集进行预测
    y_pred = trained_model.predict(X_test_processed)
    # 获取预测概率，用于计算 ROC AUC 等指标
    # predict_proba 方法返回一个形状为 (n_samples, n_classes) 的数组
    y_proba = trained_model.predict_proba(X_test_processed)

    # 调用评估函数计算指标并打印结果
    evaluation_metrics = evaluate_model(y_test, y_pred, y_proba, METRICS)

    # --- 8. 可选：绘制评估图表 ---
    print("\n--- 绘制评估图表 ---")
    # 绘制混淆矩阵
    plot_confusion_matrix(y_test, y_pred, classes=['无心脏病', '有心脏病'])
    # 绘制 ROC 曲线，确保传递正类概率 (通常是 y_proba[:, 1])
    plot_roc_curve(y_test, y_proba, model_name=SELECTED_MODEL)

    # --- 9. 保存训练好的模型和预处理器 ---
    print("\n--- 保存模型和预处理器 ---")
    try:
        save_object(trained_model, TRAINED_MODEL_PATH)
        save_object(preprocessor, PREPROCESSOR_PATH) # 保存拟合好的预处理器！
    except Exception as e:
        print(f"保存模型或预处理器时发生错误：{e}")


    print("\n--- 心脏病预测训练流程结束 ---")
    # 最终指标已在 evaluate_model 中打印，这里可以根据需要再次总结或写入日志文件。
    # print("测试集最终评估指标:", evaluation_metrics)


if __name__ == "__main__":
    # 当 main.py 脚本直接运行时，执行 main() 函数
    main()

10 heart_disease_prediction/predict.py

# -*- coding: utf-8 -*-

"""
独立的预测脚本：
加载之前训练好的模型和预处理器，对新的心脏病数据进行预测。
这个脚本模拟了将模型部署到生产环境进行推理的过程。
"""

import pandas as pd
import numpy as np
import sys
import os
from typing import Any # 用于类型提示加载的对象

# 将项目根目录下的 src 目录添加到 Python 解释器的路径中
sys.path.insert(0, os.path.abspath(os.path.join(os.path.dirname(__file__), 'src')))

# 导入所需的组件和配置
from src.config import (
    TRAINED_MODEL_PATH,   # 保存的模型路径
    PREPROCESSOR_PATH,    # 保存的预处理器路径
    TARGET_COLUMN         # 目标列名称 (用于在新数据中检查并移除)
)
from src.data.feature_engineering import create_features # 预测时也需要应用相同的特征工程
from src.utils import load_object # 导入加载对象的函数
# from src.models.evaluation import evaluate_model # 如果新数据包含标签，可以导入用于评估

def load_new_data(filepath: str) -> pd.DataFrame:
    """
    加载用于预测的新数据。

    Args:
        filepath: 新数据 CSV 文件的路径。

    Returns:
        包含新数据的 pandas DataFrame。

    Raises:
        FileNotFoundError: 如果数据文件未找到。
        Exception: 读取 CSV 时发生的其他错误。
    """
    print(f"尝试从 {filepath} 加载新数据用于预测...")
    try:
        df = pd.read_csv(filepath)
        print(f"成功加载新数据。数据形状: {df.shape}")
        return df
    except FileNotFoundError:
        print(f"错误：新数据文件未找到：{filepath}")
        raise # 重新抛出异常
    except Exception as e:
        print(f"加载新数据时发生错误：{e}")
        raise # 重新抛出异常


def make_prediction(
    data: pd.DataFrame,        # 包含新数据的 DataFrame
    model: Any,                # 加载的、已训练好的模型对象
    preprocessor: Any          # 加载的、已拟合好的预处理器对象
) -> np.ndarray:
    """
    对新数据应用与训练时相同的预处理步骤，并使用加载的模型进行预测。

    Args:
        data: 输入的、包含新数据特征的 DataFrame。
        model: 加载的、已训练好的模型对象 (实现了 .predict() 方法)。
        preprocessor: 加载的、已拟合好的数据预处理器对象 (实现了 .transform() 方法)。

    Returns:
        一个 NumPy 数组，包含每个样本的预测类别标签 (通常是 0 或 1)。
    """
    print("启动预测过程...")

    # --- 1. 应用与训练时相同的特征工程 ---
    # 对输入数据创建一个副本，避免修改原始 DataFrame
    data_for_prediction = create_features(data.copy())

    # --- 2. 确保目标列不存在 ---
    # 如果新数据意外地包含了目标列，需要先移除它，因为模型只接受特征作为输入
    if TARGET_COLUMN in data_for_prediction.columns:
        print(f"警告：预测数据中检测到目标列 '{TARGET_COLUMN}'。正在移除。")
        data_for_prediction = data_for_prediction.drop(columns=[TARGET_COLUMN])

    # --- 3. 应用加载的预处理器 ---
    # **重要：** 在预测时，只调用 preprocessor 的 `transform()` 方法。
    # 绝对不要在这里调用 `fit()` 或 `fit_transform()`，因为预处理器必须使用训练集的数据分布进行拟合。
    print("应用加载的预处理器对新数据进行转换...")
    try:
        data_processed = preprocessor.transform(data_for_prediction)
        print(f"数据预处理完成。转换后形状: {data_processed.shape}")
    except Exception as e:
         print(f"应用预处理器时发生错误：{e}。请检查新数据的列是否与训练数据兼容。")
         raise # 无法继续预测，抛出异常

    # --- 4. 使用加载的模型进行预测 ---
    print("使用训练好的模型进行预测...")
    try:
        predictions = model.predict(data_processed)
        print("预测完成。")
    except Exception as e:
         print(f"使用模型进行预测时发生错误：{e}。")
         raise # 预测失败，抛出异常


    return predictions

def main():
    # 定义新数据文件的路径 (请替换为你的实际新数据文件路径)
    # 假设你的新数据文件名为 new_heart_data.csv，放在 data/raw/ 目录下
    NEW_DATA_FILE = os.path.join(os.path.dirname(__file__), 'data', 'raw', 'new_heart_data.csv')

    # --- 1. 加载用于预测的新数据 ---
    try:
        new_data_df = load_new_data(NEW_DATA_FILE)
    except FileNotFoundError:
        print("加载新数据失败，请检查文件路径。退出预测。")
        sys.exit(1)
    except Exception as e:
        print(f"加载新数据时发生错误：{e}。退出预测。")
        sys.exit(1)


    # --- 2. 加载之前训练好的模型和预处理器 ---
    print("\n--- 加载训练好的模型和预处理器 ---")
    try:
        # 从保存的路径加载模型和预处理器对象
        trained_model = load_object(TRAINED_MODEL_PATH)
        fitted_preprocessor = load_object(PREPROCESSOR_PATH)
    except FileNotFoundError:
        print("错误：未找到保存的模型或预处理器文件。请先运行 main.py 进行训练并保存模型。退出预测。")
        sys.exit(1)
    except Exception as e:
        print(f"加载模型或预处理器时发生错误：{e}。退出预测。")
        sys.exit(1)

    # --- 3. 对新数据进行预测 ---
    try:
        predictions = make_prediction(new_data_df, trained_model, fitted_preprocessor)
    except Exception as e:
        print(f"进行预测时发生错误：{e}。退出预测。")
        sys.exit(1)


    # --- 4. 输出或处理预测结果 ---
    print("\n--- 预测结果 ---")
    # predictions 是一个 numpy 数组，包含了对应于 new_data_df 中每一行的预测结果
    # 你可以将预测结果添加到原始新数据 DataFrame 中，或者保存到新的 CSV 文件
    # 为了演示，我们只打印前10个预测结果和总预测数
    print("前 10 个预测结果 (0: 无心脏病, 1: 有心脏病):", predictions[:10])
    print(f"总共为 {len(predictions)} 个样本进行了预测。")

    # 示例：将预测结果添加到原始新数据 DataFrame 并打印前几行
    # 如果你想保留原始列，可以这样做
    new_data_df_with_predictions = new_data_df.copy()
    new_data_df_with_predictions['predicted_target'] = predictions
    print("\n带预测结果的新数据（前 5 行）：")
    print(new_data_df_with_predictions.head())

    # 示例：将带有预测结果的新数据保存到文件
    # output_filepath = os.path.join(os.path.dirname(__file__), 'data', 'processed', 'heart_predictions.csv')
    # try:
    #     new_data_df_with_predictions.to_csv(output_filepath, index=False)
    #     print(f"\n带有预测结果的新数据已保存到 {output_filepath}")
    # except Exception as e:
    #     print(f"保存预测结果到文件时发生错误：{e}")

    # --- 可选：如果新数据包含真实标签，可以评估预测性能 ---
    # (这在实际生产环境中通常没有，但如果你有带标签的新的测试集可以用来验证)
    # if TARGET_COLUMN in new_data_df.columns:
    #      print("\n--- 在新数据上评估预测性能 ---")
    #      y_true_new = new_data_df[TARGET_COLUMN]
    #      # 需要获取新数据对应的预测概率来计算 AUC 等指标
    #      # 注意：这里的 input data 必须是没有目标列、经过特征工程、经过预处理的
    #      new_data_for_proba = create_features(new_data_df.drop(columns=[TARGET_COLUMN])) # 移除目标列，进行特征工程
    #      new_data_for_proba_processed = fitted_preprocessor.transform(new_data_for_proba) # 应用预处理器
    #      y_proba_new = trained_model.predict_proba(new_data_for_proba_processed)
    #      # 导入 evaluate_model 并调用
    #      from src.models.evaluation import evaluate_model
    #      print("评估指标：")
    #      evaluate_model(y_true_new, predictions, y_proba_new)


if __name__ == "__main__":
    # 当 predict.py 脚本直接运行时，执行 main() 函数
    main()

你可能感兴趣的:(人工智能)

为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
【人工智能入门必看的最全Python编程实战（1）】 DFCED 人工智能 python 开发语言深度学习找工作就业
--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
人工智能概念之九：深度学习概述
文章目录相关文章一、深度学习的定位：AI时代的基石技术1.1技术生态全景图1.2技术革命的催化剂二、深度学习的双面性：性能优势与技术挑战2.1技术优势全景扫描2.2技术挑战深度剖析三、技术演进时间轴：70年的厚积薄发四、主流框架生态对比五、未来演进方向相关文章人工智能概念之二：人工智能核心概念：网页链接一、深度学习的定位：AI时代的基石技术1.1技术生态全景图深度学习处于人工智能（AI）技术金字塔
H800核心技术突破与行业应用实战智能计算研究中心其他
内容概要在人工智能技术持续迭代的背景下，H800芯片凭借自主架构优化与算力跃升，成为推动行业场景化落地的关键驱动力。本文将从技术路径、性能突破与行业应用三个维度，系统解析H800如何在高并发计算与低延时响应领域实现底层架构创新。首先聚焦其自主架构优化的核心技术路径，包括动态资源调度算法与异构计算单元的深度协同设计，揭示其在能效比与计算密度上的突破逻辑；进一步结合算力跃升的具体表现，探讨该芯片如何通
智慧建筑：科技引领房地产与建筑业的未来 RedPhoenix45
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智慧建筑：科技引领房地产与建筑业的未来随着科技的飞速发展，人工智能（AI）和智能化工具正以前所未有的速度改变着各行各业。在房地产与建筑领域，这种变革尤为显著。从建筑设计到施工管理，再到物业管理，智能化技术正在重塑行业的每一个环节。本文将探讨如何利用先进的智能化工具提升房地产与建筑行业的效率，并介绍一款革命性的开发工具——它
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
AGI和AIGC傻傻分不清楚，一篇文章告诉你如何分辨！
Look！我们的大模型商业化落地产品更多AI资讯请关注Free三天集训营助教在线为您火热答疑‍什么是AGI(人工通用智能)?AGI是ArtificialGeneralIntelligence的缩写，中文翻译为“通用人工智能”，该术语指的是机器能够完成人类能够完成的任何智力任务的能力。与狭义的人工智能(ANI)不同，狭义的人工智能是为特定领域或问题而设计的，而AGI旨在实现一般的认知能力，能够适应任
新一代数据库：融合多模智能，重塑数据价值
一、场景重塑产业格局：数据库“融合进化”AI浪潮奔涌而至，数字产业格局加速重构。云计算、移动互联、万物互联（IoT）、人工智能（AI）等技术的深度融合与快速落地，正以前所未有的速度重塑着企业的应用形态。新业务场景层出不穷——从高并发的在线交易、实时精准的分析决策，到海量物联网设备监控、基于图关系的风控反欺诈，再到AI驱动的智能推荐与内容生成，应用场景的多样性与复杂性已突破传统数据库的能力边界。这对
基于知识图谱技术增强大模型RAG知识库应用效果罗伯特之技术屋知识图谱人工智能
【摘要】本文是AI落地实践的优秀案例，利用RAG技术（Retrieval-AugmentedGeneration，检索增强生成）的知识库实践为背景，介绍了RAG技术的发展及存在的不足，以及知识图谱相关的知识，利用RAG技术去完善和智能化知识图谱。在AI技术大量涌现，但应用不足的情况下，指明了现有应用场景、技术与AI结合的具体做法。1.引言随着人工智能技术的加速演进，AI大模型如雨后春笋般纷纷涌现，
BGE-M3模型结合Milvus向量数据库强强联合实现混合检索
在基于生成式人工智能的应用开发中，通过关键词或语义匹配的方式对用户提问意图进行识别是一个很重要的步骤，因为识别的精准与否会影响后续大语言模型能否检索出合适的内容作为推理的上下文信息（或选择合适的工具）以给出用户最符合预期的回答。在本篇文章中，我将尽可能详细地介绍想达成准确识别用户提问意图的解决方案之一，即基于功能强大的BGE-M3模型和Milvus向量数据库实现混合检索（稠密向量densevect
朋友圈发的原力元宇宙项目到底能不能挣钱口碑信息传播者
原力元宇宙项目正如其名，是一场前所未有的数字化革命，融合了虚拟现实（VR）、人工智能（AI）、区块链（Blockchain）等前沿技术，开辟了全新的商业模式和赚钱机会。在朋友圈中频繁看到对该项目的推广宣传，确实反映了其在赚钱方面的潜力。本文将从多个角度解析原力元宇宙项目的盈利机制，揭示其中的商机所在。13分钟视频内容讲明白原力元宇宙创富项目，中国区运营服务对接微信：ForceZen激发兴趣的独特魅
构建高效 RAG 流程的七个关键点及其落地实践 charles666666 搜索引擎大数据需求分析交互笔记数据库
人工智能应用浪潮中，检索增强生成（RAG）技术凭借着结合大型语言模型（LLMs）的生成能力和信息检索系统的独特优势，成为了各企业挖掘数据价值、提升业务智能化水平的关键手段之一。然而，构建一个高效且精准的RAG流程并非易事，其中存在着诸多关键点和挑战。作为一名非资深IT技术顾问，我将基于丰富的实战经验，为大家深入剖析构建高效RAG流程的七个关键点及其落地实践。一、文档解析：混合格式的“第一道坎”在企
智能网关芯片：物联网连接的核心引擎
在物联网（IoT）生态系统中，智能网关芯片扮演着至关重要的角色，它是实现设备互联、数据转换和边缘计算的核心硬件。随着5G、人工智能（AI）和低功耗通信技术的快速发展，智能网关芯片的性能和功能不断提升，推动着智慧家居、工业物联网（IIoT）、智慧城市等领域的创新。智能网关芯片的关键技术智能网关芯片的核心能力在于其多协议支持能力。由于物联网设备采用不同的通信标准（如Wi-Fi、蓝牙、Zigbee、Lo
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$