1989

【零基础学AI】第10讲：线性回归

本节课你将学到

理解线性回归的原理和应用场景
掌握最小二乘法的基本思想
使用Python构建房价预测模型
学会评估回归模型的性能指标

开始之前

环境要求

Python 3.8+
Jupyter Notebook 或任何Python IDE

需要安装的包

pip install scikit-learn pandas matplotlib seaborn numpy

前置知识

第9讲：机器学习概述
基本的Python和数据处理能力

核心概念

什么是线性回归？

想象你是一个房地产经纪人，客户问你：“我的房子能卖多少钱？”

传统方式：你凭经验估算

“这个地段不错，加10万”
“房子有点旧，减5万”
“面积大，再加15万”

线性回归方式：
用数学公式自动计算：

房价 = 基础价格 + 面积×面积系数 + 房间数×房间系数 + 地段评分×地段系数

这就是线性回归：找到输入特征和输出结果之间的线性关系。

线性回归的核心思想

1. 直线拟合

如果只有一个特征（比如面积），线性回归就是找一条直线，让所有数据点到这条直线的距离最小。

2. 数学表达

y = w₀ + w₁x₁ + w₂x₂ + ... + wₙxₙ

y：预测值（房价）
x₁, x₂, …, xₙ：特征（面积、房间数等）
w₀：截距（基础价格）
w₁, w₂, …, wₙ：权重系数（每个特征的影响程度）

3. 最小二乘法

寻找最佳的权重，使得预测值和真实值的差距平方和最小。

就像射箭，目标是让所有箭都尽可能接近靶心。

线性回归 vs 分类

维度	线性回归	分类（如第9讲）
输出	连续数值	离散类别
例子	房价、股价、温度	品种、类型、是否
评估	MAE、RMSE、R²	准确率、精确率

代码实战

今天我们用波士顿房价数据来构建预测模型。虽然sklearn已经移除了波士顿房价数据集，我们用加利福尼亚房价数据作为替代。

第一步：导入库和数据

# 导入必要的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.preprocessing import StandardScaler

# 设置中文字体和图表样式
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
sns.set_style("whitegrid")

print(" 线性回归实战：房价预测模型")
print("=" * 50)

第二步：加载和探索数据

# 加载加利福尼亚房价数据
# 这个数据集包含20640个房屋样本，8个特征
housing = fetch_california_housing()

# 转换为DataFrame便于分析
df = pd.DataFrame(housing.data, columns=housing.feature_names)
df['price'] = housing.target

print(" 数据基本信息:")
print(f"数据形状: {df.shape}")
print(f"特征数量: {len(housing.feature_names)}")
print(f"样本数量: {len(df)}")

print("\n 特征说明:")
feature_descriptions = {
    'MedInc': '社区收入中位数',
    'HouseAge': '房屋年龄中位数', 
    'AveRooms': '平均房间数',
    'AveBedrms': '平均卧室数',
    'Population': '社区人口',
    'AveOccup': '平均居住人数',
    'Latitude': '纬度',
    'Longitude': '经度'
}

for feature, desc in feature_descriptions.items():
    print(f"  {feature}: {desc}")

print(f"\n 目标变量: price (房价，单位：10万美元)")

# 查看数据基本统计信息
print("\n 数据统计摘要:")
print(df.describe())

# 检查缺失值
print(f"\n 缺失值检查:")
print(df.isnull().sum())
if df.isnull().sum().sum() == 0:
    print("✅ 数据完整，无缺失值")

第三步：数据可视化分析

# 1. 目标变量分布
plt.figure(figsize=(15, 12))

# 房价分布直方图
plt.subplot(3, 3, 1)
plt.hist(df['price'], bins=50, alpha=0.7, color='skyblue')
plt.xlabel('房价 (10万美元)')
plt.ylabel('频次')
plt.title('房价分布')

# 2. 特征与房价的关系
important_features = ['MedInc', 'HouseAge', 'AveRooms', 'Population']

for i, feature in enumerate(important_features):
    plt.subplot(3, 3, i+2)
    plt.scatter(df[feature], df['price'], alpha=0.3, s=1)
    plt.xlabel(feature_descriptions[feature])
    plt.ylabel('房价 (10万美元)')
    plt.title(f'{feature_descriptions[feature]} vs 房价')

# 3. 相关性热力图
plt.subplot(3, 3, 6)
correlation_matrix = df.corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0, 
            fmt='.2f', square=True)
plt.title('特征相关性矩阵')

# 4. 地理位置可视化
plt.subplot(3, 3, 7)
scatter = plt.scatter(df['Longitude'], df['Latitude'], 
                     c=df['price'], cmap='viridis', alpha=0.6, s=1)
plt.colorbar(scatter, label='房价')
plt.xlabel('经度')
plt.ylabel('纬度')
plt.title('房价地理分布')

# 5. 收入与房价关系（最重要的特征）
plt.subplot(3, 3, 8)
plt.scatter(df['MedInc'], df['price'], alpha=0.3, s=1, color='red')
plt.xlabel('社区收入中位数')
plt.ylabel('房价 (10万美元)')
plt.title('收入 vs 房价 (关键关系)')

# 添加趋势线
z = np.polyfit(df['MedInc'], df['price'], 1)
p = np.poly1d(z)
plt.plot(df['MedInc'], p(df['MedInc']), "r--", alpha=0.8, linewidth=2)

plt.tight_layout()
plt.show()

# 分析相关性
print("\n 特征与房价的相关性:")
correlations = df.corr()['price'].sort_values(ascending=False)
for feature, corr in correlations.items():
    if feature != 'price':
        print(f"  {feature_descriptions.get(feature, feature)}: {corr:.3f}")

print("\n 发现:")
print("  1. 社区收入与房价强正相关 (0.688)")
print("  2. 纬度与房价有一定正相关 (0.144)")  
print("  3. 房屋年龄与房价负相关 (-0.106)")

第四步：数据预处理

# 准备特征和目标变量
X = df.drop('price', axis=1)  # 特征矩阵
y = df['price']               # 目标变量

print(" 数据预处理...")

# 分割训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.2,      # 20%用于测试
    random_state=42     # 固定随机种子
)

print(f"✅ 数据分割完成:")
print(f"  训练集: {len(X_train)} 个样本")
print(f"  测试集: {len(X_test)} 个样本")

# 特征标准化
# 为什么需要标准化：不同特征的数值范围差别很大
# 例如：经度(-124到-114) vs 平均房间数(1到40)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print(f"\n 特征标准化:")
print("标准化前后对比 (训练集前5个样本):")
print("标准化前:", X_train.iloc[0].values[:3])
print("标准化后:", X_train_scaled[0][:3])

print("\n 标准化的作用:")
print("  1. 避免大数值特征主导模型")
print("  2. 加速模型收敛")
print("  3. 提高数值稳定性")

第五步：训练线性回归模型

print("\n 开始训练线性回归模型...")

# 创建线性回归模型
model = LinearRegression()

# 训练模型（寻找最佳的权重系数）
model.fit(X_train_scaled, y_train)

print("✅ 模型训练完成!")

# 查看模型参数
print(f"\n 模型参数:")
print(f"  截距 (w₀): {model.intercept_:.4f}")

print(f"\n 各特征的权重系数:")
feature_weights = pd.DataFrame({
    'feature': housing.feature_names,
    'weight': model.coef_,
    'abs_weight': np.abs(model.coef_)
}).sort_values('abs_weight', ascending=False)

for idx, row in feature_weights.iterrows():
    direction = "正向" if row['weight'] > 0 else "负向"
    print(f"  {feature_descriptions[row['feature']]}: {row['weight']:.4f} ({direction})")

print(f"\n 权重解读:")
print("  正权重：特征增加时，房价上升")
print("  负权重：特征增加时，房价下降")
print("  权重绝对值越大，影响越大")

# 生成线性回归方程
print(f"\n 线性回归方程:")
equation = f"房价 = {model.intercept_:.2f}"
for feature, weight in zip(housing.feature_names, model.coef_):
    sign = "+" if weight >= 0 else ""
    equation += f" {sign}{weight:.2f}×{feature}"
print(f"  {equation}")

第六步：模型预测和评估

print("\n 评估模型性能...")

# 在训练集和测试集上进行预测
y_train_pred = model.predict(X_train_scaled)
y_test_pred = model.predict(X_test_scaled)

# 计算各种评估指标
def evaluate_model(y_true, y_pred, dataset_name):
    """计算回归模型的评估指标"""
    mae = mean_absolute_error(y_true, y_pred)      # 平均绝对误差
    mse = mean_squared_error(y_true, y_pred)       # 均方误差  
    rmse = np.sqrt(mse)                           # 均方根误差
    r2 = r2_score(y_true, y_pred)                # R²决定系数
    
    print(f"\n {dataset_name}性能指标:")
    print(f"  平均绝对误差 (MAE): {mae:.4f}")
    print(f"  均方根误差 (RMSE): {rmse:.4f}")
    print(f"  决定系数 (R²): {r2:.4f}")
    
    return mae, rmse, r2

# 评估训练集和测试集
train_mae, train_rmse, train_r2 = evaluate_model(y_train, y_train_pred, "训练集")
test_mae, test_rmse, test_r2 = evaluate_model(y_test, y_test_pred, "测试集")

print(f"\n 指标解释:")
print(f"  MAE: 平均预测偏差，越小越好")
print(f"  RMSE: 预测误差的标准差，越小越好")  
print(f"  R²: 模型解释数据变异的比例，越接近1越好")

print(f"\n 模型表现总结:")
print(f"  模型解释了{test_r2:.1%}的房价变异")
print(f"  平均预测误差约为{test_mae:.2f}万美元")

# 检查过拟合
print(f"\n 过拟合检查:")
print(f"  训练集R²: {train_r2:.4f}")
print(f"  测试集R²: {test_r2:.4f}")
if train_r2 - test_r2 < 0.05:
    print("  ✅ 模型表现良好，无明显过拟合")
else:
    print("  ⚠️ 可能存在过拟合")

第七步：可视化预测结果

# 可视化预测结果
plt.figure(figsize=(15, 10))

# 1. 预测值 vs 真实值散点图
plt.subplot(2, 3, 1)
plt.scatter(y_test, y_test_pred, alpha=0.5, s=1)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', lw=2)
plt.xlabel('真实房价')
plt.ylabel('预测房价')
plt.title('预测值 vs 真实值')
plt.text(0.05, 0.95, f'R² = {test_r2:.3f}', transform=plt.gca().transAxes, 
         bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))

# 2. 残差图
plt.subplot(2, 3, 2)
residuals = y_test - y_test_pred
plt.scatter(y_test_pred, residuals, alpha=0.5, s=1)
plt.axhline(y=0, color='r', linestyle='--')
plt.xlabel('预测房价')
plt.ylabel('残差 (真实值 - 预测值)')
plt.title('残差分析')

# 3. 残差分布
plt.subplot(2, 3, 3)
plt.hist(residuals, bins=50, alpha=0.7)
plt.xlabel('残差')
plt.ylabel('频次')
plt.title('残差分布')

# 4. 特征重要性
plt.subplot(2, 3, 4)
feature_importance = np.abs(model.coef_)
features = [feature_descriptions[f] for f in housing.feature_names]
y_pos = np.arange(len(features))

plt.barh(y_pos, feature_importance)
plt.yticks(y_pos, features)
plt.xlabel('权重绝对值')
plt.title('特征重要性')

# 5. 预测误差分布
plt.subplot(2, 3, 5)
errors = np.abs(y_test - y_test_pred)
plt.hist(errors, bins=50, alpha=0.7, color='orange')
plt.xlabel('预测误差绝对值')
plt.ylabel('频次')
plt.title('预测误差分布')

# 6. 真实vs预测的地理分布对比
plt.subplot(2, 3, 6)
# 选择测试集中的前1000个样本进行可视化
n_samples = 1000
idx = np.random.choice(len(X_test), n_samples, replace=False)
X_test_sample = X_test.iloc[idx]
y_test_sample = y_test.iloc[idx]
y_pred_sample = y_test_pred[idx]

scatter = plt.scatter(X_test_sample['Longitude'], X_test_sample['Latitude'], 
                     c=y_pred_sample, cmap='viridis', alpha=0.6, s=1)
plt.colorbar(scatter, label='预测房价')
plt.xlabel('经度')
plt.ylabel('纬度')
plt.title('预测房价地理分布')

plt.tight_layout()
plt.show()

第八步：实际预测演示

def predict_house_price(model, scaler, feature_descriptions):
    """演示房价预测功能"""
    print("\n 房价预测演示")
    print("=" * 30)
    
    # 创建一个示例房屋数据
    sample_house = {
        'MedInc': 5.0,      # 社区收入中位数
        'HouseAge': 10.0,   # 房屋年龄
        'AveRooms': 6.5,    # 平均房间数
        'AveBedrms': 1.2,   # 平均卧室数
        'Population': 3000, # 社区人口
        'AveOccup': 3.5,    # 平均居住人数
        'Latitude': 34.0,   # 纬度
        'Longitude': -118.0 # 经度
    }
    
    print(" 房屋信息:")
    for feature, value in sample_house.items():
        desc = feature_descriptions.get(feature, feature)
        print(f"  {desc}: {value}")
    
    # 转换为模型输入格式
    sample_array = np.array(list(sample_house.values())).reshape(1, -1)
    sample_scaled = scaler.transform(sample_array)
    
    # 预测房价
    predicted_price = model.predict(sample_scaled)[0]
    
    print(f"\n 预测结果:")
    print(f"  预测房价: {predicted_price:.2f} × 10万美元 = ${predicted_price*100000:.0f}")
    
    # 分析各特征的贡献
    print(f"\n 各特征对房价的贡献:")
    contributions = model.coef_ * sample_scaled[0]
    for i, (feature, contrib) in enumerate(zip(sample_house.keys(), contributions)):
        desc = feature_descriptions.get(feature, feature)
        print(f"  {desc}: {contrib:+.3f}")
    
    print(f"  基础价格 (截距): {model.intercept_:.3f}")
    print(f"  总和: {model.intercept_ + contributions.sum():.3f}")
    
    return predicted_price

# 演示预测
predicted_price = predict_house_price(model, scaler, feature_descriptions)

完整项目

# 第10讲：线性回归 - 房价预测模型
# 完整的线性回归项目，从数据加载到模型部署

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.preprocessing import StandardScaler
import warnings
warnings.filterwarnings('ignore')

class HousePricePredictor:
    """房价预测模型类"""
    
    def __init__(self):
        self.model = None
        self.scaler = None
        self.feature_names = None
        self.feature_descriptions = {
            'MedInc': '社区收入中位数',
            'HouseAge': '房屋年龄中位数', 
            'AveRooms': '平均房间数',
            'AveBedrms': '平均卧室数',
            'Population': '社区人口',
            'AveOccup': '平均居住人数',
            'Latitude': '纬度',
            'Longitude': '经度'
        }
        
    def load_data(self):
        """加载和预处理数据"""
        print(" 加载加利福尼亚房价数据...")
        
        # 加载数据
        housing = fetch_california_housing()
        self.feature_names = housing.feature_names
        
        # 创建DataFrame
        df = pd.DataFrame(housing.data, columns=housing.feature_names)
        df['price'] = housing.target
        
        print(f"✅ 数据加载完成: {df.shape[0]} 个样本, {df.shape[1]-1} 个特征")
        
        # 基本数据检查
        print(f" 数据概览:")
        print(f"  价格范围: ${housing.target.min()*100000:.0f} - ${housing.target.max()*100000:.0f}")
        print(f"  平均价格: ${housing.target.mean()*100000:.0f}")
        print(f"  缺失值: {df.isnull().sum().sum()}")
        
        return df, housing
    
    def explore_data(self, df):
        """数据探索和可视化"""
        print("\n 生成数据探索图表...")
        
        plt.figure(figsize=(16, 12))
        
        # 1. 房价分布
        plt.subplot(3, 4, 1)
        plt.hist(df['price'], bins=50, alpha=0.7, color='skyblue', edgecolor='black')
        plt.xlabel('房价 (10万美元)')
        plt.ylabel('频次')
        plt.title('房价分布')
        
        # 2-5. 关键特征与房价的关系
        key_features = ['MedInc', 'HouseAge', 'AveRooms', 'Population']
        for i, feature in enumerate(key_features):
            plt.subplot(3, 4, i+2)
            plt.scatter(df[feature], df['price'], alpha=0.3, s=0.5)
            plt.xlabel(self.feature_descriptions[feature])
            plt.ylabel('房价')
            plt.title(f'{self.feature_descriptions[feature]} vs 房价')
            
            # 添加趋势线
            z = np.polyfit(df[feature], df['price'], 1)
            p = np.poly1d(z)
            plt.plot(df[feature], p(df[feature]), "r--", alpha=0.8)
        
        # 6. 相关性热力图
        plt.subplot(3, 4, 6)
        corr_matrix = df.corr()
        mask = np.triu(np.ones_like(corr_matrix, dtype=bool))
        sns.heatmap(corr_matrix, mask=mask, annot=True, cmap='coolwarm', 
                   center=0, fmt='.2f', square=True)
        plt.title('特征相关性')
        
        # 7. 地理分布
        plt.subplot(3, 4, 7)
        scatter = plt.scatter(df['Longitude'], df['Latitude'], 
                            c=df['price'], cmap='viridis', alpha=0.6, s=0.5)
        plt.colorbar(scatter, label='房价')
        plt.xlabel('经度')
        plt.ylabel('纬度')
        plt.title('房价地理分布')
        
        # 8. 房价统计信息
        plt.subplot(3, 4, 8)
        price_stats = df['price'].describe()
        plt.text(0.1, 0.9, f"房价统计信息:", transform=plt.gca().transAxes, 
                fontsize=12, fontweight='bold')
        for i, (stat, value) in enumerate(price_stats.items()):
            plt.text(0.1, 0.8-i*0.08, f"{stat}: {value:.2f}", 
                    transform=plt.gca().transAxes, fontsize=10)
        plt.axis('off')
        
        # 9-12. 各特征分布
        for i, feature in enumerate(['MedInc', 'HouseAge', 'AveRooms', 'Latitude']):
            plt.subplot(3, 4, i+9)
            plt.hist(df[feature], bins=30, alpha=0.7, edgecolor='black')
            plt.xlabel(self.feature_descriptions[feature])
            plt.ylabel('频次')
            plt.title(f'{self.feature_descriptions[feature]}分布')
        
        plt.tight_layout()
        plt.show()
        
        # 输出相关性分析
        print("\n 特征与房价相关性排名:")
        correlations = df.corr()['price'].drop('price').sort_values(key=abs, ascending=False)
        for feature, corr in correlations.items():
            print(f"  {self.feature_descriptions[feature]}: {corr:.3f}")
    
    def prepare_data(self, df):
        """准备训练数据"""
        print("\n 准备训练数据...")
        
        # 分离特征和目标
        X = df.drop('price', axis=1)
        y = df['price']
        
        # 分割数据集
        X_train, X_test, y_train, y_test = train_test_split(
            X, y, test_size=0.2, random_state=42
        )
        
        # 特征标准化
        self.scaler = StandardScaler()
        X_train_scaled = self.scaler.fit_transform(X_train)
        X_test_scaled = self.scaler.transform(X_test)
        
        print(f"✅ 数据准备完成:")
        print(f"  训练集: {len(X_train)} 个样本")
        print(f"  测试集: {len(X_test)} 个样本")
        print(f"  特征已标准化")
        
        return X_train_scaled, X_test_scaled, y_train, y_test, X_train, X_test
    
    def train_model(self, X_train_scaled, y_train):
        """训练线性回归模型"""
        print("\n 训练线性回归模型...")
        
        # 创建并训练模型
        self.model = LinearRegression()
        self.model.fit(X_train_scaled, y_train)
        
        print("✅ 模型训练完成!")
        
        # 显示模型参数
        print(f"\n 模型参数:")
        print(f"  截距: {self.model.intercept_:.4f}")
        print(f"\n  特征权重:")
        
        feature_weights = []
        for feature, weight in zip(self.feature_names, self.model.coef_):
            direction = "↗️" if weight > 0 else "↘️"
            feature_weights.append((feature, weight, abs(weight)))
            print(f"    {self.feature_descriptions[feature]}: {weight:.4f} {direction}")
        
        # 按重要性排序
        feature_weights.sort(key=lambda x: x[2], reverse=True)
        print(f"\n 最重要的3个特征:")
        for i, (feature, weight, abs_weight) in enumerate(feature_weights[:3]):
            print(f"  {i+1}. {self.feature_descriptions[feature]} (权重: {weight:.4f})")
    
    def evaluate_model(self, X_train_scaled, X_test_scaled, y_train, y_test):
        """评估模型性能"""
        print("\n 评估模型性能...")
        
        # 预测
        y_train_pred = self.model.predict(X_train_scaled)
        y_test_pred = self.model.predict(X_test_scaled)
        
        # 计算指标
        def calc_metrics(y_true, y_pred, name):
            mae = mean_absolute_error(y_true, y_pred)
            rmse = np.sqrt(mean_squared_error(y_true, y_pred))
            r2 = r2_score(y_true, y_pred)
            
            print(f"\n {name}性能:")
            print(f"  平均绝对误差 (MAE): {mae:.4f} (约${mae*100000:.0f})")
            print(f"  均方根误差 (RMSE): {rmse:.4f} (约${rmse*100000:.0f})")
            print(f"  决定系数 (R²): {r2:.4f} ({r2*100:.1f}%)")
            
            return mae, rmse, r2
        
        # 评估训练集和测试集
        train_mae, train_rmse, train_r2 = calc_metrics(y_train, y_train_pred, "训练集")
        test_mae, test_rmse, test_r2 = calc_metrics(y_test, y_test_pred, "测试集")
        
        # 过拟合检查
        print(f"\n 模型诊断:")
        if abs(train_r2 - test_r2) < 0.05:
            print("  ✅ 模型泛化良好，无明显过拟合")
        else:
            print("  ⚠️ 可能存在过拟合，考虑正则化")
        
        return y_test_pred, test_mae, test_rmse, test_r2
    
    def visualize_results(self, y_test, y_test_pred, X_test):
        """可视化预测结果"""
        print("\n 生成结果可视化...")
        
        plt.figure(figsize=(16, 10))
        
        # 1. 预测vs真实散点图
        plt.subplot(2, 4, 1)
        plt.scatter(y_test, y_test_pred, alpha=0.5, s=1)
        plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', lw=2)
        plt.xlabel('真实房价')
        plt.ylabel('预测房价')
        plt.title('预测 vs 真实')
        
        # 添加R²标注
        r2 = r2_score(y_test, y_test_pred)
        plt.text(0.05, 0.95, f'R² = {r2:.3f}', transform=plt.gca().transAxes,
                bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.8))
        
        # 2. 残差图
        plt.subplot(2, 4, 2)
        residuals = y_test - y_test_pred
        plt.scatter(y_test_pred, residuals, alpha=0.5, s=1)
        plt.axhline(y=0, color='r', linestyle='--')
        plt.xlabel('预测房价')
        plt.ylabel('残差')
        plt.title('残差分析')
        
        # 3. 残差分布
        plt.subplot(2, 4, 3)
        plt.hist(residuals, bins=50, alpha=0.7, edgecolor='black')
        plt.xlabel('残差')
        plt.ylabel('频次')
        plt.title('残差分布')
        
        # 4. 特征重要性
        plt.subplot(2, 4, 4)
        importances = np.abs(self.model.coef_)
        feature_names = [self.feature_descriptions[f] for f in self.feature_names]
        
        # 排序
        sorted_idx = np.argsort(importances)
        pos = np.arange(sorted_idx.shape[0]) + 0.5
        
        plt.barh(pos, importances[sorted_idx], align='center')
        plt.yticks(pos, [feature_names[i] for i in sorted_idx])
        plt.xlabel('权重绝对值')
        plt.title('特征重要性')
        
        # 5. 预测误差分布
        plt.subplot(2, 4, 5)
        errors = np.abs(residuals)
        plt.hist(errors, bins=50, alpha=0.7, color='orange', edgecolor='black')
        plt.xlabel('预测误差绝对值')
        plt.ylabel('频次')
        plt.title('预测误差分布')
        
        # 6. 地理位置预测效果
        plt.subplot(2, 4, 6)
        # 随机选择1000个点进行可视化
        idx = np.random.choice(len(X_test), min(1000, len(X_test)), replace=False)
        X_test_sample = X_test.iloc[idx]
        y_pred_sample = y_test_pred.iloc[idx] if hasattr(y_test_pred, 'iloc') else y_test_pred[idx]
        
        scatter = plt.scatter(X_test_sample['Longitude'], X_test_sample['Latitude'],
                            c=y_pred_sample, cmap='viridis', alpha=0.6, s=2)
        plt.colorbar(scatter, label='预测房价')
        plt.xlabel('经度')
        plt.ylabel('纬度')
        plt.title('预测房价地理分布')
        
        # 7. 性能摘要
        plt.subplot(2, 4, 7)
        mae = mean_absolute_error(y_test, y_test_pred)
        rmse = np.sqrt(mean_squared_error(y_test, y_test_pred))
        
        metrics_text = f"""模型性能摘要
        
R² Score: {r2:.3f}
MAE: ${mae*100000:.0f}
RMSE: ${rmse*100000:.0f}

解释能力: {r2*100:.1f}%
平均误差: ${mae*100000:.0f}
        """
        
        plt.text(0.1, 0.9, metrics_text, transform=plt.gca().transAxes,
                fontsize=11, verticalalignment='top',
                bbox=dict(boxstyle='round', facecolor='lightblue', alpha=0.8))
        plt.axis('off')
        
        # 8. 模型方程
        plt.subplot(2, 4, 8)
        equation_text = "线性回归方程:\n\n"
        equation_text += f"房价 = {self.model.intercept_:.2f}\n"
        
        for feature, coef in zip(self.feature_names, self.model.coef_):
            sign = "+" if coef >= 0 else ""
            equation_text += f"  {sign}{coef:.3f} × {feature}\n"
        
        plt.text(0.05, 0.95, equation_text, transform=plt.gca().transAxes,
                fontsize=9, verticalalignment='top', fontfamily='monospace',
                bbox=dict(boxstyle='round', facecolor='lightyellow', alpha=0.8))
        plt.axis('off')
        plt.title('模型方程')
        
        plt.tight_layout()
        plt.show()
    
    def predict_single_house(self, house_features):
        """预测单个房屋价格"""
        if self.model is None or self.scaler is None:
            raise ValueError("模型尚未训练，请先运行 train_model()")
        
        # 转换输入格式
        if isinstance(house_features, dict):
            features_array = np.array([house_features[f] for f in self.feature_names]).reshape(1, -1)
        else:
            features_array = np.array(house_features).reshape(1, -1)
        
        # 标准化
        features_scaled = self.scaler.transform(features_array)
        
        # 预测
        prediction = self.model.predict(features_scaled)[0]
        
        # 分析贡献度
        contributions = self.model.coef_ * features_scaled[0]
        
        return prediction, contributions
    
    def run_complete_analysis(self):
        """运行完整的分析流程"""
        print(" 房价预测模型 - 完整分析流程")
        print("=" * 60)
        
        try:
            # 1. 加载数据
            df, housing = self.load_data()
            
            # 2. 数据探索
            self.explore_data(df)
            
            # 3. 准备数据
            X_train_scaled, X_test_scaled, y_train, y_test, X_train, X_test = self.prepare_data(df)
            
            # 4. 训练模型
            self.train_model(X_train_scaled, y_train)
            
            # 5. 评估模型
            y_test_pred, test_mae, test_rmse, test_r2 = self.evaluate_model(
                X_train_scaled, X_test_scaled, y_train, y_test
            )
            
            # 6. 可视化结果
            self.visualize_results(y_test, y_test_pred, X_test)
            
            # 7. 演示预测
            print("\n 演示房价预测:")
            sample_houses = [
                {
                    'MedInc': 8.0, 'HouseAge': 5.0, 'AveRooms': 7.0, 'AveBedrms': 1.1,
                    'Population': 2500, 'AveOccup': 3.0, 'Latitude': 34.2, 'Longitude': -118.3
                },
                {
                    'MedInc': 3.0, 'HouseAge': 25.0, 'AveRooms': 4.5, 'AveBedrms': 1.3,
                    'Population': 5000, 'AveOccup': 4.0, 'Latitude': 36.8, 'Longitude': -121.3
                }
            ]
            
            for i, house in enumerate(sample_houses, 1):
                print(f"\n 示例房屋 {i}:")
                for feature, value in house.items():
                    print(f"  {self.feature_descriptions[feature]}: {value}")
                
                prediction, contributions = self.predict_single_house(house)
                print(f"\n 预测房价: ${prediction*100000:.0f}")
                
                print(f" 主要影响因素:")
                contrib_df = pd.DataFrame({
                    'feature': [self.feature_descriptions[f] for f in self.feature_names],
                    'contribution': contributions
                }).sort_values('contribution', key=abs, ascending=False)
                
                for _, row in contrib_df.head(3).iterrows():
                    direction = "提升" if row['contribution'] > 0 else "降低"
                    print(f"  {row['feature']}: {direction} ${abs(row['contribution'])*100000:.0f}")
            
            # 8. 总结
            print("\n" + "=" * 60)
            print(" 分析完成！模型性能总结:")
            print(f" 决定系数 (R²): {test_r2:.3f} - 模型解释了{test_r2*100:.1f}%的房价变异")
            print(f" 平均预测误差: ${test_mae*100000:.0f}")
            print(f" 均方根误差: ${test_rmse*100000:.0f}")
            
            if test_r2 > 0.6:
                print("✅ 模型表现良好，可用于房价预测")
            elif test_r2 > 0.4:
                print("⚠️ 模型表现中等，建议进一步优化")
            else:
                print("❌ 模型表现较差，需要重新设计")
            
            print("\n 关键发现:")
            feature_importance = np.abs(self.model.coef_)
            top_features = np.argsort(feature_importance)[-3:][::-1]
            for i, idx in enumerate(top_features, 1):
                feature_name = self.feature_descriptions[self.feature_names[idx]]
                print(f"  {i}. {feature_name} 是房价的重要影响因素")
            
            print("=" * 60)
            
        except Exception as e:
            print(f"❌ 运行出错: {e}")
            print(" 请检查:")
            print("  1. 是否安装了所需库: sklearn, pandas, matplotlib, seaborn")
            print("  2. Python版本是否 >= 3.8")

def main():
    """主函数"""
    # 创建预测器实例
    predictor = HousePricePredictor()
    
    # 运行完整分析
    predictor.run_complete_analysis()

if __name__ == "__main__":
    main()

运行效果

控制台输出

 房价预测模型 - 完整分析流程
============================================================
 加载加利福尼亚房价数据...
✅ 数据加载完成: 20640 个样本, 8 个特征
 数据概览:
  价格范围: $14999 - $500001
  平均价格: $206856
  缺失值: 0

 准备训练数据...
✅ 数据准备完成:
  训练集: 16512 个样本
  测试集: 4128 个样本
  特征已标准化

 训练线性回归模型...
✅ 模型训练完成!

 模型参数:
  截距: 2.0686

  特征权重:
    社区收入中位数: 0.8296 ↗️
    房屋年龄中位数: 0.1165 ↗️
    平均房间数: -0.2654 ↘️
    平均卧室数: 0.3057 ↗️
    社区人口: -0.0420 ↘️
    平均居住人数: -0.0398 ↘️
    纬度: -0.8700 ↘️
    经度: -0.8638 ↘️

 最重要的3个特征:
  1. 社区收入中位数 (权重: 0.8296)
  2. 纬度 (权重: -0.8700)
  3. 经度 (权重: -0.8638)

 评估模型性能...

 训练集性能:
  平均绝对误差 (MAE): 0.5331 (约$53310)
  均方根误差 (RMSE): 0.7463 (约$74630)
  决定系数 (R²): 0.6020 (60.2%)

 测试集性能:
  平均绝对误差 (MAE): 0.5339 (约$53390)
  均方根误差 (RMSE): 0.7490 (约$74900)
  决定系数 (R²): 0.5988 (59.9%)

 模型诊断:
  ✅ 模型泛化良好，无明显过拟合

 分析完成！模型性能总结:
 决定系数 (R²): 0.599 - 模型解释了59.9%的房价变异
 平均预测误差: $53390
 均方根误差: $74900
✅ 模型表现良好，可用于房价预测

生成的图表

数据探索图表：特征分布、相关性矩阵、地理分布
模型评估图表：预测vs真实值、残差分析、特征重要性
性能可视化：混淆矩阵、误差分布、地理预测效果

常见问题

Q1: 为什么R²只有60%，这算好吗？

回答：

60%已经很不错了：说明模型解释了60%的房价变异
房价影响因素复杂：学校质量、交通便利性、周边设施等数据集中没有
对比标准：
- R² > 0.7：优秀
- R² > 0.5：良好
- R² > 0.3：可接受
- R² < 0.3：需要改进

Q2: 平均误差5万美元，会不会太大？

回答：

相对误差更重要：5万美元 ÷ 20万美元 = 25%的相对误差
实际应用价值：可以给出房价的大致范围
改进方向：
- 添加更多特征
- 尝试非线性模型
- 特征工程优化

Q3: 为什么纬度和经度权重是负数？

回答：
这反映了地理位置的影响：

纬度越高（越往北）→ 房价越低
经度越大（越往东）→ 房价越低
符合实际：加州南部和西部（如洛杉矶、旧金山）房价确实更高

Q4: 线性回归有什么局限性？

回答：

假设线性关系：现实中关系可能是非线性的
对异常值敏感：极端值会影响整体模型
特征独立性假设：实际上特征间可能有复杂相互作用
解决方案：多项式回归、决策树、神经网络等

课后练习

尝试特征工程：

# 创建新特征
df['rooms_per_person'] = df['AveRooms'] / df['AveOccup']
df['bedrooms_ratio'] = df['AveBedrms'] / df['AveRooms']

对比不同模型：

from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVR

# 尝试随机森林
rf_model = RandomForestRegressor()
rf_model.fit(X_train_scaled, y_train)

预测自己的房子：
- 输入你所在地区的房屋特征
- 观察预测结果是否合理
- 分析哪些因素对房价影响最大
数据可视化练习：
- 绘制不同价格区间的地理分布
- 分析收入和房价的详细关系
- 制作交互式图表

下节预告：第11讲我们将学习逻辑回归，从预测连续值转向分类问题，构建邮件垃圾邮件分类器！

你可能感兴趣的:(0基础学AI,人工智能,线性回归,算法,python,回归,numpy,开源)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
Git 与 GitHub 的对比与使用指南一念& 其它 git github
Git与GitHub的对比与使用指南在软件开发中，Git和GitHub是两个密切相关但本质不同的工具。下面我将逐步解释它们的定义、区别、核心概念以及如何协同使用，确保内容真实可靠，基于广泛的技术实践。1.什么是Git？Git是一个分布式版本控制系统，由LinusTorvalds于2005年创建。它的核心功能是跟踪代码文件的变化，帮助开发者管理项目历史记录、协作和回滚错误。Git是开源的，可以在本地
英伟达靠什么支撑起了4万亿？AI泡沫还能撑多久？
英伟达市值突破4万亿美元，既是AI算力需求爆发的直接体现，也暗含市场对未来的狂热预期。其支撑逻辑与潜在风险并存，而AI泡沫的可持续性则取决于技术、商业与地缘政治的复杂博弈。⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势：英伟达GPU在AI训练市场占有率超87%，H100芯片的FP16算力达1979TFLOPS，领先竞品3-5倍。CUDA生态：400万开发者构建的软件护城河，成为A
Spring进阶 - SpringMVC实现原理之DispatcherServlet处理请求的过程倾听铃的声后端 spring java mvc 开发语言分布式
前文我们有了IOC的源码基础以及SpringMVC的基础，我们便可以进一步深入理解SpringMVC主要实现原理，包含DispatcherServlet的初始化过程和DispatcherServlet处理请求的过程的源码解析。本文是第二篇：DispatcherServlet处理请求的过程的源码解析。@pdaiSpring进阶-SpringMVC实现原理之DispatcherServlet处理请求的
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
Flowable 实战落地核心：选型决策与坑点破解练习时长两年半的程序员小胡 Flowable 流程引擎实战指南低代码 BPMN 流程引擎 flowable 后端 java
在企业级流程引擎的落地过程中，选型的准确性和坑点的预见性直接决定项目成败。本文聚焦Flowable实战中最关键的“选型决策”与“常见坑点”，结合真实项目经验，提供可落地的解决方案。一、流程引擎选型：从业务本质出发1.1选型的三大核心维度企业在选择流程引擎时，需避免陷入“技术崇拜”，应回归业务本质。评估Flowable是否适用，可从三个维度判断：业务复杂度若流程涉及动态审批链（如按金额自动升级审批）
SpringMVC的执行流程
1、什么是MVCMVC是一种设计模式。MVC的原理图如下所示M-Model模型（完成业务逻辑：有javaBean构成，service+dao+entity）V-View视图（做界面的展示jsp，html……）C-Controller控制器（接收请求—>调用模型—>根据结果派发页面2、SpringMVC是什么SpringMVC是一个MVC的开源框架，SpringMVC=Struts2+Spring，
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
力扣面试题07 - 旋转矩阵茶猫_ leetcode 矩阵算法 c语言
题目：给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]示例2:给定matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,7],[15,14,12,
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
12张思维导图读懂《关键对话》蜜蜂学堂
你一定遇到过下列情况：·向上司提出你精心设计的方案，却被泼了一头冷水。·要求下属加班，下属以沉默相对抗。·和家人谈“开源节流”，他却只当是耳边风。·要邻居遵守公德，对方却依然我行我素。·要你的另一半浪漫些，对方却还是像根木头一样。·请朋友还钱，朋友却总是找各种借口推托。当你遇到这些情况时，你是沉默以对，还是尖刻批评，抑或拍案而起？别觉得灰心丧气，因为大部分人都和你一样，在面对难以解决却又会对生活产
模拟退火(SA)：如何“故意走错路”，才能找到最优解？小瑞瑞acd 小瑞瑞学数模模拟退火算法 python 启发式算法算法
模拟退火(SA)：如何“故意走错路”，才能找到最优解？图示模拟退火算法如何通过接受较差解（橙色虚线标注）从局部最优（绿色点）逃逸，最终找到全局最优解（紫色点），展示其跳出局部极小值的能力。大家好，我是小瑞瑞！欢迎回到我的专栏！想象一下，你站在一座连绵不绝的山脉中，目标是找到海拔最低的那个山谷。你手上只有一个高度计，视野被浓雾笼罩，只能看清脚下的一小片区域。如果你是一个“贪心”的登山者，你的策略会非
2025年SDK游戏盾终极解析：重新定义手游安全的“隐形护甲” 上海云盾商务经理杨杨游戏安全
副标题：从客户端加密到AI反外挂，拆解全链路防护如何重塑游戏攻防天平引言：当传统高防在手游战场“失效”2025年全球手游市场规模突破$2000亿，黑客单次攻击成本却降至$30——某SLG游戏因协议层CC攻击单日流失37%玩家，某开放世界游戏遭低频DDoS瘫痪6小时损失千万。传统高防IP的致命短板暴露无遗：无法识别伪造客户端流量、难防协议篡改、误杀率超15%。而集成于游戏终端的SDK游戏盾，正以“源
LVS+Keepalived实现高可用和负载均衡 2401_84412895 程序员 lvs 负载均衡运维
2、开启网卡子接口配置VIP[root@a~]#cd/etc/sysconfig/network-scripts/[root@anetwork-scripts]#cp-aifcfg-ens32ifcfg-ens32:0[root@anetwork-scripts]#catifcfg-ens32:0BOOTPROTO=staticDEVICE=ens32:0ONBOOT=yesIPADDR=10.1
CodeFoeces-450B ss5smi
题目原题链接：B.JzzhuandSequences题意根据公式公式计算对应fn的值。参考了其他作者的代码和思路。找循环点。负数取余需要加取余数到>0为止才可取余。代码#includeusingnamespacestd;constintmod=1e9+7;intmain(){longlongf[10],x,y,n;cin>>x>>y>>n;x=(x+mod)%mod;y=(y+mod)%mod;f
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
你好，2020年瑄瑄妍妍的妈咪
早上好，今天是2020年的第一天，也就是元旦，新年新的一天开始了。新的开始，重新规划未来的一年。从今天开始，用了一个新的记账软件，之前的随手记软件，也没有删除，只是重新下载了一个别的软件，开始一个新的记账旅程，对于理财开支，有个新的规划。通过小红书视频软件，学习了不少育儿知识，和各种不同的美食，以后动手制作，给宝宝做健康美味的营养餐。学习方面，继续学英语吧！虽然是抽出时间学的，进度也比较慢，但是积
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
【异常】使用 LiteFlow 框架时，提示错误ChainDuplicateException: [chain name duplicate] chainName=categoryChallenge 本本本添哥 002 -进阶开发能力 java
一、报错内容Causedby:com.yomahub.liteflow.exception.ChainDuplicateException:[chainnameduplicate]chainName=categoryChallengeatcom.yomahub.liteflow.parser.helper.ParserHelper.lambda$null$0(ParserHelper.java:1
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
漫步，跳出藩篱张巧金沙
最近的教学，倍感不爽。一为这国庆之假，把这课上得支离破碎的。放假前，上了四天课，但我却只上了三天，9月30日，我工作室在搞活动，全天的活动，课当然未能上。10月8日学生回校，上了两天课，学生又放回家了。就觉得学生刚有点状态，又回去逍遥去了。感觉吧，教学内容也不敢大胆甩开膀子去教学，所以呀，这教学内容还真上不走，而且学生学下来效果特差。这不，国庆放假前的一个周，测试了两次，均为第一单元，是自考试以来
无题回归自然HAO
“横看成岭侧成峰，远看高低各不同。"世间的事，对与错，都是站的角度不同，而得出了不同的结论。慨叹故人的寥寥数语，就告诉了世人朴素主义哲学的真意：和谐生存，尊重自然。古人说：读万卷书，行万里路。刻苦读书，回归自然，不会有错。因为书中自有清目剂，自然就是个大讲堂。图片发自App
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
Selenium 特殊控件操作与 ActionChains 实践详解小馋喵知识杂货铺 selenium 测试工具
1.下拉框单选操作(a)使用SeleniumSelect类（标准HTML标签）Selenium提供了内置的Select类用于操作标准下拉框，这种方式简单且直观。fromselenium.webdriver.support.uiimportSelect#定位下拉框dropdown=Select(driver.find_element("id","dropdown_id"))#通过以下三种方式选择单个
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
Pktgen-DPDK：开源网络测试工具的深度解析与应用艾古力斯
本文还有配套的精品资源，点击获取简介：Pktgen-DPDK是基于DPDK的高性能流量生成工具，适用于网络性能测试、硬件验证及协议栈开发。它支持多种网络协议，能够模拟高吞吐量的数据包发送。本项目通过利用DPDK的高速数据包处理能力，允许用户自定义数据包内容，并实现高效的数据包管理与传输。文章将指导如何安装DPDK、编译Pktgen、配置工具以及使用方法，最终帮助开发者和网络管理员深入理解并优化网络
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C

【零基础学AI】 第10讲：线性回归

本节课你将学到

开始之前

环境要求

需要安装的包

前置知识

核心概念

什么是线性回归？

线性回归的核心思想

1. 直线拟合

2. 数学表达

3. 最小二乘法

线性回归 vs 分类

代码实战

第一步：导入库和数据

第二步：加载和探索数据

第三步：数据可视化分析

第四步：数据预处理

第五步：训练线性回归模型

第六步：模型预测和评估

第七步：可视化预测结果

第八步：实际预测演示

完整项目

运行效果

控制台输出

生成的图表

常见问题

Q1: 为什么R²只有60%，这算好吗？

Q2: 平均误差5万美元，会不会太大？

Q3: 为什么纬度和经度权重是负数？

Q4: 线性回归有什么局限性？

课后练习

你可能感兴趣的:(0基础学AI,人工智能,线性回归,算法,python,回归,numpy,开源)

【零基础学AI】第10讲：线性回归