十种常用数据分析模型

1-线性回归(Linear Regression)

场景:预测商品销售额

  • 优点:简单易用,结果易于解释
  • 缺点:假设线性关系,容易受到异常值影响
  • 概念:建立自变量和因变量之间线性关系的模型。
  • 公式:[ y = b_0 + b_1x_1 + b_2x_2 + ... + b_nx_n ]

代码示例:

import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 假设我们有一个包含商品销售数据的DataFrame
data = pd.DataFrame({
    'item_sku_id': [100000350860, 100000350861, 100000350862, 100000350863],
    'before_prefr_unit_price': [1499.0, 1599.0, 1399.0, 1299.0],
    'after_prefr_unit_price': [1099.0, 1199.0, 999.0, 899.0],
    'sale_qtty': [50, 60, 55, 65]
})

# 特征和目标变量
X = data[['before_prefr_unit_price', 'after_prefr_unit_price']]
y = data['sale_qtty']

# 分割数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练模型
model = LinearRegression()
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估模型
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse}')

结果与判断:

通过模型预测销售量,评估误差可以帮助改进定价策略。

2-逻辑回归(Logistic Regression)

场景:预测订单是否有效

  • 优点:适用于二分类问题,解释性强
  • 缺点:不适用于多分类或连续型结果预测
  • 概念:用于处理二分类问题,输出值在0到1之间。
  • 公式:[ P(Y=1|X) = \frac{1}{1 + e^{-(b_0 + b_1x_1 + b_2x_2 + ... + b_nx_n)}} ]

代码示例:

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix

# 数据
data = pd.DataFrame({
    'user_actual_pay_amount': [976.0, 978.99, 979.0, 800.0, 850.0],
    'total_offer_amount': [400.0, 400.0, 400.0, 200.0, 250.0],
    'sale_ord_valid_flag': [1, 1, 1, 0, 0]
})

X = data[['user_actual_pay_amount', 'total_offer_amount']]
y = data['sale_ord_valid_flag']

# 分割数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练模型
model = LogisticRegression()
model.fit(X_train, y_train)

# 预

你可能感兴趣的:(数据分析,数据分析,人工智能,机器学习,数学建模)