机器学习本科课程实验1 线性模型

第三章线性模型

3.1 一元线性回归
3.2 多元线性回归
3.3 对数几率回归，线性判别分析（二选一）
3.4 类别不均衡

3.1一元线性回归——Kaggle房价预测

使用Kaggle房价预测数据集：

打乱数据顺序，取前70%的数据作为训练集，后30%的数据作为测试集
分别以LotArea, BsmtUnfSF, GarageArea三种特征作为模型的输入，SalePrice作为模型的输出
在训练集上，使用最小二乘法求解模型参数（需自己实现，不允许第三方库完成）
计算三个模型在测试集上的MAE和RMSE这两种指标的大小（需自己实现，不允许第三方库完成）
分别绘制模型的在训练集和测试集上的曲线
选做：尝试去除训练集中的异常值或离群值后再次训练模型，绘制模型的预测曲线，观察模型在测试集上预测能力的变化

import numpy as np
import pandas as pd

# 读取数据
data = pd.read_csv('./train.csv')


# 丢弃有缺失值的特征（列）
data.dropna(axis = 1, inplace = True)


# 只保留整数的特征
data = data[[col for col in data.dtypes.index if data.dtypes[col] == 'int64']]
data.head()
features = ['LotArea', 'BsmtUnfSF', 'GarageArea']
target = 'SalePrice'
data = data[features + [target]]
from sklearn.utils import shuffle
data = shuffle(data, random_state = 32) # 这个32不要改变
#输出打乱顺序后的前五行
data.head()
num_of_samples = data.shape[0]
#输出样例的数量 
print(num_of_samples)
split_line = int(num_of_samples * 0.7)
#训练集的数量
print(split_line)
train_data = data.iloc[:split_line]
test_data = data.iloc[split_line:]
def get_w(x, y):
    sumX = 0
    sumY = 0
    for i in range(0, x.count()):
        sumX = sumX + x.iat[i]
        sumY = sumY + y.iat[i]
    averX = sumX / x.count()
    averY = sumY / y.count()

    w = 0.0
    wU = 0.0
    wD = 0.0

    for i in range(0, x.count()):
        wU = wU + y.iat[i] * (x.iat[i] - averX)
        wD = wD + x.iat[i] * x.iat[i]

    wD = wD - sumX * sumX / x.count()
    w = wU / wD
    return w
def get_b(x, y, w):

b = 0.0
for i in range(0, x.count()):
    b = b + y.iat[i] - w*x.iat[i]
b = b / x.count()
return b
class myLinearRegression:
	 def __init__(self):
	     self.w = None
	     self.b = None
	
	 def fit(self, x, y):
	     self.w = get_w(x, y)
	     self.b = get_b(x, y, self.w)
	
	 def predict(self, x):
	     if self.w == None or self.b == None:
	         print("模型还未训练，请先调用fit方法训练")
	         return
	     return self.w * x + self.b
# 创建一个模型的实例
model1 = myLinearRegression()

# 使用训练集对模型进行训练，传入训练集的LotArea和标记SalePrice
model1.fit(train_data['LotArea'], train_data['SalePrice'])

# 对测试集进行预测，并将结果存储在变量prediction中
prediction1 = model1.predict(test_data['LotArea'])
def MAE(y_hat, y):
    ans = 0
    for i in range(0, y.count()):
        temp = y_hat.iat[i] - y.iat[i]
        if temp < 0:
            temp = -temp
        ans = ans + temp

    ans = ans / y.count()
    return ans

import math
def RMSE(y_hat, y):
    ans = 0
    for i in range(0, y.count()):
        temp = y_hat.iat[i] - y.iat[i]
        temp = temp ** 2
        ans = ans + temp
    ans = ans / y.count()
    ans = math.sqrt(ans)

    return ans

mae1 = MAE(prediction1, test_data['SalePrice'])
rmse1 = RMSE(prediction1, test_data['SalePrice'])
print("模型1，特征：LotArea")
print("MAE:", mae1)
print("RMSE:", rmse1)

import matplotlib.pyplot as plt
%matplotlib inline
plt.figure(figsize = (16, 6))

plt.subplot(121)
plt.plot(train_data['LotArea'].values, train_data['SalePrice'].values, '.', label = 'training data')
plt.plot(train_data['LotArea'].values, model1.predict(train_data['LotArea']), '-', label = 'prediction')
plt.xlabel("LotArea")
plt.ylabel('SalePrice')
plt.title("training set")
plt.legend()

使用BsmtUnfSF作为特征，完成模型的训练，指标计算，可视化

# 创建实例
model2 = myLinearRegression()

# 使用训练集对模型进行训练，传入训练集的LotArea和标记SalePrice
model2.fit(train_data['BsmtUnfSF'], train_data['SalePrice'])

# 对测试集进行预测，并将结果存储在变量prediction中
prediction = model2.predict(test_data['BsmtUnfSF'])

mae3 = MAE(prediction, test_data['SalePrice'])
rmse3 = RMSE(prediction, test_data['SalePrice'])
print("模型2，特征：BsmtUnfSF")
print("MAE:", mae3)
print("RMSE:", rmse3)

plt.figure(figsize = (16, 6))
plt.subplot(121)
plt.plot(train_data['BsmtUnfSF'].values, train_data['SalePrice'].values, '.', label = 'training data')
plt.plot(train_data['BsmtUnfSF'].values, model2.predict(train_data['BsmtUnfSF']), '-', label = 'prediction')
plt.xlabel('BsmtUnfSF')
plt.ylabel('SalePrice')
plt.title("training set")
plt.legend()
plt.yticks(np.arange(0, 800000, 100000))

plt.subplot(122)
plt.plot(test_data['BsmtUnfSF'].values, test_data['SalePrice'].values, '.', label='training data')
plt.plot(test_data['BsmtUnfSF'].values, model2.predict(test_data['BsmtUnfSF']), '-', label='prediction')
plt.xlabel('BsmtUnfSF')
plt.ylabel('SalePrice')
plt.title("testing set")
plt.yticks(np.arange(0, 800000, 100000))
plt.show()

使用GarageArea作为特征，完成模型的训练，指标计算，可视化

# 创建实例
model3 = myLinearRegression()

# 使用训练集对模型进行训练，传入训练集的LotArea和标记SalePrice
model3.fit(train_data['GarageArea'], train_data['SalePrice'])

# 对测试集进行预测，并将结果存储在变量prediction中
prediction = model3.predict(test_data['GarageArea'])

mae3 = MAE(prediction, test_data['SalePrice'])
rmse3 = RMSE(prediction, test_data['SalePrice'])
print("模型3，特征：GarageArea")
print("MAE:", mae3)
print("RMSE:", rmse3)

plt.figure(figsize = (16, 6))
plt.subplot(121)
plt.plot(train_data['GarageArea'].values, train_data['SalePrice'].values, '.', label = 'training data')
plt.plot(train_data['GarageArea'].values, model3.predict(train_data['GarageArea']), '-', label = 'prediction')
plt.xlabel('GarageArea')
plt.ylabel('SalePrice')
plt.title("training set")
plt.legend()
plt.yticks(np.arange(0, 800000, 100000))

plt.subplot(122)
plt.plot(test_data['GarageArea'].values, test_data['SalePrice'].values, '.', label='training data')
plt.plot(test_data['GarageArea'].values, model3.predict(test_data['GarageArea']), '-', label='prediction')
plt.xlabel('GarageArea')
plt.ylabel('SalePrice')
plt.title("testing set")
plt.yticks(np.arange(0, 800000, 100000))
plt.show()

选做：剔除训练集中的离群值(outlier)，然后重新训练模型，观察模型预测性能的变化


t = train_data[(train_data['LotArea'] < 60000) & (train_data['LotArea'] > 0)] # 将训练集中LotArea小于60000的值存入t
t = t[t['SalePrice'] < 500000] # 将t中SalePrice小于500000的值保留
# 绘制处理后的数据
plt.figure(figsize = (8, 7))
plt.plot(t['LotArea'], t['SalePrice'], '.')
plt.show()
num_of_samples = t.shape[0]
split_line = int(num_of_samples * 0.7)
train_data2 = t.iloc[:split_line]
test_data2 = t.iloc[split_line:]

model = myLinearRegression()
model.fit(train_data2['LotArea'], train_data2['SalePrice'])

prediction = model.predict(test_data2['LotArea'])

mae = MAE(prediction, test_data2['SalePrice'])
rmse = RMSE(prediction, test_data2['SalePrice'])
print("特征：LotArea")
print("MAE:", mae)
print("RMSE:", rmse)

3.2 多元线性回归——Kaggle房价预测

使用多个特征作为输入完成房价预测问题，计算模型在十折交叉验证上MAE和RMSE的值，比较不同的特征组合在模型预测能力上的影响。
模型可使用sklearn.linear_model.LinearRegression

选做：多项式回归（一元线性回归的扩展），尝试对部分特征进行变换，如将其二次幂，三次幂作为特征输入模型，观察模型在预测能力上的变化。

这部分的内容是要求大家完成多元线性回归，我们会先带着大家使用sklearn做一元线性回归的十折交叉验证，多元线性回归大家可以仿照着完成

1. 读取数据

同3.1

2. 引入模型


from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import cross_val_predict

3. 使用sklearn完成一元线性回归的十折交叉验证验证


model = LinearRegression()
features = ['LotArea']
x = data[features]
y = data['SalePrice']
prediction = cross_val_predict(model, x, y, cv = 10)
prediction.shape

4. 计算评价指标

mean_absolute_error(prediction, data['SalePrice'])
mean_squared_error(prediction, data['SalePrice']) ** 0.5

5. 请你选择多种特征进行组合，完成多元线性回归，并对比不同的特征组合，它们训练出的模型在十折交叉验证上MAE与RMSE的差别，至少完成3组

MULmodel1 = LinearRegression()
features1 = ['LotArea', 'MSSubClass', 'TotalBsmtSF']
x = data[features1]
y = data['SalePrice']
prediction = cross_val_predict(MULmodel1, x, y, cv = 10)
mean_absolute_error(prediction, data['SalePrice'])
mean_squared_error(prediction, data['SalePrice']) ** 0.5


MULmodel2 = LinearRegression()
features2 = ['1stFlrSF', '2ndFlrSF', 'MSSubClass', 'TotalBsmtSF']
x = data[features2]
y = data['SalePrice']
prediction = cross_val_predict(MULmodel2, x, y, cv=10)
mean_absolute_error(prediction, data['SalePrice'])
mean_squared_error(prediction, data['SalePrice']) ** 0.5
print("MAE:", mean_absolute_error(prediction, data['SalePrice']))
print("RMAE", mean_squared_error(prediction, data['SalePrice']) ** 0.5)


MULmodel3 = LinearRegression()
features3 = ['1stFlrSF', '2ndFlrSF', 'YrSold', 'GarageArea', 'TotalBsmtSF']
x = data[features3]
y = data['SalePrice']
prediction = cross_val_predict(MULmodel3, x, y, cv=10)
mean_absolute_error(prediction, data['SalePrice'])
mean_squared_error(prediction, data['SalePrice']) ** 0.5
print("MAE:", mean_absolute_error(prediction, data['SalePrice']))
print("RMAE", mean_squared_error(prediction, data['SalePrice']) ** 0.5)

3.3对数几率回归——肿瘤分类(二选一)

使用对数几率回归完成Breast_Cancer_Wisconsin结果预测问题
计算十折交叉验证下的精度(accuracy)，查准率(precision)，查全率(recall)，F1值。
模型可使用sklearn.linear_model.LogisticRegression
选做：尝试对特征进行筛选、标准化、正则化后，训练模型并计算十折交叉验证后的四项指标

1. 读取数据


import numpy as np
import pandas as pd
data = pd.read_csv('./breast-cancer.csv')
data.head()

2. 导入模型

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.model_selection import cross_val_predict
from sklearn import preprocessing

3. 数据处理

# y=diagnosis,x=radius_mean:
# data_x=...

num_of_samples = data.shape[0]
split_line = int(num_of_samples * 0.7)
train_data = data.iloc[:split_line]
test_data = data.iloc[split_line:]

features = ['radius_mean', 'texture_mean', 'perimeter_mean',
            'area_mean', 'smoothness_mean', 'compactness_mean',
            'concavity_mean', 'concave points_mean', 'symmetry_mean',
            'fractal_dimension_mean', 'radius_se', 'texture_se', 'perimeter_se',
            'area_se', 'smoothness_se', 'compactness_se', 'concavity_se',
            'concave points_se', 'symmetry_se', 'fractal_dimension_se',
            'radius_worst', 'texture_worst', 'perimeter_worst', 'area_worst',
            'smoothness_worst', 'compactness_worst', 'concavity_worst',
            'concave points_worst', 'symmetry_worst', 'fractal_dimension_worst']
data_x = train_data[features]
test_x = test_data[features]

data_y = train_data['diagnosis']
test_y = test_data['diagnosis']

4. 训练并预测

# # YOUR CODE HERE
# model = LogisticRegression(max_iter = 10000)
# prediction = ...
model = LogisticRegression(max_iter = 10000)
model.fit(data_x,data_y)
prediction = model.predict(test_x)

5. 评价指标的计算

def evalute(prediction, test_y):
    acc = accuracy_score(test_y, prediction)
    pre = precision_score(test_y, prediction,pos_label='B')
    recall = recall_score(test_y, prediction,pos_label='B')
    f1 = recall_score(test_y, prediction,pos_label='B')
    return acc, pre, recall, f1
evalute(prediction, test_y)

3.4 类别不均衡

类别不均衡

使用imblearn实现SMOTE过采样，RandomUnderSampler降采样。
在样本不均衡（处理过后）的癌症数据集（Breast_Cancer_Wisconsin）上利用SMOTE，对比使用过采样算法前后各评价指标的差异。

使用imblearn实现SMOTE过采样，RandomUnderSampler降采样

import pandas as pd
from sklearn.datasets import make_classification
import matplotlib.pyplot as plt
from imblearn.datasets import make_imbalance
from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import RandomUnderSampler
import warnings
warnings.filterwarnings('ignore')
#balanced dataset
train_X, train_y = make_classification(n_samples=700, n_features=2, n_redundant=0,
                             n_informative=2, n_clusters_per_class=1,
                             class_sep=1.0, flip_y=0.06, random_state=100)
plt.title("Balanced dataset")
plt.xlabel('x')
plt.ylabel('y')
plt.scatter(train_X[:, 0], train_X[:, 1], marker='o', c=train_y,
            s=25, edgecolor='k', cmap=plt.cm.coolwarm)
plt.show()
train_X1, train_y1 =  make_imbalance(train_X, train_y, sampling_strategy={0: 340, 1: 10}, random_state=100)
plt.title("Imbalanced dataset")
plt.xlabel('x')
plt.ylabel('y')
plt.scatter(train_X1[:, 0], train_X1[:, 1], marker='o', c=train_y1,
            s=25, edgecolor='k', cmap=plt.cm.coolwarm)
plt.show()
sm_model = SMOTE(sampling_strategy='auto', k_neighbors=8, random_state=100)
train_X2, train_y2 = sm_model.fit_resample(train_X1, train_y1)
plt.title('SMOTE')
plt.xlabel('x')
plt.ylabel('y')
plt.scatter(train_X2[:, 0], train_X2[:, 1], marker='o', c=train_y2,
            s=25, edgecolor='k', cmap=plt.cm.coolwarm)
plt.show()
rus_model = RandomUnderSampler(random_state=100)
train_X3, train_y3 = rus_model.fit_resample(train_X1, train_y1)
plt.title('RUS')
plt.xlabel('x')
plt.ylabel('y')
plt.scatter(train_X3[:, 0], train_X3[:, 1], marker='o', c=train_y3,
            s=25, edgecolor='k', cmap=plt.cm.coolwarm)
plt.show()

在样本不均衡的癌症数据集上利用SMOTE，对比使用过采样算法前后各评价指标的差异

raw_data = pd.read_csv('./breast-cancer.csv')
raw_data
print(len(raw_data[raw_data['diagnosis'] == 'M']))
print(len(raw_data[raw_data['diagnosis'] == 'B']))
# 将癌症数据集处理为样本更加不均衡的数据如100：357

names = raw_data[raw_data['diagnosis'] == 'M'].sample(n=112).index
data = raw_data.drop(names, inplace=True)
num_of_samples = data.shape[0]
split_line = int(num_of_samples * 0.7)
train_data = data.iloc[:split_line]
test_data = data.iloc[split_line:]

features = ['radius_mean', 'texture_mean', 'perimeter_mean',
            'area_mean', 'smoothness_mean', 'compactness_mean', 
            'concavity_mean', 'concave points_mean', 'symmetry_mean',
            'fractal_dimension_mean	radius_se', 'texture_se	perimeter_se',
            'area_se', 'smoothness_se', 'compactness_se', 'concavity_se', 
            'concave points_se', 'symmetry_se', 'fractal_dimension_se', 
            'radius_worst', 'texture_worst', 'perimeter_worst', 'area_worst',
            'smoothness_worst', 'compactness_worst', 'concavity_worst', 
            'concave points_worst', 'symmetry_worst', 'fractal_dimension_worst']

data_x = train_data[features]
test_x = test_data[features]

data_y = train_data['diagnosis']
test_y = test_data['diagnosis']
# 预测并评价指标
model1 = LogisticRegression(max_iter=10000)
model1.fit(data_x, data_y)
prediction1 = model1.predict(test_x)

print("1 过采样处理前:", evalute(prediction1, test_y))

def evalute(prediction, test_y):
    acc = accuracy_score(test_y, prediction)
    pre = precision_score(test_y, prediction,pos_label='B')
    recall = recall_score(test_y, prediction,pos_label='B')
    f1 = recall_score(test_y, prediction,pos_label='B')
    return acc, pre, recall, f1

# 将处理后的数据集进行SMOTE过采样
sm_model = SMOTE(sampling_strategy='auto', k_neighbors=8, random_state=100)
data_X2, data_y2 = sm_model.fit_resample(data_x, data_y)

# 预测并评价指标
model2 = LogisticRegression(max_iter=10000)
model2.fit(data_X2, data_y2)
prediction2 = model2.predict(test_x)
print("2 过采样处理后:", evalute(prediction2, test_y))

ES-LTR粗排模块 poins jenkins 运维
ES-LTR粗排模块官方资源：https://github.com/HeiBoWang/elasticsearch-learning-to-rankElasticsearch学习排名插件使用机器学习提高搜索相关性排名。它为维基媒体基金会和Snagajob等地方的搜索提供了动力！这个插件有什么功能此插件：允许您在Elasticsearch中存储特征（Elasticsearch查询模板）记录特征得分（
Ai插件脚本合集安装包，免费教程视频网盘分享全网优惠分享君
随着人工智能技术的不断发展，越来越多的插件脚本涌现出来，为我们的生活和工作带来了便利。然而，如何快速、方便地获取和使用这些插件脚本呢？今天，我将为大家分享一个非常实用的资源——AI插件脚本合集安装包，以及免费教程视频网盘分享。首先，让我们来了解一下这个AI插件脚本合集安装包。它是一个集合了众多AI插件脚本的资源包，涵盖了各种领域，如数据分析、自动化办公、智能客服等等。通过这个安装包，用户可以轻松地
过去一年，这16本好书不容错过 m0_54050778 perl
编者按：2023年在动荡与希望中收尾，2023年注定会被载入史册。疫情寒冬结束，ChatGPT横空出世，带动了人工智能技术的飞速发展；淄博烧烤、天津大爷、尔滨之旅等充满感动与幸福。但与此同时，2023年又是动荡与不安的一年，俄乌冲突的延宕，新一轮的巴以冲突，极端天气频发。在这个大环境下，有一些经典的书籍著作诞生。本文将分享2023年最值得一读的16本书籍，文章来自翻译，希望对你有所启示。关于202
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
UNDERSTANDING HTML WITH LARGE LANGUAGE MODELS liferecords LLM 语言模型人工智能自然语言处理
UNDERSTANDINGHTMLWITHLARGELANGUAGEMODELS相关链接：arXiv关键字：大型语言模型、HTML理解、Web自动化、自然语言处理、机器学习摘要大型语言模型（LLMs）在各种自然语言任务上表现出色。然而，它们在HTML理解方面的能力——即解析网页的原始HTML，对于自动化基于Web的任务、爬取和浏览器辅助检索等应用——尚未被充分探索。我们为HTML理解模型（经过微调
ChatGPT技巧大揭秘：AI写代码新境界 2401_83550420 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT技巧大揭秘：AI写代码新境界随着人工智能技术的不断进步，开发人员现在有了更多有趣的工具来提高他们的工作效率。其中，ChatGPT作为一种基于深度学习的自然语言处理模型，已经成为许多开发者的新宠。在本文中，我们将揭秘使用ChatGPT来帮助编写代码的技巧，探索AI在编程领域的新境界。ChatGPT简介ChatGPT是一种基于大型神经网络的对话生成模型，它
ChatGPT：AI合作伙伴助你成为论文写作高手 2401_83550420 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达摘要：本文将介绍ChatGPT3.5Turbo（以下简称ChatGPT），一款强大的AI合作伙伴，能够助你成为一名论文写作高手。我们将深入探讨ChatGPT的特点、优势，并提供多个示例，展示ChatGPT在论文写作中的应用。无论是开展研究、撰写论文、还是与ChatGPT进行互动交流，都能够帮助你提升写作效率和质量。引言：随着人工智能的发展，聊天型语言模型在各个领域都
AI大模型学习：开启智能时代的新篇章游向大厂的咸鱼人工智能学习
随着人工智能技术的不断发展，AI大模型已经成为当今领先的技术之一，引领着智能时代的发展。这些大型神经网络模型，如OpenAI的GPT系列、Google的BERT等，在自然语言处理、图像识别、智能推荐等领域展现出了令人瞩目的能力。然而，这些模型的背后是一系列复杂的学习过程，深度学习技术的不断演进推动了AI大模型学习的发展。首先，AI大模型学习的基础是深度学习技术。深度学习是一种模仿人类大脑结构的机器
OpenCV（一个C++人工智能领域重要开源基础库）简介愚梦者 OpenCV 人工智能人工智能 opencv c++图像处理计算机视觉开源
返回：OpenCV系列文章目录（持续更新中......）上一篇：OpenCV4.9.0配置选项参考下一篇：OpenCV4.9.0开源计算机视觉库安装概述引言：OpenCV（全称OpenSourceComputerVisionLibrary）是一个基于开放源代码发行的跨平台计算机视觉库，可以用来进行图像处理、计算机视觉和机器学习等领域的开发。该库由英特尔公司于1999年开始开发，最初是为了加速处理器
零基础机器学习(5)之线性回归模型的性能评估一只特立独行猪机器学习机器学习线性回归人工智能
文章目录线性回归模型的性能评估1.举例1-单一特征2.举例2-多特征线性回归模型的性能评估评估线性回归模型时，首先要建立评估的测试数据集（测试集不能与训练集相同），然后选择合适的评估方法，实现对线性回归模型的评估。回归任务中最常用的评估方法有均方误差、均方根误差和预测准确率（确定系数）。1.举例1-单一特征分别对两个模型进行评估，输入的测试集如表所示。面积/（m2）售价/（万元）面积/（m2）售价
ChatGPT：智能论文写作指南，让您成为写作高手 AI臻蚌 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达写作是学术研究中不可或缺的一环，然而，对于许多人来说，写作往往是一项艰巨而费时的任务。但是，现在有了ChatGPT，您将能够以前所未有的速度和准确性编写高质量的论文。本文将向您介绍如何利用ChatGPT的强大功能成为写作高手，并为您提供一些示例，展示其在不同领域的应用。1.简介ChatGPT是一种基于人工智能的语言模型，它可以理解并生成人类语言。通过训练大量的语料库
ChatGPT神技：AI成为你的编程良友 2401_83481083 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT神技：AI成为你的编程良友近年来，人工智能技术的发展迅猛，ChatGPT作为其中一项创新技术，正逐渐走进我们的生活。在编程领域，AI不仅可以助力我们提高效率，还能成为我们的良友，帮助解决各种编程难题。一、ChatGPT简介ChatGPT是一种基于自然语言处理技术的人工智能模型，它能够生成类人对话。ChatGPT通过深度学习模型，能够理解输入的文本并生成
数字逻辑不可能涌现出智能 dog250 人工智能
先看一系列竖式乘法的步骤：相乘的两个数数位越大，步骤越多。如果不纠结数制，二进制运算也是这回事，把单个步骤用一个晶体管表达(其实一个步骤不止一个晶体管)，数位越大，所需的晶体管越多。先说结论，所有基于n进制的逻辑运算都不可扩展。硅基时序电路可如此巧妙完成精确计算，开启了数字化时代，人们试图将AI构建在这二进制世界。但若二进制运算不可扩展，基于数字逻辑的人工智能就不可能。前面提到过，二进制运算本质上
让数据说话：人工智能与六西格玛的完美结合张驰课堂人工智能六西格玛
当人工智能与六西格玛结合，企业可以充分利用人工智能技术的数据处理、预测分析和智能决策支持能力，实现数据驱动的决策、质量控制和流程优化，从而提高企业的效率和竞争力。下面张驰咨询给大家具体的介绍：1、数据驱动决策六西格玛侧重于数据分析和决策制定，而人工智能可以提供更强大的数据处理和分析能力。通过人工智能技术，可以自动收集和整理大量的数据，并进行有效的数据挖掘和模式识别。这些数据分析结果可以为六西格玛项
智合同如何助力建筑行业合同智能化管理智合同（小智）合同智能应用 AI技术降本增效提质人工智能自然语言处理知识图谱深度学习大数据
#建筑行业#人工智能#AI#合同智能应用#深度学习#自然语言处理技术#知识图谱智合同-采用深度学习、自然语言处理技术、知识图谱等人工智能技术，为企业提供专业的合同相关的智能服务。其主要服务包含：合同智能审查、合同要素智能提取、合同版本对比、合同智能起草、ICR智能识别、合同履约追踪、文本一致性对比、广告审查、合同范本库等服务。智合同在助力建筑行业合同智能化管理方面具有显著的优势。首先，智合同利用A
AI原生安全亚信安全首个“人工智能安全实用手册”开放阅览亚信安全官方账号安全网络 web安全人工智能大数据
不断涌现的AI技术新应用和大模型技术革新，让我们感叹从没有像今天这样，离人工智能的未来如此之近。追逐AI原生？企业组织基于并利用大模型技术探索和开发AI应用的无限可能，迎接生产与业务模式的全面的革新。我们更应关心AI安全原生。实施人工智能是一项复杂又长远的任务，任何希望利用大模型的组织在设计之初，都必须将安全打入地基，安全一定是AI技术发展的核心要素。针对人工智能和大模型面临的威胁与攻击模式，亚信
开发chrome扩展（禁止指定域名使用插件）徐同保 chrome 前端
mainfest.json:{"manifest_version":3,"name":"ChatGPT学习","version":"0.0.2","description":"ChatGPT,GPT-4,Claude3,Midjourney,StableDiffusion,AI,人工智能,AI","icons":{"16":"./images/logo.png","48":"./images/lo
2022-05-14 败者食尘_40a0
本文结构速览：一、SQL题二、机器学习&概率论三、开放性问题01SQL题面试真题：现有一张用户签到表（user_sign_d）,标记用户每日是否签到，表结构如下sign_date:日期user_id:用户IDif_sign:当日是否签到,1表示签到，0表示未签到问题①：请计算截止到当前每个用户已经连续签到的天数（输出表仅包含当天签到的所有用户，计算其连续签到的天数）输出表结构如下：user_id:
Android 实现照片抠出人像。 No Promises﹉ android
谢谢阅览、关注！！一、各平台的实现方式：1.Android实现方式：使用图像处理库（如OpenCV）：集成OpenCV库，利用其图像处理功能进行边缘检测和图像分割；使用机器学习模型（如TensorFlowLite）：集成TensorFlowLite和预训练的人像分割模型；使用第三方API服务：利用如百度AI、腾讯AI等提供的在线API进行图像处理。步骤：集成必要的库或API、加载和处理图像、应用抠
ai智能语音机器人的出现未来电销行业会如何发展？ VO_794632978 WX-794632978 语音机器人人工智能机器人交互语音识别大数据
人工智能和移动互联网技术的发展，对于很多行业都产生了颠覆性的影响。而对于电销这一重复度较高的行业来说，也是产生了巨大的推动作用。对于传统电销人来说，电销机器人可以帮助你提高销售效率，提高影响客户的能力和转化率，将你过去繁琐简单无效的需要个人做的工作，都交给机器，让你的时间和精力，放在重要的客户和有创造性的事情上。我们一起来看看都有哪些发展。自动化程度提高：AI机器人能够不间断地工作，自动拨打电话、
Python机器学习笔记：CART算法实战战争热诚
完整代码及其数据，请移步小编的GitHub传送门：请点击我如果点击有误：https://github.com/LeBron-Jian/MachineLearningNote前言在python机器学习笔记：深入学习决策树算法原理一文中我们提到了决策树里的ID3算法，C4.5算法，并且大概的了
生成式AI竞赛：开源还是闭源，谁将主宰未来？新加坡内哥谈技术人工智能
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/对于一些行业观察家来说，这场战斗似乎还没开始就已结束。当ChatGPT成为有史以来增长最
从政府工作报告探计算机行业发展想你依然心痛个人总结与成长规划行业发展前景
文章目录每日一句正能量前言以“数”谋新、加“数”向实人工智能方面人工智能成核心驱动引擎软件方面通信方面后记每日一句正能量该来的始终会来，千万别太着急，如果你失去了耐心，就会失去更多。该走过的路总是要走过的，从来不要认为你走错了路，哪怕最后转了一个大弯。这条路上你看到的风景总是特属于你自己的，没有人能夺走它。前言2024年的两会是中国政治日历上一次重要的会议，吸引了全球的目光。在这次两会中，计算机行
机器学习是什么三花学编程机器学习
机器学习是什么？机器学习，这一词汇在当今的科技领域中可谓炙手可热，其影响深远，不仅改变了科学研究的方式，也推动了社会的快速发展。那么，机器学习到底是什么呢？机器学习，顾名思义，是机器（通常指计算机）进行学习的过程。这个过程模仿了人类的学习方式，通过经验积累，不断优化自身性能，最终能够在没有人类直接干预的情况下，进行决策或预测。简单来说，机器学习就是让计算机具备从数据中学习并自动改进的能力。机器学习
ego - 人工智能原生 3D 模拟引擎——基于AI的3D引擎，可以做游戏、空间计算、元宇宙等项目花生糖@ AIGC学习资源人工智能游戏空间计算
1.产品概述：Ego是一款AI本地化的3D模拟引擎，旨在让非技术创作者通过自然语言生成逼真的角色、3D世界和交互式脚本。该平台提供了创建和分享游戏、虚拟世界和交互体验的功能。2.定位：Ego定位于解决开放世界游戏和模拟的三大难题：难以编写游戏脚本、非玩家角色无法展现人类行为以及创建新的3D资产和世界的难度。通过AI技术，Ego致力于让用户可以用自然语言创建复杂的游戏和交互体验。3.创始人背景：创始
Python中的并发编程：多线程与多进程的比较【第124篇—多线程与多进程的比较】一键难忘 python java 服务器并发编程多线程多进程
发现宝藏前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。Python中的并发编程：多线程与多进程的比较在Python编程领域中，处理并发任务是提高程序性能的关键之一。本文将探讨Python中两种常见的并发编程方式：多线程和多进程，并比较它们的优劣之处。通过代码实例和详细的解析，我们将深入了解这两种方法的适用场景和潜在问题。多线程
最新ChatGPT支持下的PyTorch机器学习与深度学习 zkzhzy ChatGPT 机器学习 python 机器学习深度学习 pytorch chatgpt 数据分析人工智能
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。郁磊（副教授）主要从事AI人工智能、大语言模型及软件开发、生理系统建模与仿真、生物医学信号处理，具有丰富的科研经验，主编《MATLAB智能算
神奇的微积分科学的N次方人工智能人工智能 ai
微积分在人工智能（AI）领域扮演着至关重要的角色，以下是其主要作用：优化算法：•梯度下降法：微积分中的导数被用来计算损失函数相对于模型参数的梯度，这是许多机器学习和深度学习优化算法的核心。梯度指出了函数值增加最快的方向，通过沿着负梯度方向更新权重，可以最小化损失函数并优化模型。•反向传播：在神经网络训练中，微积分的链式法则用于计算整个网络中每个参数对于最终损失函数的影响（偏导数），这一过程就是反向
自然语言处理概念以及发展黑夜照亮前行的路自然语言处理
自然语言概念总结自然语言处理（NaturalLanguageProcessing，简称NLP）是计算机科学领域与人工智能领域的一个重要方向，它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理旨在帮助计算机理解和处理自然语言，使计算机能够像人类一样处理和生成语言。从概念上讲，自然语言处理融合了语言学、计算机科学和数学等多学科的知识。它并不仅仅是一般地研究自然语言，而是侧重
群晖NAS使用Docker安装WPS Office并结合内网穿透实现公网远程办公深鱼~ cpolar 容器运维 ssh 网络
文章目录推荐1.拉取WPSOffice镜像2.运行WPSOffice镜像容器3.本地访问WPSOffice4.群晖安装Cpolar5.配置WPSOffice远程地址6.远程访问WPSOffice小结7.固定公网地址推荐前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。【点击跳转到网站】wps-office是一个在Linux服务器上部署WPSOffice的镜像。它基于
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

机器学习本科课程 实验1 线性模型

第三章 线性模型

3.1一元线性回归——Kaggle房价预测

使用BsmtUnfSF作为特征，完成模型的训练，指标计算，可视化

使用GarageArea作为特征，完成模型的训练，指标计算，可视化

选做：剔除训练集中的离群值(outlier)，然后重新训练模型，观察模型预测性能的变化

3.2 多元线性回归——Kaggle房价预测

1. 读取数据

2. 引入模型

3. 使用sklearn完成一元线性回归的十折交叉验证验证

4. 计算评价指标

5. 请你选择多种特征进行组合，完成多元线性回归，并对比不同的特征组合，它们训练出的模型在十折交叉验证上MAE与RMSE的差别，至少完成3组

3.3对数几率回归——肿瘤分类(二选一)

1. 读取数据

2. 导入模型

3. 数据处理

4. 训练并预测

5. 评价指标的计算

3.4 类别不均衡

你可能感兴趣的:(机器学习,本科课程,机器学习,人工智能)

机器学习本科课程实验1 线性模型

第三章线性模型