爬遍天下无敌手

Python数据分析实战 —— 天猫订单数据！

2、数据集简介

本数据集共收集了发生在一个月内的28010条数据，包含以下字段：

['订单编号', '总金额', '买家实际支付金额', '收货地址', '订单创建时间', '订单付款时间 ', '退款金额']

7个字段说明：

（1）订单编号：订单编号；

（2）总金额：订单总金额；

（3）买家实际支付金额：总金额 - 退款金额（在已付款的情况下）。金额为0（在未付款的情况下）；

（4）收货地址：各个省份；

（5）订单创建时间：下单时间；

（6）订单付款时间：付款时间；

（7）退款金额：付款后申请退款的金额。如无付过款，退款金额为0。

数据概览：

3、相关库、函数和数据的导入

# 相关库和函数的导入
import numpy as npfrom sklearn import metricsimport mathimport copyimport pandas as pd          import scipy as spimport matplotlib.pyplot as plt               # 导入常用的基本库
import datetime as date                                 # 导入datetime库import seaborn as sns                                   # 导入seaborn库，用于数据可视化from IPython.display import display                     # 载入数据查看时需要使用的函数from sklearn.model_selection import train_test_split    # 导入数据集划分时需要使用的函数from sklearn.metrics import confusion_matrix            # 导入生成混淆矩阵的函数from sklearn.preprocessing import LabelEncoder          # 导入分类变量编码时需要使用的函数from sklearn.metrics import classification_report       # 导入分类结果评价时要用到的函数
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis     # 导入LDA判别时需要使用的函数from sklearn.naive_bayes import MultinomialNB           # 导入朴素贝叶斯时需要使用的额函数from sklearn.neighbors import KNeighborsClassifier      # 导入KNN判别时需要使用的函数from sklearn.tree import DecisionTreeClassifier         # 导入决策树函数from sklearn.neural_network import MLPClassifier        # 导入神经网络函数from sklearn import svm                                 # 导入支持向量机函数
from sklearn.model_selection import GridSearchCV        # 导入模型优化方法中的网格搜索法需要用到的函数from sklearn.cross_validation import KFold              # 导入模型评估时使用的函数
# 数据导入
dt = pd.read_csv('D:资料/数据分析/数据分析与数据挖掘/实战演练/5（tmall_order_report）/tmall_order_report.csv',encoding='gbk',engine='python')

4、数据检查与清洗

首先，查看一下数据集的变量类型：

dt.dtypes                                               # 查看数据集有哪些变量

然后，将变量中右侧的空格去除（以免影响后续调用变量），并进行重复值和缺失值检查：

dt.columns = dt.columns.str.rstrip()                    # 去除列名右侧的空格dt.duplicated().sum()                                   # 检查数据是否有重复值，发现并没有重复值display(sum(dt.isnull().sum()))                         # 检查数据集是否有缺失值

检查出来有缺失值（约占数据总量的12-15%），考虑原数据中是否是因为“订单付款时间”这一列存在缺失值而导致产生这样的检查结果：

col = dt.columns.values.tolist()                        # 提取数据集中的所有列变量的名称col.remove('订单付款时间')                               # 将订单付款时间这一列去除display(sum(dt[col].isnull().sum()))                    # 再次检查是否有缺失值，发现并没有缺失值，也就是缺失值均来自“订单付款时间”这一列

结果表明，缺失值仅来自“订单付款时间”这一列。接下来就是处理缺失值，处理的思路可以是先计算出各订单付款时间和下单时间的平均值，然后用下单时间 + 平均值，作为缺失值的填补对象：

c = np.array(['订单创建时间','订单付款时间'])             # 提取订单创建时间、付款时间这两列的列名for i in c:    dt[i] = pd.to_datetime(dt[i])                       # 将订单创建时间、付款时间由object类型转为datetime类型，方便运算for i in range(0,dt.shape[0]):    if (dt['订单付款时间'].iloc[i] < dt['订单创建时间'].iloc[i]) == True:        dt['订单付款时间'].iloc[i] = dt['订单付款时间'].iloc[i] + date.timedelta(days=1)     # 将订单付款时间 < 订单创建时间的时间数据往后加1天（因为原数据中没有考虑日期差异情况) mu = np.mean(dt['订单付款时间']-dt['订单创建时间'])       # 计算时间差的均值，用于之后进行缺失值替换for i in range(0,dt.shape[0]):    if pd.isnull(dt['订单付款时间'].iloc[i]) == True:    # 进行缺失值填补        dt['订单付款时间'].iloc[i] = dt['订单创建时间'].iloc[i] + mu

在填补完成之后，再次检查缺失值和重复值的情况：

display(sum(dt.isnull().sum()))                         # 再次检查数据集是否有缺失值，发现已经处理完了，但是还要检查是否增加正确display(dt.duplicated().sum())                          # 再次检查数据是否有重复值，发现并没有重复值，发现也没有重复值

结果显示已经没有缺失值和重复值了。

5、描述性分析

首先，对订单总金额进行描述性分析：

display(dt['总金额'].describe())                        # 查看订单总金额的情况，发现最大的订单价格达到了188320元，最小的则只有1元，平均订单价为107元左右

从描述统计的结果中可以看到，最大的订单价格达到了188320元，最小的只有1元，平均订单价在107元左右，中位数为1元，说明应该是一个左偏分布，即大部分订单的价格应该都不高。然后查看买家实际支付金额为0（支付未完成）的订单比例：

sum(dt['买家实际支付金额']==0) / dt.shape[0]             # 查看买家实际支付金额为0（也就是支付未完成）的订单比例，占比约为32.3%

从结果中可以看到，大概有32.3%的买家未完成支付，这一比例还是比较高的。再看看订单付款时间相比于订单创建时间的延迟情况：

display((dt['订单付款时间']-dt['订单创建时间']).describe())     # 查看订单付款时间相比于订单创建时间的延迟情况，发现最慢的支付延迟了接近1天，而大部分订单在10分钟内就完成了支付

从中可以看到，最慢的支付延迟了接近1天，而大部分订单在10分钟内就完成了支付。最后，来对收货地址情况进行描述性分析：

siz = dt.groupby(dt['收货地址']).size()                 # 对收货地址进行分组统计idx_sort = np.argsort(-siz)                            # 对分组统计的结果进行降序排序display(siz[idx_sort].head())                          # 查看降序排序的结果的前5名，发现收货地址选择上海、广东、江苏、浙江、北京的最多siz[idx_sort].tail()                                   # 查看降序排序的结果的最后5名，发现收货地址选择湖北、新疆、宁夏、青海和西藏的最少，其中湖北可能受疫情影响所致

从结果中可以看到，收货地址选择上海、广东、江苏、浙江、北京的最多，而选湖北、新疆、宁夏、青海和西藏的最少，其中湖北可能受疫情影响所致。

6、建模预处理

首先，进行特征构建，并生成用于建模的数据集，处理过程如下：

d1 = (dt['订单付款时间']-dt['订单创建时间'])            # 输出订单付款和创建之间的时间差，作为一个新变量d1 = (d1 / np.timedelta64(1, 's')).astype(int)        # 将时间差的格式进行转换，转换为按秒计数，并把格式变为int类型le_train = LabelEncoder()                             # 使用从sklearn.preprocessing中import的LabelEncoder对分类数据进行编码，以便于后续使用交叉验证建模 le_train.fit(dt['收货地址'].tolist())                  # 对模型进行训练d2 = le_train.transform(dt['收货地址'].tolist())       # 转化数据，作为第2个变量d3 = np.zeros(dt.shape[0])                            # 构建一个全为0的数组for i in range(0,dt.shape[0]):    if (dt['总金额'].iloc[i]-dt['买家实际支付金额'].iloc[i]) == dt['退款金额'].iloc[i]:        d3[i] = 1                                     # 生成一个新变量(类别变量)，当买家有支付（无论退不退款）时为1，没有支付时为0（无支付时上述等式不成立，实际支付金额和退款金额均为0），表明支付的情况dt_use = np.vstack((d1,d2,d3)).T                      # 生成用于建模分析的数据集，np.vstack用于数组的垂直连接

然后是对数据集进行划分，形成训练集和测试集，为之后的建模做准备：

x_train,x_test, y_train, y_test = train_test_split(dt_use[:,0:2],dt_use[:,2:3],test_size=0.25, random_state=0)     # 使用从sklearn.model_selection中import的train_test_split函数进行训练集、测试集的划分print('训练集的自变量数据的维度',x_train.shape)print('训练集的因变量量数据的维度',x_test.shape)print('测试集的自变量数据的维度',y_train.shape)          print('测试集的因变量数据的维度',y_test.shape)          # 查看数据集划分后的维度情况

7、数据建模

首先，构建初始的模型，这里完成的是分类预测任务，选择经典的几个模型，分别是 SVM、LDA、朴素贝叶斯NB、KNN判别、决策树Detree和神经网络Network：

models = {}                                           # 构建一个models集合models['SVM'] = svm.SVC()                             # 支持向量机模型models['LDA'] = LinearDiscriminantAnalysis()          # LDA判别模型models['NB'] = MultinomialNB()                        # 朴素贝叶斯模型models['KNN'] = KNeighborsClassifier()                # KNN判别模型models['Detree'] = DecisionTreeClassifier()           # 决策树模型models['Network'] = MLPClassifier()                   # 神经网络模型

然后，对模型进行训练和分析：

target_names = ['有支付','没有支付']                   # 生成类别的名称for key in models:    models[key].fit(x_train,y_train)                  # 模型训练    display(confusion_matrix(y_test,models[key].predict(x_test)))                                               # 对y_test进行预测，输出混淆矩阵    print(classification_report(y_test,models[key].predict(x_test),target_names=target_names))                  # 对y_test进行预测，输出预测的分类评价    print('\n')

SVM模型的混淆矩阵和准确率：

LDA模型的混淆矩阵和准确率：

朴素贝叶斯NB模型的混淆矩阵和准确率：

KNN判别模型的混淆矩阵和准确率：

决策树Detree模型的混淆矩阵和准确率：

神经网络Network模型的混淆矩阵和准确率：

从上述结果中可以看到，SVM和KNN的准确率较高。下面对朴素贝叶斯NB模型进行调参，看是否能改善其预测准确率：

param_grid_nb = {'alpha':[0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0]}    # 设定贝叶斯模型中不同alpha值model_nb_ty = MultinomialNB()                          # 设定贝叶斯的模型kfold = KFold(10, 6)                                   # 采用10折交叉验证，初始随机起点为6grid = GridSearchCV(estimator=model_nb_ty,                     param_grid=param_grid_nb, scoring='neg_mean_squared_error', cv=kfold)         # 设置网格搜索的模型grid_result = grid.fit(x_train, y_train)               # 利用构建好的模型对数据集进行训练，搜索最优的k值print('最优：%s 使用%s' % (grid_result.best_score_, grid_result.best_params_))                     # 输出最优的参数情况nb_model = MultinomialNB(alpha=0)                      # 根据模型调参的结果，重新设定朴素贝叶斯模型nb_model.fit(x_train,y_train)                          # 模型训练display(confusion_matrix(y_test,nb_model.predict(x_test)))                                        # 对y_test进行预测，输出混淆矩阵print(classification_report(y_test,nb_model.predict(x_test),target_names=target_names))           # 对y_test进行预测，输出预测的分类评价，发现并没有什么改进

调参后的结果和调参前并没有多少改善，说明NB模型在本次预测中受限于数据情况，而不是模型参数。

最后放上全过程的代码，供大家学习使用：

### 数据分析前期准备工作 ###
# 相关库和函数的导入
import numpy as npfrom sklearn import metricsimport mathimport copyimport pandas as pd          import scipy as spimport matplotlib.pyplot as plt               # 导入常用的基本库
import datetime as date                                 # 导入datetime库import seaborn as sns                                   # 导入seaborn库，用于数据可视化from IPython.display import display                     # 载入数据查看时需要使用的函数from sklearn.model_selection import train_test_split    # 导入数据集划分时需要使用的函数from sklearn.metrics import confusion_matrix            # 导入生成混淆矩阵的函数from sklearn.preprocessing import LabelEncoder          # 导入分类变量编码时需要使用的函数from sklearn.metrics import classification_report       # 导入分类结果评价时要用到的函数  
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis     # 导入LDA判别时需要使用的函数from sklearn.naive_bayes import MultinomialNB           # 导入朴素贝叶斯时需要使用的额函数from sklearn.neighbors import KNeighborsClassifier      # 导入KNN判别时需要使用的函数from sklearn.tree import DecisionTreeClassifier         # 导入决策树函数from sklearn.neural_network import MLPClassifier        # 导入神经网络函数from sklearn import svm                                 # 导入支持向量机函数
from sklearn.model_selection import GridSearchCV        # 导入模型优化方法中的网格搜索法需要用到的函数from sklearn.cross_validation import KFold              # 导入模型评估时使用的函数
# 全局设定
plt.rcParams['font.sans-serif']=['SimHei']              # 设定中文字符的显示设定
# 数据导入
dt = pd.read_csv('D:资料/数据分析/数据分析与数据挖掘/实战演练/5（tmall_order_report）/tmall_order_report.csv',encoding='gbk',engine='python')


### 数据整理与查看 ###
# 数据检查与清洗
dt.dtypes                                               # 查看数据集有哪些变量
dt.columns = dt.columns.str.rstrip()                    # 去除列名右侧的空格
dt.duplicated().sum()                                   # 检查数据是否有重复值，发现并没有重复值
display(sum(dt.isnull().sum()))                         # 检查数据集是否有缺失值
col = dt.columns.values.tolist()                        # 提取数据集中的所有列变量的名称
col.remove('订单付款时间')                               # 将订单付款时间这一列去除
display(sum(dt[col].isnull().sum()))                    # 再次检查是否有缺失值，发现并没有缺失值，也就是缺失值均来自“订单付款时间”这一列
c = np.array(['订单创建时间','订单付款时间'])             # 提取订单创建时间、付款时间这两列的列名
for i in c:    dt[i] = pd.to_datetime(dt[i])                       # 将订单创建时间、付款时间由object类型转为datetime类型，方便运算
for i in range(0,dt.shape[0]):    if (dt['订单付款时间'].iloc[i] < dt['订单创建时间'].iloc[i]) == True:        dt['订单付款时间'].iloc[i] = dt['订单付款时间'].iloc[i] + date.timedelta(days=1)     # 将订单付款时间 < 订单创建时间的时间数据往后加1天（因为原数据中没有考虑日期差异情况) 
mu = np.mean(dt['订单付款时间']-dt['订单创建时间'])       # 计算时间差的均值，用于之后进行缺失值替换
for i in range(0,dt.shape[0]):    if pd.isnull(dt['订单付款时间'].iloc[i]) == True:    # 进行缺失值填补        dt['订单付款时间'].iloc[i] = dt['订单创建时间'].iloc[i] + mu
display(sum(dt.isnull().sum()))                         # 再次检查数据集是否有缺失值，发现已经处理完了，但是还要检查是否增加正确
display(dt.duplicated().sum())                          # 再次检查数据是否有重复值，发现并没有重复值，发现也没有重复值
# 描述性分析
display(dt['总金额'].describe())                        # 查看订单总金额的情况，发现最大的订单价格达到了188320元，最小的则只有1元，平均订单价为107元左右
sum(dt['买家实际支付金额']==0) / dt.shape[0]             # 查看买家实际支付金额为0（也就是支付未完成）的订单比例，占比约为32.3%
display((dt['订单付款时间']-dt['订单创建时间']).describe())     # 查看订单付款时间相比于订单创建时间的延迟情况，发现最慢的支付延迟了接近1天，而大部分订单在10分钟内就完成了支付
siz = dt.groupby(dt['收货地址']).size()                 # 对收货地址进行分组统计idx_sort = np.argsort(-siz)                            # 对分组统计的结果进行降序排序display(siz[idx_sort].head())                          # 查看降序排序的结果的前5名，发现收货地址选择上海、广东、江苏、浙江、北京的最多siz[idx_sort].tail()                                   # 查看降序排序的结果的最后5名，发现收货地址选择湖北、新疆、宁夏、青海和西藏的最少，其中湖北可能受疫情影响所致


### 建模预处理 ###
# 特征构建
d1 = (dt['订单付款时间']-dt['订单创建时间'])            # 输出订单付款和创建之间的时间差，作为一个新变量d1 = (d1 / np.timedelta64(1, 's')).astype(int)        # 将时间差的格式进行转换，转换为按秒计数，并把格式变为int类型
le_train = LabelEncoder()                             # 使用从sklearn.preprocessing中import的LabelEncoder对分类数据进行编码，以便于后续使用交叉验证建模 le_train.fit(dt['收货地址'].tolist())                  # 对模型进行训练d2 = le_train.transform(dt['收货地址'].tolist())       # 转化数据，作为第2个变量
d3 = np.zeros(dt.shape[0])                            # 构建一个全为0的数组
for i in range(0,dt.shape[0]):    if (dt['总金额'].iloc[i]-dt['买家实际支付金额'].iloc[i]) == dt['退款金额'].iloc[i]:        d3[i] = 1                                     # 生成一个新变量(类别变量)，当买家有支付（无论退不退款）时为1，没有支付时为0（无支付时上述等式不成立，实际支付金额和退款金额均为0），表明支付的情况
dt_use = np.vstack((d1,d2,d3)).T                      # 生成用于建模分析的数据集，np.vstack用于数组的垂直连接   
# 数据集划分
x_train,x_test, y_train, y_test = train_test_split(dt_use[:,0:2],dt_use[:,2:3],test_size=0.25, random_state=0)     # 使用从sklearn.model_selection中import的train_test_split函数进行训练集、测试集的划分
print('训练集的自变量数据的维度',x_train.shape)print('训练集的因变量量数据的维度',x_test.shape)print('测试集的自变量数据的维度',y_train.shape)          print('测试集的因变量数据的维度',y_test.shape)          # 查看数据集划分后的维度情况


### 数据建模 ###
# 初始模型构建
models = {}                                           # 构建一个models集合
models['SVM'] = svm.SVC()                             # 支持向量机模型
models['LDA'] = LinearDiscriminantAnalysis()          # LDA判别模型
models['NB'] = MultinomialNB()                        # 朴素贝叶斯模型
models['KNN'] = KNeighborsClassifier()                # KNN判别模型
models['Detree'] = DecisionTreeClassifier()           # 决策树模型
models['Network'] = MLPClassifier()                   # 神经网络模型
# 模型训练与分析
target_names = ['有支付','没有支付']                   # 生成类别的名称
for key in models:    models[key].fit(x_train,y_train)                  # 模型训练    display(confusion_matrix(y_test,models[key].predict(x_test)))                                               # 对y_test进行预测，输出混淆矩阵    print(classification_report(y_test,models[key].predict(x_test),target_names=target_names))                  # 对y_test进行预测，输出预测的分类评价    print('\n')    # 模型调参（NB模型）
param_grid_nb = {'alpha':[0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0]}    # 设定贝叶斯模型中不同alpha值
model_nb_ty = MultinomialNB()                          # 设定贝叶斯的模型
kfold = KFold(10, 6)                                   # 采用10折交叉验证，初始随机起点为6
grid = GridSearchCV(estimator=model_nb_ty,                     param_grid=param_grid_nb, scoring='neg_mean_squared_error', cv=kfold)         # 设置网格搜索的模型
grid_result = grid.fit(x_train, y_train)               # 利用构建好的模型对数据集进行训练，搜索最优的k值
print('最优：%s 使用%s' % (grid_result.best_score_, grid_result.best_params_))                     # 输出最优的参数情况
nb_model = MultinomialNB(alpha=0)                      # 根据模型调参的结果，重新设定朴素贝叶斯模型
nb_model.fit(x_train,y_train)                          # 模型训练
display(confusion_matrix(y_test,nb_model.predict(x_test)))                                        # 对y_test进行预测，输出混淆矩阵
print(classification_report(y_test,nb_model.predict(x_test),target_names=target_names))           # 对y_test进行预测，输出预测的分类评价，发现并没有什么改进

你可能感兴趣的:(Python数据分析实战 —— 天猫订单数据！)

x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
移动端城市区县二级联动选择功能实现包 good2know
本文还有配套的精品资源，点击获取简介：本项目是一套为移动端设计的jQuery实现方案，用于简化用户在选择城市和区县时的流程。它包括所有必需文件：HTML、JavaScript、CSS及图片资源。通过动态更新下拉菜单选项，实现城市到区县的联动效果，支持数据异步加载。开发者可以轻松集成此功能到移动网站或应用，并可基于需求进行扩展和优化。1.jQuery移动端解决方案概述jQuery技术简介jQuery
（二）SAP Group Reporting (GR) 核心子模块功能及数据流向架构解析
数据如何从子公司流转到合并报表的全过程，即数据采集→合并引擎→报表输出，特别是HANA内存计算如何优化传统ETL瓶颈。SAPGroupReporting(GR)核心模块功能及数据流向的架构解析，涵盖核心组件、数据处理流程和关键集成点，适用于S/4HANA1809+版本：一、核心功能模块概览模块功能关键事务码/FioriApp数据采集(DataCollection)整合子公司财务数据（SAP/非SA
9、汇编语言编程入门：从环境搭建到简单程序实现神经网络酱汇编语言 MEPIS GNU工具链
汇编语言编程入门：从环境搭建到简单程序实现1.数据存储介质问题解决在处理数据存储时，若要使用MEPIS系统，需确保有其可访问的存储介质。目前，MEPIS无法向采用NTFS格式（常用于Windows2000和XP工作站）的硬盘写入数据。不过，若硬盘采用FAT32格式，MEPIS就能进行写入操作。此外，MEPIS还能将文件写入软盘和大多数USB闪存驱动器。若工作站连接到局域网，还可通过FTP协议或挂载
实时数据流计算引擎Flink和Spark剖析程小舰 flink spark 数据库 kafka hadoop
在过去几年，业界的主流流计算引擎大多采用SparkStreaming，随着近两年Flink的快速发展，Flink的使用也越来越广泛。与此同时，Spark针对SparkStreaming的不足，也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点，为流处理场景的选型提供参考。（DLab数据实验室w.x.公众号出品）一.SparkStreamingSparkStreamin
MotionLCM 部署优化踩坑解决bug AI算法网奇 aigc与数字人深度学习宝典文生motion
目录依赖项windowstorchok：渲染黑白图问题解决：humanml3d：sentence-t5-large下载数据：报错：Nomodulenamed'sentence_transformers'继续报错：fromtransformers.integrationsimportCodeCarbonCallback解决方法：推理相关转mesh：module‘matplotlib.cm‘hasno
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
什么是缓存雪崩？缓存击穿？缓存穿透？分别如何解决？什么是缓存预热？ daixin8848 缓存 redis java 开发语言
缓存雪崩：在一个时间段内，有大量的key过期，或者Redis服务宕机，导致大量的请求到达数据库,带来巨大压力-给key设置不同的TTL、利用Redis集群提高服务的高可用性、添加多级缓存、添加降级流策略缓存击穿：给某一个key设置了过期时间，当key过期的时间，恰好这个时间点有大量的并发请求访问这个key，可能会瞬间把数据库压垮-互斥锁：缓存失败时，只允许一个请求去加载数据并更新缓存，其他请求阻塞
JAVA接口机结构解析秃狼 SpringBoot 八股文 Java java 学习
什么是接口机在Java项目中，接口机通常指用于与外部系统进行数据交互的中间层，负责处理请求和响应的转换、协议适配、数据格式转换等任务。接口机的结构我们的接口机的结构分为两个大部分，外部接口机和内部接口机，在业务的调度上也是通过mq来实现的，只要的目的就是为了解耦合和做差异化。在接口机中主要的方法就是定时任务，消息的发送和消费，其他平台调用接口机只能提供外部接口机的方法进行调用，外部接口机可以提供消
Aop +反射实现方法版本动态切换
需求分析在做技术选型的时候一直存在着两个声音，mongo作为数据库比较mysql好，mysql做为该数据比mongo好。当然不同数据库都有有着自己的优势，我们在做技术选型的时候无非就是做到对数据库的扬长避短。mysql最大的优势就是支持事务，事务的五大特性保证的业务可靠性，随之而来的就是事务会产生的问题：脏读、幻读、不可重复度，当然我们也会使用不同的隔离级别来解决。（最典型的业务问题：银行存取钱）
最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
上半年居民消费榜出炉！这个城市的人最能花 BBM优选官方
上半年居民消费榜出炉哪个地方的人最能花钱？国家统计局公布的数据显示上海上半年居民人均可支配收入32612元居民人均消费支出21321元均为全国最高成为最能挣钱也最能花钱的城市1上海人均消费支出全国第一国家统计局公布的31省份居民人均消费支出数据显示，上海、北京、天津上半年居民人均消费支出排名前三。其中，上海上半年居民人均消费支出21321元，位居榜首。上海也是上半年全国仅有的居民人均消费支出突破2
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
基于redis的Zset实现作者的轻量级排名周童學 Java redis 数据库缓存
基于redis的Zset实现轻量级作者排名系统在今天的技术架构中，Redis是一种广泛使用的内存数据存储系统，尤其在需要高效检索和排序的场景中表现优异。在本篇博客中，我们将深入探讨如何使用Redis的有序集合（ZSet）构建一个高效的笔记排行榜系统，并提供相关代码示例和详细的解析。1.功能背景与需求假设我们有一个笔记分享平台，用户可以发布各种笔记，系统需要根据用户发布的笔记数量来生成一个实时更新的
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
营销活动-大转盘無缺520
写在前面最近，首先营销活动工具这块我是再熟悉不过了。曾经做了不下20个活动工具，然后通过监控活动数据反推活动的好坏。文中主要讲解幸运大转盘营销工具一.大转盘定义大转盘是比较常见的营销活动工具，它是通过消费者用户控制【开始/停止】操作获得奖品物品。用户在不知道自己能获得什么奖品的条件下，然后通过抽奖，大概率的获得未知的奖品。类似最近流行的盲盒玩法。二.为什么做大转盘大转盘是最常用的抽奖类的活动工具之
Java 队列 tryxr java 开发语言队列
队列一般用什么哪种结构实现队列的特性数据入队列时一定是从尾部插入吗数据出队列时一定是从头部删除吗队列的基本运算有什么队列支持随机访问吗队列的英文表示什么是队列队列从哪进、从哪出队列的进出顺序队列是用哪种结构实现的Queue和Deque有什么区别Queue接口的方法Queue中的add与offer的区别offer、poll、peek的模拟实现如何利用链表实现队列如何利用顺序表实现队列什么叫做双端队列
分支和循环（下） tryxr 服务器运维
写⼀个猜数字游戏游戏要求：1.电脑⾃动⽣成1~100的随机数2.玩家猜数字，猜数字的过程中，根据猜测数据的⼤⼩给出⼤了或⼩了的反馈，直到猜对，游戏结束1.随机数生成要想完成猜数字游戏，⾸先得产⽣随机数，那怎么产⽣随机数呢？randC语⾔提供了⼀个函数叫rand，这函数是可以⽣成随机数的，函数原型如下所⽰：intrand(void);rand函数会返回⼀个伪随机数，这个随机数的范围是在0~RAND_
5G-RAN与语义通信RAN 一去不复返的通信er 智简网络&语义通信 5G 人工智能语义通信
1️⃣RAN协议栈与TCP/IP五层协议栈的对应关系a.物理层（TCP/IP）↔PHY（RAN）对应关系：5GNRRAN的物理层直接对应TCP/IP的物理层。功能对比：TCP/IP物理层：负责比特流的物理传输，如通过电缆、光纤或无线介质传输信号。RAN物理层：处理无线信号的调制、编码、信道估计和传输（如OFDM、LDPC编码）。在5GNR中，物理层负责将数据映射到无线信道（如PDSCH、PUSCH
第二十二天（数据结构，无头节点的单项链表）肉夹馍不加青椒 c语言数据结构
线性表：一个线性表里面可以是任意的数据元素，但是同一个线性表里面数据应该是同类型的1存在一个/唯一被称为第一个节点的节点2存在一个/唯一被称为最后一个节点的节点3除了第一个以外，每一个元素都有一个前驱节点4除了最后一个，每一个元素都有一个后继节点满足以上性质，这个表就被称为线性表数组就是一个线性表想实现线性表的保存，我们需要考虑下面的事情1元素要保存2元素与元素之间的序偶关系谁是前面的谁是后面的我
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
mysql复习立夏的李子 mysql 数据库 database
mysqlselect语法selectfromjoinwheregroupbyhavingorderbylimit联合查询innerjoin（）leftjoin（以左表为基准，匹配右表，不匹配的返回左表，右表以null值填充）rightjoind··(去除列重复的数据)索引类型主键索引(PrimaryKey)唯一索引(Unique)常规索引(Index)全文索引(FullText)索引准则索引不是
DPDK 技术详解：榨干网络性能的“瑞士军刀”
你是否曾感觉，即使拥有顶级的服务器和万兆网卡，你的网络应用也总是“喂不饱”硬件，性能总差那么一口气？传统的网络处理方式，就像在高速公路上设置了太多的收费站和检查点，限制了数据包的“奔跑”速度。今天，我们要深入探讨一个能够打破这些瓶颈，让你的网络应用快到飞起的“黑科技”——DPDK(DataPlaneDevelopmentKit，数据平面开发套件)。这不仅仅是一个工具包，更是一种全新的网络处理哲学。
Pktgen-DPDK：开源网络测试工具的深度解析与应用艾古力斯
本文还有配套的精品资源，点击获取简介：Pktgen-DPDK是基于DPDK的高性能流量生成工具，适用于网络性能测试、硬件验证及协议栈开发。它支持多种网络协议，能够模拟高吞吐量的数据包发送。本项目通过利用DPDK的高速数据包处理能力，允许用户自定义数据包内容，并实现高效的数据包管理与传输。文章将指导如何安装DPDK、编译Pktgen、配置工具以及使用方法，最终帮助开发者和网络管理员深入理解并优化网络
Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
办公党必备！Excel文件批量加密神器！一键保护你的重要数据阿幸软件杂货间 Excel excel
软件介绍今天推荐的这一款专为Excel文件设计的批量加密工具，能够帮助用户快速、高效地为多个Excel文件设置密码保护，有效防止数据泄露。软件特点本地化离线处理支持批量操作完全免费软件操作选择你需要加密的文件和路径，设置密码进行加密即可软件下载夸克网盘迅雷网盘UC网盘
四月的最后一天喵喵诗茵
今天，是四月的最后一天，在上班，但没啥事需要做，今天一天都没有询盘，好像那些买家知道我们快要放假了，也不愿来打扰我们了，哈哈哈。下午，老大叫我们去会议室聊聊提成的事情，每月目标一千美金，超过一千美金按营业额的3%拿提成，看似不多，但以店铺目前的情况来看，我和另一个同事都觉得非常难。每天不到十个询盘，有时候连五个都没有，五个询盘能成一个订单已经是相当不错的结果了，但一个订单带来的营业额扣除了国际运费
MySQL复习题
一.填空题1.关系数据库的标准语言是SQL。2.数据库发展的3个阶段中，数据独立性最高的是阶段数据库系统。3.概念模型中的3种基本联系分别是一对一、一对多和多对多。4.MySQL配置文件的文件名是my.ini或my.cnf。5.在MySQL配置文件中，datadir用于指定数据库文件的保存目录。6.添加IFNOTEXISTS可在创建的数据库已存在时防止程序报错。7.MySQL提供的SHOWCREA
大模型量化终极对决：FP8 vs AWQ INT4，谁才是性能与精度的王者？曦紫沐大模型人工智能大模型量化 FP8 AWQ_INT4
摘要在大模型部署与优化中，量化技术是突破性能瓶颈的关键。FP8量化与AWQINT4量化作为当前主流方案，分别以“高精度”和“极致压缩”为核心优势。本文通过表格对比二者的数据格式、精度损失、硬件依赖及适用场景，助您在不同需求下精准选择最优方案。一、数据格式：浮点与整数的底层差异FP8量化采用浮点数（FP8），包含E4M3（4位阶码+3位尾数）和E5M2（5位阶码+2位尾数）两种格式，保留动态范围；而
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。