税纪️

2022 钉钉杯数据挖掘A题“银行卡电信欺诈行为分析” Python 源码

2022 钉钉杯数据挖掘A题 Python 源码

注：仅供学习使用，请勿用于商业用途、论文发表、竞赛支撑材料盗取等其他任何用途！！！谢谢

关于数据集可联系竞赛组委会或与本人联系：[email protected]
获取完整源码请与本人联系。

import collections
import tensorflow as tf
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import itertools
import keras

from collections import Counter

from sklearn.manifold import TSNE
from sklearn.decomposition import PCA,TruncatedSVD
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier,plot_tree
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split,GridSearchCV
from sklearn.model_selection import RandomizedSearchCV,cross_val_score
from sklearn.model_selection import KFold,StratifiedKFold
from sklearn.model_selection import train_test_split
from sklearn.model_selection import StratifiedShuffleSplit
from sklearn.pipeline import make_pipeline
from sklearn.metrics import precision_score,recall_score,f1_score
from sklearn.metrics import roc_auc_score,accuracy_score,classification_report
from sklearn.metrics import classification_report,confusion_matrix
from sklearn.metrics import precision_recall_curve
from sklearn.metrics import roc_curve, auc
from sklearn.preprocessing import StandardScaler,RobustScaler

from scipy.stats import norm

from imblearn.pipeline import make_pipeline as imbalanced_make_pipeline
from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import NearMiss
from imblearn.metrics import classification_report_imbalanced

from keras import backend as K
from keras.models import Sequential
from keras.layers import Activation
from keras.layers.core import Dense
from keras.optimizers import adam_v2
from keras.metrics import categorical_crossentropy

# 数据导入
df = pd.read_csv('card_transdata.csv')
df.head()
# 检查缺失项
print('共计有：',df.isnull().sum().max(),'个数据缺失')
# 数据描述性统计
df.describe()
# 欺诈与合法交易占比
number_fraud = len(df[df['fraud']==1])
number_notfraud = number_all - number_fraud
print('总交易笔数：', number_all ,'笔')

print('非诈骗交易笔数：', number_notfraud ,'笔')
print('诈骗交易笔数：', number_fraud ,'笔')
print('非诈骗交易比例：{:.4f}'.format(number_notfraud/number_all*100,),'%')
print('诈骗交易比例：{:.4f}'.format(number_fraud/number_all*100,),'%')
# 类别均衡性分析
sns.countplot('fraud',data = df)
plt.title('type \n(0: not fraud||1: fraud)',fontsize = 14)

# 避免出现过多异常值
# 使用 RobustScaler
std_scaler = StandardScaler()
rob_scaler = RobustScaler()
# 鲁棒性标准化
df['scaled_distance_from_home'] = rob_scaler.fit_transform(df['distance_from_home'].values.reshape(-1,1))
df['scaled_distance_from_last_transaction'] = rob_scaler.fit_transform(df['distance_from_last_transaction'].values.reshape(-1,1))
df['scaled_ratio_to_median_purchase_price'] = rob_scaler.fit_transform(df['ratio_to_median_purchase_price'].values.reshape(-1,1))

df.drop(['distance_from_home','distance_from_last_transaction','ratio_to_median_purchase_price'], axis=1, inplace=True)
print('Successfully using RobustScaler!')
scaled_distance_from_home = df['scaled_distance_from_home']
scaled_distance_from_last_transaction = df['scaled_distance_from_last_transaction']
scaled_ratio_to_median_purchase_price = df['scaled_ratio_to_median_purchase_price']

df.drop(['scaled_distance_from_home','scaled_distance_from_last_transaction','scaled_ratio_to_median_purchase_price'], axis=1, inplace=True)
df.insert(0,'scaled_distance_from_home',scaled_distance_from_home)
df.insert(0,'scaled_distance_from_last_transaction',scaled_distance_from_last_transaction)
df.insert(0,'scaled_ratio_to_median_purchase_price',scaled_ratio_to_median_purchase_price)
# 将鲁棒化后的数据集存放在 “df_after_robust.csv” 中
np.savetxt('df_after_robust.csv', df, delimiter = ',')

print('合法交易占比',round(df['fraud'].value_counts()[0]/len(df)*100,2),'%')
print('欺诈交易占比',round(df['fraud'].value_counts()[1]/len(df)*100,2),'%')
X = df.drop('fraud',axis=1)
y = df['fraud']
# 分层抽样
sss = StratifiedKFold(n_splits=5,random_state=None,shuffle=False)
for train_index, test_index in sss.split(X,y):
    print("Train:",train_index,"Test:",test_index)
    train_index = np.array(train_index)
    test_index = np.array(test_index)
    original_Xtrain, original_Xtest = X.iloc[train_index], X.iloc[test_index]
    original_ytrain, original_ytest = y.iloc[train_index], y.iloc[test_index]
# 转换为数组
original_Xtrain = original_Xtrain.values
original_Xtest = original_Xtest.values
original_ytrain = original_ytrain.values
original_ytest = original_ytest.values
#查看训练标签和测试标签的分布是否相同
train_unique_label,train_counts_label = np.unique(original_ytrain,return_counts=True)
test_unique_label,test_counts_label = np.unique(original_ytest,return_counts=True)
print('-'*100)
print('标签分布比例————\n')
print('训练集：',train_counts_label/len(original_ytrain))
print('测试集：',test_counts_label/len(original_ytest))

# 随机打乱数据行
df = df.sample(frac=1)
# 选择87403个样本
fraud_df = df.loc[df['fraud'] == 1]
not_fraud_df = df.loc[df['fraud'] == 0][:87403]
normal_distributed_df = pd.concat([fraud_df,not_fraud_df])
# 再次打乱数据
new_df = normal_distributed_df.sample(frac=1, random_state=42)
new_df.head()
# 均衡化后的数据保存在 “df_4231.csv” 中
np.savetxt('df_4231.csv', new_df, delimiter = ',')
# 均衡化数据可视化
print('子样本数据集中的类别分布')
print(new_df['fraud'].value_counts()/len(new_df))
sns.countplot('fraud',data = new_df)
plt.title('balance the data size in diff matrix',fontsize = 14)
plt.show()

f, (ax1, ax2) = plt.subplots(2, 1, sharex=True, figsize=(16,10))
# 原数据的关联矩阵
corr = df.corr()
sns.heatmap(corr, cmap='coolwarm_r',annot_kws={'size':20}, ax=ax1)
ax1.set_title('不平衡数据关联矩阵\n(不作为参考)',fontsize=14)
# 经过采样的关联矩阵
sub_sample_corr = new_df.corr()
sns.heatmap(sub_sample_corr, cmap='coolwarm_r',annot_kws={'size':20}, ax=ax2)
ax2.set_title('数据子集关联矩阵\n(参考)',fontsize=14)
plt.show()
# 负相关的特征
f, axes = plt.subplots(ncols=2, figsize=(16,4))
sns.boxplot(x='fraud',y='scaled_distance_from_last_transaction',data=new_df,ax=axes[0])
axes[0].set_title('used_pin_number与交易类型的负相关联性')
# 正相关的特征
f, axes = plt.subplots(ncols=2, figsize=(16,4))
sns.boxplot(x='fraud',y='scaled_ratio_to_median_purchase_price',data=new_df,ax=axes[0])
axes[0].set_title('ratio_to_median_purchase_price与交易类型的负相关联性')
sns.boxplot(x='fraud',y='scaled_distance_from_home',data=new_df,ax=axes[1])
axes[1].set_title('distance_from_home与交易类型的负相关联性')

# 可视化特征分布
f,(ax1,ax2,ax3) = plt.subplots(1,3,figsize=(20,6))
# distance_from_home
distance_from_home_fraud_dist = new_df['scaled_distance_from_home'].loc[new_df['fraud'] == 1].values
ax1.set_xlim([-2,12.5])
sns.distplot(distance_from_home_fraud_dist,ax=ax1,fit=norm,color='#FB8861')
ax1.set_title('distance_from_home 数据分布\n（欺诈交易）',fontsize=14)
# distance_from_last_transaction
distance_from_last_transaction_fraud_dist = new_df['scaled_distance_from_last_transaction'].loc[new_df['fraud'] == 1].values
ax2.set_xlim([-2,5])
sns.distplot(distance_from_last_transaction_fraud_dist,ax=ax2,fit=norm,color='#56F9BB')
ax2.set_title('distance_from_last_transaction 数据分布\n（欺诈交易）',fontsize=14)
# ratio_to_median_purchase_price
ratio_to_median_purchase_price_fraud_dist = new_df['scaled_ratio_to_median_purchase_price'].loc[new_df['fraud'] == 1].values
ax3.set_xlim([-2,8])

sns.distplot(ratio_to_median_purchase_price_fraud_dist,ax=ax3,fit=norm,color='#C5B3F9')
ax3.set_title('ratio_to_median_purchase_price 数据分布\n（欺诈交易）',fontsize=14)
plt.show()
# 移除离群值
distance_from_home_fraud = new_df['scaled_distance_from_home'].loc[new_df['fraud'] == 1].values
# 计算25%和75%处的2值，得出iqr
q25,q75 = np.percentile(distance_from_home_fraud,25),np.percentile(distance_from_home_fraud,75)
print('25% 四分位数：{} | 75% 四分位数：{}'.format(q25,q75))
distance_from_home_iqr = q75-q25
print('IQR:{}'.format(distance_from_home_iqr))
# 设置 iqrx1.5作为四分位上阈值和下阈值
distance_from_home_cut_off = distance_from_home_iqr * 1.5
distance_from_home_lower,distance_from_home_upper = q25 - distance_from_home_cut_off,q75 + distance_from_home_cut_off
print('范围：{}'.format(distance_from_home_cut_off))
print('distance_from_home下阈值：{}'.format(distance_from_home_lower))
print('distance_from_home上阈值：{}'.format(distance_from_home_upper))
# 找到超出阈值的点
outliers = [x for x in distance_from_home_fraud if x < distance_from_home_lower or x > distance_from_home_upper]
# print('distance_from_home 离群值：{}'.format(outliers))
print('欺诈交易中 distance_from_home 的离群值数量：{}'.format(len(outliers)))
# 剔除异常点
new_df = new_df.drop(new_df[(new_df['scaled_distance_from_home'] > distance_from_home_upper) | (new_df['scaled_distance_from_home'] < distance_from_home_lower)].index)
print('离群值移除后的样本数：{}'.format(len(new_df)))
print('----' * 44)
# 剔除 distance_from_last_transaction 异常点
distance_from_last_transaction_fraud = new_df['scaled_distance_from_last_transaction'].loc[new_df['fraud'] == 1].values
q25,q75 = np.percentile(distance_from_last_transaction_fraud,25),np.percentile(distance_from_last_transaction_fraud,75)
distance_from_last_transaction_iqr = q75-q25
distance_from_last_transaction_cut_off = distance_from_last_transaction_iqr * 1.5
distance_from_last_transaction_lower,distance_from_last_transaction_upper = q25 - distance_from_last_transaction_cut_off,q75 + distance_from_last_transaction_cut_off
print('distance_from_last_transaction 下阈值：{}'.format(distance_from_last_transaction_lower))
print('distance_from_last_transaction 上阈值：{}'.format(distance_from_last_transaction_upper))
outliers = [x for x in distance_from_last_transaction_fraud if x < distance_from_last_transaction_lower or x > distance_from_last_transaction_upper]
# print('distance_from_last_transaction 离群值：{}'.format(outliers))
print('欺诈交易中 distance_from_last_transaction 的离群值数量：{}'.format(len(outliers)))
new_df = new_df.drop(new_df[(new_df['scaled_distance_from_last_transaction'] > distance_from_last_transaction_upper) | (new_df['scaled_distance_from_last_transaction'] < distance_from_last_transaction_lower)].index)
print('离群值移除后的样本数：{}'.format(len(new_df)))
print('----' * 44)
# 剔除 ratio_to_median_purchase_price 异常点
ratio_to_median_purchase_price_fraud = new_df['scaled_ratio_to_median_purchase_price'].loc[new_df['fraud'] == 1].values
q25,q75 = np.percentile(ratio_to_median_purchase_price_fraud,25),np.percentile(ratio_to_median_purchase_price_fraud,75)
ratio_to_median_purchase_price_iqr = q75-q25
ratio_to_median_purchase_price_cut_off = ratio_to_median_purchase_price_iqr * 1.5
ratio_to_median_purchase_price_lower,ratio_to_median_purchase_price_upper = q25 - ratio_to_median_purchase_price_cut_off,q75 + ratio_to_median_purchase_price_cut_off
print('ratio_to_median_purchase_price 下阈值：{}'.format(ratio_to_median_purchase_price_lower))
print('ratio_to_median_purchase_price 上阈值：{}'.format(ratio_to_median_purchase_price_upper))
outliers = [x for x in ratio_to_median_purchase_price_fraud if x < ratio_to_median_purchase_price_lower or x > ratio_to_median_purchase_price_upper]

# print('ratio_to_median_purchase_price 离群值：{}'.format(outliers))
print('欺诈交易中 ratio_to_median_purchase_price 的离群值数量：{}'.format(len(outliers)))
new_df = new_df.drop(new_df[(new_df['scaled_ratio_to_median_purchase_price'] > ratio_to_median_purchase_price_upper) | (new_df['scaled_ratio_to_median_purchase_price'] < ratio_to_median_purchase_price_lower)].index)
print('离群值移除后的样本数：{}'.format(len(new_df)))
print('----' * 44)
# 绘制箱型图
f,(ax1,ax2,ax3) = plt.subplots(1,3,figsize=(20,6))
# distance_from_home
sns.boxplot(x='fraud',y='scaled_distance_from_home',data=new_df,ax=ax1)
ax1.set_title('distance_from_home 特征\n离群值移除',fontsize=14)
ax1.annotate('降低极端\n离群值数量',xy=(0.98,-17.5),xytext=(0,-12),arrowprops=dict(facecolor='black'),fontsize=14)
# distance_from_last_transaction
sns.boxplot(x='fraud',y='scaled_distance_from_last_transaction',data=new_df,ax=ax2)
ax2.set_title('distance_from_last_transaction 特征\n离群值移除',fontsize=14)
ax2.annotate('降低极端\n离群值数量',xy=(0.98,-17.3),xytext=(0,-12),arrowprops=dict(facecolor='black'),fontsize=14)
# ratio_to_median_purchase_price
sns.boxplot(x='fraud',y='scaled_ratio_to_median_purchase_price',data=new_df,ax=ax3)
ax3.set_title('ratio_to_median_purchase_price 特征\n离群值移除',fontsize=14)
ax3.annotate('降低极端\n离群值数量',xy=(0.98,-14.3),xytext=(0,-12),arrowprops=dict(facecolor='black'),fontsize=14)
plt.show()

new_df.head()
print(new_df.shape)
# 定义特征和标签
X = new_df.drop('fraud',axis=1)
y = new_df['fraud']
# 切分数据集
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.1,random_state=42)
# 采用 NumPy Array 的格式输入 sklearn 模型训练-数据转换
X_train = X_train.values
X_test = X_test.values
y_train = y_train.values
y_test = y_test.values

# 将上述四个分类器归入列表中，分别调用 sklearn 模型函数
classifiers = {
    '逻辑回归':LogisticRegression(),
    'K 近邻':KNeighborsClassifier(),
    '支持向量机':SVC(),
    '决策树':DecisionTreeClassifier()
    }
# 遍历classifiers，提取每个分类器进行训练
for key,classifier in classifiers.items():
    classifier.fit(X_train,y_train)
    training_score = cross_val_score(classifier,X_train,y_train,cv=5)
    print('分类器',classifier.__class__.__name__,'准确率',round(training_score.mean(),2)*100,'%')

# 分类器参数调优
# 逻辑回归-用时：6s
log_reg_params = {"penalty":["l1","l2"],"C":[0.001,0.01,0.1,1,10,100,1000]}
# 不指定 CV 值，默认为 5 折交叉验证

grid_log_reg = GridSearchCV(LogisticRegression(),log_reg_params)
grid_log_reg.fit(X_train,y_train)
log_reg = grid_log_reg.best_estimator_
# k 近邻-用时：2m 35.9s
knears_params = {"n_neighbors":list(range(2,5,1)),"algorithm":["auto","ball_tree","kd_tree","brute"]}
grid_knears = GridSearchCV(KNeighborsClassifier(),knears_params)
grid_knears.fit(X_train,y_train)
knears_neighbors = grid_knears.best_estimator_
# 支持向量机-用时：80m 16.3s
svc_params = {"C":[0.5,0.7,0.9,1],"kernel":["rbf","poly","sigmoid","linear"]}
grid_svc = GridSearchCV(SVC(),svc_params)
grid_svc.fit(X_train,y_train)
svc = grid_svc.best_estimator_
# 决策树-用时：1m 25.1s
tree_params = {"criterion":["gini","entropy"],"max_depth":list(range(2,4,1)),"min_samples_leaf":list(range(5,7,1))}
grid_tree = GridSearchCV(DecisionTreeClassifier(),tree_params)
grid_tree.fit(X_train,y_train)
tree_clf = grid_tree.best_estimator_
# 绘制训练决策树，实例化
clf = DecisionTreeClassifier()
plt.rcParams["font.sans-serif"]=["SimHei"] #设置字体
# 决策树的输出窗口大小
plt.figure(figsize=(40,20))
# 提供训练集来绘制
clf = clf.fit(X_train, y_train)
plot_tree(clf, filled=True)
plt.title("使用训练集训练决策树",fontsize=30)
plt.show()
# 输出交叉验证 cross_val_score 得分与经典模型的得分对比
log_reg_score = cross_val_score(log_reg,X_train,y_train,cv=5)
print('逻辑回归 交叉验证得分：',round(log_reg_score.mean()*100,2).astype(str)+'%')
knears_score = cross_val_score(knears_neighbors,X_train,y_train,cv=5)
print('k 近邻 交叉验证得分：',round(knears_score.mean()*100,2).astype(str)+'%')
svc_score = cross_val_score(svc,X_train,y_train,cv=5)
print('支持向量机 交叉验证得分：',round(svc_score.mean()*100,2).astype(str)+'%')
tree_score = cross_val_score(tree_clf,X_train,y_train,cv=5)
print('决策树 交叉验证得分：',round(tree_score.mean()*100,2).astype(str)+'%')

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据中台中的数据科学工作台：Jupyter集成方案 AI大数据智能洞察大数据与AI人工智能 jupyter 信息可视化 ide ai
数据中台中的数据科学工作台：Jupyter集成方案关键词：数据中台、数据科学工作台、JupyterNotebook、数据科学、机器学习、数据可视化、协作开发摘要：本文深入探讨了在数据中台架构中集成JupyterNotebook作为数据科学工作台的完整解决方案。我们将从数据中台的基本概念出发，详细分析Jupyter在数据科学工作流中的核心作用，介绍多种集成方案和技术实现细节，并通过实际案例展示如何构
lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
Jupyter Notebook：数据科学的“瑞士军刀” a小胡哦机器学习基础人工智能机器学习
在数据科学的世界里，JupyterNotebook是一个不可或缺的工具，它就像是数据科学家手中的“瑞士军刀”，功能强大且灵活多变。今天，就让我们一起深入了解这个神奇的工具。一、JupyterNotebook是什么？JupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它支持多种编程语言，其中Python是最常用的语言之一。Jupy
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
Django学习笔记（一）
学习视频为：pythondjangoweb框架开发入门全套视频教程一、安装pipinstalldjango==****检查是否安装成功django.get_version()二、django新建项目操作1、新建一个项目django-adminstartprojectproject_name2、新建APPcdproject_namedjango-adminstartappApp注：一个project
Python 程序设计讲义（26）：字符串的用法——字符的编码睿思达DBA_WGX Python 讲义 python 开发语言
Python程序设计讲义（26）：字符串的用法——字符的编码目录Python程序设计讲义（26）：字符串的用法——字符的编码一、字符的编码二、`ASCII`编码三、`Unicode`编码四、使用`ord()`函数查询一个字符对应的`Unicode`编码五、使用`chr()`函数查询一个`Unicode`编码对应的字符六、`Python`字符串的特征一、字符的编码计算机默认只能处理二进制数，而不能处
【Python】pypinyin-汉字拼音转换工具鸟哥大大 Python python 自然语言处理
文章目录1.主要功能2.安装3.常用API3.1拼音风格3.2核心API3.2.1pypinyin.pinyin()3.2.2pypinyin.lazy_pinyin()3.2.3pypinyin.load_single_dict()3.2.4pypinyin.load_phrases_dict()3.2.5pypinyin.slug()3.3注册新的拼音风格4.基本用法4.1库导入4.2基本汉字
python编程第十四课：数据可视化小小源助手 Python代码实例信息可视化 python 开发语言
Python数据可视化：让数据“开口说话”在当今数据爆炸的时代，数据可视化已成为探索数据规律、传达数据信息的关键技术。Python凭借其丰富的第三方库，为数据可视化提供了强大而灵活的解决方案。本文将带你深入了解Matplotlib库的基础绘图、Seaborn库的高级可视化以及交互式可视化工具Plotly，帮助你通过图表清晰地展示数据背后的故事。一、Matplotlib库基础绘图Matplotlib
Python数据可视化：用代码绘制数据背后的故事 AAEllisonPang Python 信息可视化 python 开发语言
引言：当数据会说话在数据爆炸的时代，可视化是解锁数据价值的金钥匙。Python凭借其丰富的可视化生态库，已成为数据科学家的首选工具。本文将带您从基础到高级，探索如何用Python将冰冷数字转化为引人入胜的视觉叙事。一、基础篇：二维可视化的艺术表达1.1Matplotlib：可视化领域的瑞士军刀importmatplotlib.pyplotaspltimportnumpyasnpx=np.linsp
python学习笔记（汇总）朕的剑还未配妥 python学习笔记整理 python 学习开发语言
文章目录一.基础知识二.python中的数据类型三.运算符四.程序的控制结构五.列表六.字典七.元组八.集合九.字符串十.函数十一.解决bug一.基础知识print函数字符串要加引号，数字可不加引号，如print(123.4)print('小谢')print("洛天依")还可输入表达式，如print(1+3)如果使用三引号，print打印的内容可不在同一行print("line1line2line
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
PDF转Markdown - Python 实现方案与代码 Eiceblue Python Python PDF pdf python 开发语言 vscode
PDF作为广泛使用的文档格式，转换为轻量级标记语言Markdown后，可无缝集成到技术文档、博客平台和版本控制系统中，提高内容的可编辑性和可访问性。本文将详细介绍如何使用国产Spire.PDFforPython库将PDF文档转换为Markdown格式。技术优势：精准保留原始文档结构（段落/列表/表格）完整提取文本和图像内容无需Adobe依赖的纯Python实现支持Linux/Windows/mac
使用Python和Gradio构建实时数据可视化工具 PythonAI编程架构实战家信息可视化 python 开发语言 ai
使用Python和Gradio构建实时数据可视化工具关键词：Python、Gradio、数据可视化、实时数据、Web应用、交互式界面、数据科学摘要：本文将详细介绍如何使用Python和Gradio框架构建一个实时数据可视化工具。我们将从基础概念开始，逐步深入到核心算法实现，包括数据处理、可视化技术以及Gradio的交互式界面设计。通过实际项目案例，读者将学习如何创建一个功能完整、响应迅速的实时数据
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
数据可视化：数据世界的直观呈现卢政权1 信息可视化数据分析数据挖掘
在当今数字化浪潮中，数据呈爆炸式增长。数据可视化作为一种强大的技术手段，能够将复杂的数据转化为直观的图形、图表等形式，让数据背后的信息一目了然。无论是在商业决策、科学研究还是日常数据分析中，数据可视化都发挥着极为重要的作用。它帮助我们快速理解数据的分布、趋势、关联等特征，从而为进一步的分析和行动提供有力支持。接下来，我们将深入探讨数据可视化的奥秘，并通过代码示例展示其实际应用。一、Python数据
Python 程序设计讲义（25）：循环结构——嵌套循环
Python程序设计讲义（25）：循环结构——嵌套循环目录Python程序设计讲义（25）：循环结构——嵌套循环一、嵌套循环的执行流程二、嵌套循环对应的几种情况1、内循环和外循环互不影响2、外循环迭代影响内循环的条件3、外循环迭代影响内循环的循环体嵌套循环是指在一个循环体中嵌套另一个循环。while循环中可以嵌入另一个while循环或for循环。反之，也可以在for循环中嵌入另一个for循环或wh
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag

2022 钉钉杯数据挖掘A题“银行卡电信欺诈行为分析” Python 源码

2022 钉钉杯数据挖掘A题 Python 源码

注：仅供学习使用，请勿用于商业用途、论文发表、竞赛支撑材料盗取等其他任何用途！！！谢谢

你可能感兴趣的:(机器学习,竞赛,python,数据挖掘,机器学习)