一銤阳光

机器学习算法竞赛实战-学习总结

本文为《机器学习算法竞赛实战》by 王贺、刘鹏、钱乾一书的学习手记。
仅以此书来入门Kaggle等机器学习竞赛，学习Kaggle竞赛题该如何做，具体问题该如何用机器学习的方法来解决。

背景

机器学习在大多数时候只是数学统计，数据相关的特征工程直接决定了模型的上限，而算法只是不断地逼近这个上限而已。

竞赛的介绍

竞赛平台

Kaggle

Kaggle是全世界最受欢迎的数据科学竞赛网站
主要包含 Competitions(竞赛)、Datasets(数据)、Code(代码笔记)、Discussion(社区论坛)、Learn(在线课程)几个部分。
当然最主要的竞赛部分，每一个竞赛主要包含 Overview、Data、Code、Discussion、Leaderboard、Rules几个部分。
- Overview主要介绍竞赛的概况，包含基本的描述，评价标准、奖项和时间线
- Data 数据通常是CSV格式的宽表数据，包含数据的来源，以及各个字段的含义
- Code 这正是竞赛的开源社区精神所在，在这里可以看到各种数据探索、特征工程、建模方法的实现方式，也可以将各种建模方法进行融合，博采众长。
- Discussion 讨论区和代码笔记略有不同，这里很少有代码，是参赛者真正交流的地方，有很多各种QA和对赛事的理解、发现。在这里可以见到各种Master和Grandmaster的身影。
- LeaderBoard 用于展示排行榜，所有成功提交过的文件，都可以在这里找到位置，榜单实时刷新。通常分为Public Leaderboard 和 Private Leaderboard. 通常只有公开榜可以反复验证，最后只有两次机会选择用于计算B榜的结果文件，最终排名以B榜为准。这里也体现了机器学习重要的一点，就是注重模型的泛化性，只有健壮性强的模型才能在未来预测中始终保持良好的效果。
- Rules, 竞赛的规则，是对overview部分更加详细的补充，通常需要注意几个时间点，比如Ab榜开放时间，B榜切换时间，队伍人数，提交次数的限制等等。

天池

打造国际高端算法竞赛，让选手用算法解决社会或业务问题，一般实战性和应用性较强。

其他算法竞赛

DF （DataFunction） CCF指定的专业大数据及人工智能竞赛平台
DC (DataCastle) 数据城堡，与Kaggle、天池比较类似
Kesci 和鲸社区侧重高校计算机大赛
JDATA 京东智汇平台，主要涉及一些电商和物流
企业网站的竞赛比如腾讯、华为等

竞赛流程

要参加一次数据科学的竞赛，或者要用数据科学解决一个问题，通常有如下几步：

问题建模 --> 数据探索 --> 特征工程 --> 问题建模 --> 模型训练 --> 模型融合

问题建模

问题建模，就是要审题并理解题目。机器学习的问题建模中，并不是所有数据都是特征加标签这种可以直接加入模型训练的形式，很多时候需要分析数据，进而抽象出建模目标和方案。

数据探索

数据探索是机器学习最重要的概念之一，也被称为EDA(Exploratory Data Analysis)探索性数据分析，在知道问题的建模方式之后，需要结合赛题背景业务看看数据长什么样子、数据是否和描述相符、数据包含哪些信息、数据的质量等。首先要对数据有一个清晰的认知，比如表中每个字段的含义、范围和数据结构等，然后更深层次要结合标签分析特征的分布、训练集和测试集的同分布情况。特征之间的业务关联以及隐含信息表征等。
数据探索承上启下，能够更好的理解问题建模，也能为接下来特征工作做准备

特征工程

特征工程（Feature Engineering）也是机器学习重要概念，机器学习大多数是在进行特征工程，特征决定了机器学习预测效果的上限，而算法只是不断去逼近这个上限而已。

模型训练

根据问题建好模型，根据业务理解进行了相关的数据探索，继而逐步完善特征工程，就可以得到标准的训练集和测试集结构。机器学习训练，一般使用GDBT类的树模型，常见的树模型主要有XGBoost、LightGBD，而且都有scikit-learn接口，比较方便使用。有时也会用到LR、SVM、RF等算法，有时候会用到DNN、CNN、RNN等深度学习模型等

模型融合

经过前期繁琐艰辛的尝试之后，终于到了模型融合(寻找队友)的阶段了，每种算法都有其自身的优势和局限性，综合各个算法的优势可以使得模型效果更好。
模型融合有许多办法，诸如Stacking、加权投票等。

问题建模

数据理解

数据基础层

数据基础层：重点关注每个字段的来源、生产过程、取数逻辑、计算逻辑等。
由于原始数据的质量良萎不齐、数据的类型存储形式多种多样，需要正确的理解、选取并使用每个字段，从而加工计算出所需要的更多衍生的字段，最终以数据表格呈现。

数据描述层

数据描述层主要是在处理好的数据基础层上进行统计分析和概况描述，重点关注一些简单的统计量，（均值、方差、最值、分布、增幅、趋势等）
通过统计指标，概况数据的情况

评价指标

分类指标

错误率 & 精度
- 错误率：分类结果错误的样本，占样本总数的比例
- 精度：分类结果正确的样本，占样本总数的比例
准确率 & 召回率
- 准确率：Precision = TP / (TP + FP) 被分类器判定为正样本中真正正样本所占的比重（即分类器判定的正样本，有多少是真正的正样本）
- 召回率： Recall = TP / (TP + FN) 被分类器判定为正样本占总的正样本的比重（即所有正类样本中有多少被分类器判定为正样本）
F1-score 准确率和召回率的调和平均 F1-score = 2 * (P * R) / (P + R) 最大值是1，最小值是0
ROC曲线：用于绘制不同分类阈值时的TP率和FP率。降低分类阈值会导致更多样本被归为正类样本。
AUC ：表示ROC曲线下的面积，因为ROC曲线通常处于y = x上方，所有AUC取值范围在0.5~1.0之间。很多时候ROC曲线并不能清晰说明那个分类器效果更好，而AUC作为一个数值，其值越大，代表分类器效果越好。
对数损失：对数损失通过惩罚错误的分类来实现对分类器准确度的量化，最小化对数损失等价于最大化分类器的准确度。为了计算对数损失，分类器必须提供概率结果，即把输入样本喂入模型后，预测得到每个类别的概率，而不只是预测最可能的类别

回归指标

平均绝对误差(MAE Mean Absoult Error) 也称为L1范数损失。平均绝对误差能够解决残差和的正负抵消问题，能较好的衡量回归模型的好坏，但是绝对值的存在导致函数不光滑，某些点上不能求导。
均方误差 (MSE Mean Squared Error) L2范数
均方根误差 （RMSE）由于均方值误差与数据标签的量纲不一致，通常需要对均方误差进行开方
平均绝对百分比误差 MAPE 不同于平均绝对误差，不仅考虑了预测值与真实值的误差，还考虑了误差与真实值之间的比例。

平均绝对误差 & 均方误差有何区别：

均方误差对误差取了平方，若误差大于1，则均方误差会进一步增大误差，因此相对于平均绝对误差计算损失，均方误差会赋予异常点更大的权重，即均方误差对异常值更加敏感。

平方绝对误差，因为平衡误差的正负，取了绝对值，导致函数不光滑，不是二阶连续可微函数。所以需要使用可导的目标函数来逼近平均绝对误差，而MES又会随着损失函数的减小而减小，随损失函数的增大而增大。因此大家在训练时，通常选择Huber损失进行替换，它会由于梯度的减小而落在最小值附近。因此Huber损失函数结合了平均绝对误差和均方误差的优点。

但是Huber损失函数需要不断调整超参数delta

样本处理

样本数据的选择，会对预测结果造成很大的影响
比如常见的问题有：

数据集过大，影响模型的性能 – >一般需要降采样或者分场景
噪声和异常数据导致准确率不高 -->噪声具有双面性
- 先考虑是否采集错误导致的，然后再去权衡模型的泛化性和模型的当前效果
- 一方面噪声导致数据质量变低，影响模型效果
- 另一方面通过在训练集中引入噪声使得模型更加健壮
样本数据冗余或不相关数据没有给模型带来收益
- 数据冗余侧重描述数据特征的冗余，一个典型的解决方案是进行特征选择
正负样本不均衡导致数据存在倾斜

数据采样的方法

数据采样就是模拟随机现象，根据给定的概率分布去模拟一个随机事件
采样是用少量的样本去近似整体的分布，并刻画总体分布中的不确定性

如果拿到数据发现数据集过大以及样本不均衡该如何处理？
在数据量非常大的情况下，为了降低成本，如何提高模型训练速度：

简单随机抽样，通常分为有放回和无放回两种
分层采样：先将数据集分成不同的子集(类别/层)，然后对每个类别分别进行随机抽样

针对正负样本不均衡的场景，如何通过数据采样解决这类问题：

评分加权处理：对于像欺诈交易识别、垃圾邮件识别等，其正负样本的数量分布差距极大
- 考虑到正样本的重要性高于负样本，在模型训练以及评价时，可以设计相应的得分权重，使得模型能够学习到获得关注的部分。
- 当然不同的应用场景可以选择不同的加权方式，比如Micro Fscore、Wighted Fscore指标等
欠采样：（下采样）从数据较多的一类样本中随机选取一部分剔除，常用的方式又随机欠采样和Tomek Links
过采样：（上采样）主要对于样本较少的类别进行重新组合，构造新样本。常用的方法有随机过采样和SMOTE算法。

数据的线下评估

通常对于竞赛的数据集不能都用于训练，这回导致没有数据对模型进行线下验证。通常会将数据集分成训练集和验证集。

强时序问题：通常把数据集中最接近测试集的数据作为验证集
弱时序问题：最常用的方式是K折交叉验证，具体做法就是将数据集切分K分，用其中一个作为测试集，其他数据作为训练集，并重复K次，最后对得到的K个评价结果合并，比如求平均或者投票

问题建模小示例

House Prices - Advanced Regression Techniques

import numpy as np
import pandas as pd
from sklearn.model_selection import KFold
from sklearn.metrics import mean_squared_error #MSE
from sklearn.preprocessing import OneHotEncoder

# LightGBM（Light Gradient Boosting Machine）是一款基于决策树算法的分布式梯度提升框架
import lightgbm as lgb

# 导入数据集
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')
train.describe()

# 对数据进行基本处理
all_data = pd.concat((train,test))
all_data = pd.get_dummies(all_data)
# 填充缺失值
all_data = all_data.fillna(all_data.mean())
# 数据切分
X_train = all_data[:train.shape[0]]
X_test = all_data[train.shape[0]:]
y = train.SalePrice

# KFold k折交叉验证
# n_splits k折交叉验证
# shuffle 是否每次生成数据集时进行洗牌
# random_state 仅当洗牌时有用，random_state数值相同时，生成的数据集一致
folds = KFold(n_splits=5, shuffle=True, random_state=2022)

# lightgbm 模型参数
params = {'num_leaves': 63,
          'min_child_samples': 50,
          'objective': 'regression',
          'learning_rate': 0.01,
          'boosting_type': 'gbdt',
          'metric': 'rmse',
          'verbose': -1,
         } 
for trn_idx, val_idx in folds.split(X_train, y):
    trn_df, trn_label = X_train.iloc[trn_idx, :], y[trn_idx]
    val_df, val_label = X_train.iloc[val_idx, :], y[val_idx]
    dtrn = lgb.Dataset(trn_df, label = trn_label)
    dval = lgb.Dataset(val_df, label = val_label) 
    
    bst = lgb.train(params,dtrn, 
                    num_boost_round=1000,
                    valid_sets=[dtrn, dval],
                    early_stopping_rounds=100, verbose_eval=100)

数据探索

数据初探

数据初探指前期的数据探索，主要是分析思路、分析方法和明确目标，加深对于数据的理解。要将数据探索的目的具象化。

了解数据集的基本情况：数据集有多大，各个字段是什么类型
重复值、缺省值、异常值：去除重复值、缺省值是否有特殊含义，如何发现异常值
特征之间是否冗余：通过特征之间的相似性来找出冗余特征
是否存在时间信息：当存在时间信息，需要进行相关性、趋势性、周期性和异常点的分析
标签分布：对于分类问题，是否存在类别分布不均衡；对于回归问题，是否存在异常值，整体分布如何，是否需要目标转换
训练集与测试集的分布：是否存在很多测试集中的特征字段在训练集中没有
单变量 / 多变量分布：熟悉特征分布情况，以及特征和标签的关系

# 统计每一列特征的唯一值和缺省值
stats = []
for col in train.columns:
    stats.append((col, train[col].nunique(), train[col].isnull().sum() * 100 / train.shape[0], train[col].value_counts(normalize=True, dropna=False).values[0] * 100, train[col].dtype))
stats_df = pd.DataFrame(stats, columns=['Feature', 'Unique_values', 'Percentage of missing values', 'Percentage of values in the biggest category', 'type'])
stats_df.sort_values('Percentage of missing values', ascending=False)[:10]

missing = train.isnull().sum()
missing = missing[missing > 0]
missing.sort_values(inplace=True)
missing.plot.bar()
plt.show()

变量分析

单变量分析

- 对于回归问题，标签值是最重要的变量，首先应该观察标签的分布情况

train['SalePrice'].describe() #查看标签数据基本统计分布

import seaborn as sns
plt.figure(figsize=(9, 8))
sns.distplot(train['SalePrice'], color='g', bins=100, hist_kws={'alpha': 0.4})
sns.distplot(np.log(train['SalePrice']), color='b', bins=100, hist_kws={'alpha': 0.4})
plt.show()

这里SalePrice为标签值，从图中可以看出呈偏离的正态分布，右倾斜类型，有些异常值在500 000 以上，需要最终去掉这些异常值。通过对数转换后，进行数据展示


- 单变量的特征变量的频率分布

df_num = train.select_dtypes(include = ['float64', 'int64'])
# df_num = df_num[df_num.columns.tolist()[1:5]]
df_num.hist(figsize=(16, 20), bins=50, xlabelsize=8, ylabelsize=8)
plt.show()

相似性矩阵：分析特征变量的相关性
正相关：一个变量增加导致另一个变量增加，值为1则表示完全正相关，那么可以去掉一个多于的
负相关：一个变量增加导致另一个变量减少，值为-1则表示完全负相关

图中可以看出，OverllQual(总评)、GarageCars车库、TotalBsmtSF地下室面积、GrLivArea生活面积与房价呈正相关

类别型：对于非数值类型，可以可视化每个属性的频次

import seaborn as sns
df_not_num = train.select_dtypes(include = ['O'])
fig, axes = plt.subplots(round(len(df_not_num.columns) / 3), 3, figsize=(12, 30))

for i, ax in enumerate(fig.axes):
    if i < len(df_not_num.columns):
        ax.set_xticklabels(ax.xaxis.get_majorticklabels(), rotation=45)
        sns.countplot(x=df_not_num.columns[i], alpha=0.7, data=df_not_num, ax=ax)

fig.tight_layout()
plt.show()

多变量分析

多变量分析：分析特征变量与特征变量之间的关系，有助于构建更好的特征，同时降低构建冗余特征的概率。

# 不同房屋位置的评价分布条状图
plt.style.use('seaborn-white')
type_cluster = train.groupby(['Neighborhood','OverallQual']).size()
type_cluster.unstack().plot(kind='bar',stacked=True, colormap= 'PuBu', figsize=(13,11),  grid=False)
plt.xlabel('OverallQual', fontsize=16)
# plt.show()

# 不同房屋位置，对应的房价箱型图
import seaborn as sns
var = 'Neighborhood'
data = pd.concat([train['SalePrice'], train[var]], axis=1)
f, ax = plt.subplots(figsize=(26, 12))
fig = sns.boxplot(x=var, y="SalePrice", data=data)
plt.show()

模型学习曲线分析

学习曲线能够反映训练集和验证集在训练迭代中分数变化情况，帮助我们了解模型的学习效果，观测模型是否过拟合，通过判断拟合程度来确定如何改进模型。
模型随着训练迭代，评估学习的指标可能最大化（分类准确率）或者最小化（回归误差），这也意味着指标分数的高低，表示学习到的信息多少。

欠拟合学习曲线

欠拟合曲线可能是一条平坦的线，或者相对较高的Loss,表明模型无法学习训练集

左图表明模型的拟合能力不够
右图表明需要进一步训练来降低Loss

过拟合学习曲线

过拟合是指模型对训练集学习得很好，包括统计噪声或训练集中的随机波动。导致模型对训练数据的专业化程度越高，对新数据的泛化能力就越差。
如果模型的容量超出了问题所需的容量，而灵活性又过多，则经常发生这种情况；或者模型训练时间过长，也会发生这种情况。

左图是过拟合曲线，验证集loss曲线减少到一个点时又开始增加，训练集的loss却在不停地减少。
右图时一个正常的学习曲线，训练集和验证集都可以降低到稳定点，并且两个最终loss值差距很小，从而可以确定拟合程度良好。

特征重要性分析

通过模型训练可以得到特征重要性。
对于树模型(LightGBM 和 XGBoost), 通过计算特征的信息增益或分裂次数，得到特征的重要性得分
对于LR和SVM，则是使用特征系数作为特征的重要性得分。在LR中，每个特征对应一个特征系数w，w越大，那么该特征对模型预测结果的影响就越大。
通过特征重要性分析也可以用于业务理解，有些奇怪的指标在模型中起着关键作用，可以帮助我们更好地理解业务。同时有些特征反常规，也可以看出是不是就是它们过拟合了。

误差分析

误差分析是通过模型预测结果来发现问题，分析造成误差的可能因素，修正训练数据和模型
在回归问题中，看预测结果的分布
在分类问题中，开混淆矩阵等

特征工程

特征工程介于数据和算法之间，是将原始数据转化为特征，进而能够从各种各样新的维度来对样本进行刻画
特征可以更好的向预测模型描述潜在问题，从而提高模型对预测的准确性，高质量的特征有助于提升模型的泛化性能。
在机器学习竞赛中，80%的时间和精力都用来搭建特征工程上。

特征工程通常可分为四个步骤：

数据预处理
特征变换
特征提取
特征选择

数据预处理

如果原始数据质量不高，需要对数据进行预处理，从而得到标准的、干净的、连续的数据
对于缺失值也需要处理，是填补均值还是中位数等

缺省值处理

缺省值常常表现为 None NA NaN -1等
对于类别特征：可以选择最常见的一类填充，即众数
对于数值特征：可以根据情况填充平均数、中位数、
对于有序数据：用前一帧或者后一帧填充
模型预测填充：用模型预测结果填充缺省值

异常值处理

通过散点图，发现明显偏离的异常值
通过四分位数间距，极差、均差、标准差等发现异常值
对异常值，直接删除、或者视为缺失值、或者用平均值修正、或者保留不处理

内存优化

因为加载数据，可能因为内存不足导致 memory error

python 内存回收机制
数值类型优化

特征变换

特征提取

特征选择

x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
三菱PLC全套学习资料及应用手册 good2know
本文还有配套的精品资源，点击获取简介：三菱PLC作为工业自动化领域的核心设备，其系列产品的学习和应用需要全面深入的知识。本次资料包为学习者提供从基础到进阶的全方位学习资源，包括各种型号PLC的操作手册、编程指南、软件操作教程以及实际案例分析，旨在帮助用户系统掌握PLC的编程语言、指令系统及在各类工业应用中的实施。1.三菱PLC基础知识入门1.1PLC的基本概念可编程逻辑控制器（PLC）是工业自动化
日更006 终极训练营day3 懒cici
人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
《极简思维》第三部分小洋苏兮
整理你的人际关系如何改善人际关系？摘录：因为人际关系问题是人们生活中不快乐的主要原因。感想：感觉这个说的挺对，之前我总是埋头学习，不管舍友不管自己的合作伙伴的一些事情，但实际上，这学期关注了之后好多了摘录：“亲密关系与社交会让你健康而快乐。这是基础。太过于关注成就或不太关心人际关系的人都不怎么快乐。基本上来说，人类就是建立在人脉关系上的。”感想：但是如果有时想的太多就不太好，要以一个开放的心态跟别
你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。霖霖z
打卡人:周云日期:2018年11月09日【日精进打卡第180天】【知～学习】《六项精进》0遍共214遍《通篇》1遍共106遍《大学》2遍共347遍《坚强工作，温柔生活》ok《不抱怨的世界》104-108页《经典名句》你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。【行～实践】一、修身：（对自己个人）1、坚持打卡二、齐家：（对家庭和家人）打扫卫生，接送孩子，洗衣做饭，陪
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
贫穷家庭的孩子考上985以后会怎样？ Mellisa蜜思言
我出生在一个贫穷的农村家庭，据我妈说，我出生的时候才4斤多，而她生完我以后月子里就瘦到70斤。家里一直很穷，父母都是在菜市场卖菜的，家里还有几亩地种庄稼的。我很小开始就要去帮忙，暑假的生活就是帮忙去卖菜和割稻谷，那时候自己对于割稻谷这种事情有着莫名的恐惧，生怕自己长大以后还是每年都要过着割稻谷这种日子。父母因为忙于生计无暇顾及我的学习，幸好我因为看到他们这样子的生活，内心里有深深的恐惧感，驱使着我
2019-06-05 第十七把巴鲁克
今天去实验田里实习，见到了福寿螺真的可怕且牛皮，六级也快来了，说实话还是害怕。我昨天考了环工原理，真的太难了，太烦了，理工科真的难，烦。实验报告还是没写，要抓紧速度抓紧时间，还是应该学会努力学习，远离一些不上进的事物。
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
力扣面试题07 - 旋转矩阵茶猫_ leetcode 矩阵算法 c语言
题目：给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]示例2:给定matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,7],[15,14,12,
为什么焦虑、抑郁、自残的青少年越来越多？精神健康
很多家长觉得没缺孩子吃的穿的，他们有安稳的生活，他们有什么可焦虑、抑郁的，但现在的孩子，学习压力越来越大，每天休息的时间越来越少，出现焦虑抑郁是很正常的。从发展的角度看，青少年时期，人的身体、情绪，智力、人格都急剧发展，正从未成熟走向成熟，情绪起伏不定，易冲动，再者，由于缺乏生活经验，以及来自于家长、学校、社会的各种要求和压力，从而不知所措，心中的焦虑、恐惧、彷徨得不到及时的排解，从而导致心理上的
读书打卡《别想太多啦》 chenchen_68ed
第一，世间之事，不去尝试永远不知道其中的奥秘，在尝试中有失败是必然的。如果担心失败，那什么都学不会。第二，经历的失败越多，越会对失败者抱有宽容的态度，“原来如此，我也经历过类似的失败啦，那只是暂时的”。经历越多失败的长者，越能包容别人，这也就是所谓的“越年长越宽容”。成熟的人，就是在众多失败经历中不断学习，并接纳别人的失败。对于他人的小小过失不吹毛求疵，自己的心态会更加平和。在不断失败中学习，让自
模拟退火(SA)：如何“故意走错路”，才能找到最优解？小瑞瑞acd 小瑞瑞学数模模拟退火算法 python 启发式算法算法
模拟退火(SA)：如何“故意走错路”，才能找到最优解？图示模拟退火算法如何通过接受较差解（橙色虚线标注）从局部最优（绿色点）逃逸，最终找到全局最优解（紫色点），展示其跳出局部极小值的能力。大家好，我是小瑞瑞！欢迎回到我的专栏！想象一下，你站在一座连绵不绝的山脉中，目标是找到海拔最低的那个山谷。你手上只有一个高度计，视野被浓雾笼罩，只能看清脚下的一小片区域。如果你是一个“贪心”的登山者，你的策略会非
2023-01-26 胡喜平
我觉得《可见的学习》一书确实从底层逻辑说清楚了，教学的本质。可是太多术语和概念，一时间难以消化啊。而且知道和懂得有距离，运用就更不行了，需要高手和专家的指导。我需要多听听新课标的讲座了，来反复印证。读论文也有了一点点灵感，明天修改我的论文。
平静得接受自己的笨拙 20190118 晨间日记吴伯符
图片发自App最近做了一个关于微习惯的分享，这里有八个字：微量开始，超额完成。这里的言下之意其实是要你在一开始的时候，平静地接受自己的笨拙。接受自己的笨拙，理解自己的笨拙，放慢速度尝试，观察哪里可以改进，再反复练习，观察自己哪里可以再进一步改进，再反复…这是学习一切技能的必须的过程。这里的两个关键点是：1.尽快的开始这个过程，这就能够用到微习惯的微量开始。2.尽快的度过这个过程，这就需要用到超额完
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
二十四节气组诗谷雨离陌_6639
图片来源网络，若侵犯了你的权益，请联系我删除6.谷雨文/离陌背上行囊背上如行囊的我从此任行程马不停蹄今天家乡的田野春雨快马加鞭播下希望的种子观音不语目送着我和夏天一道在观音山出关图片来源网络，若侵犯了你的权益，请联系我删除你好啊，我是离陌，已然在懵懂中走过了16年的岁月，为了珍惜当下的每一秒，所以立志做一名终身学习者。文学对于我来说是一种信仰，诗歌是我的生命。人生之道，四通八达，即入文学，自当持之
你好，2020年瑄瑄妍妍的妈咪
早上好，今天是2020年的第一天，也就是元旦，新年新的一天开始了。新的开始，重新规划未来的一年。从今天开始，用了一个新的记账软件，之前的随手记软件，也没有删除，只是重新下载了一个别的软件，开始一个新的记账旅程，对于理财开支，有个新的规划。通过小红书视频软件，学习了不少育儿知识，和各种不同的美食，以后动手制作，给宝宝做健康美味的营养餐。学习方面，继续学英语吧！虽然是抽出时间学的，进度也比较慢，但是积
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
常规笔记本和加固笔记本的区别 luchengtech 电脑三防笔记本加固计算机加固笔记本
在现代科技产品中，笔记本电脑因其便携性和功能性被广泛应用。根据使用场景和需求的不同，笔记本可分为常规笔记本和加固笔记本，二者在多个方面存在显著区别。适用场景是区分二者的重要标志。常规笔记本主要面向普通消费者和办公人群，适用于家庭娱乐、日常办公、学生学习等相对稳定的室内环境。比如，人们在家用它追剧、处理文档，学生在教室用它完成作业。而加固笔记本则专为特殊行业设计，像军事、野外勘探、工业制造、交通运输
《云襄传》：云襄做的局是浑水摸鱼吗？书生号贺
云襄入南都是要浑水摸鱼吗？他是云台的高材生吗？他为啥笃定师父一定会让他留在南都？他为啥觉得他能够做局成功？他是在经商吗？还是在经营人心与欲望？云襄是云台弟子，云台属千门的一支，另一支叫凌渊，云台教人经商之道，重智慧，凌渊以武力取胜，但倍受打压。云襄学习十五年，下高山奔越州，途经南洋，因恩人闻聪被害，囚于白驹镇，念于情分，被卷入这样一个局面里，结识了舒亚南与金十两，于是，复仇小组成立，目标是南都漕帮
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
心力践行营十二期一阶学习打卡 LX_王彤彤
姓名：王彤彤时间：2021年4月24日一：朗读师父的十大人生哲学二：师父的早安分享感悟很喜欢这句话：所有的行动都是基于目标的尝试，没有所谓的失败，只是不同尝试后得到的不同结果，让我们更好地调整下一次的行动。三：感恩日记1.我太幸福了，我很感恩姑姑，因为姑姑放假又投喂了我，还给我带了饺子回家，这让我感觉很幸福。谢谢，谢谢，谢谢。2.我太幸福了，我很感恩师父晚上的直播，因为听他的分享我知道怎么更好的去
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
闭组进行时... 李亚青_强化班
今天是2019年12月1号距离开始三月学习的日子:2019年10月07,已经过去将近两个月，回顾这一阶段的学习，收获了什么?又学会了什么呢?图片发自App我想，收获最大的就是身边这一群人吧,有和蔼可亲的学姐，贴心的学长，嬉戏打闹，玩的不亦乐乎，但也同样认真踏实学习小伙伴图片发自App本以为在这样的时刻，有太多太多话，太多太多想法想要表达，可言到此处，又觉得似乎没有什么想要说的了还是那句话，幸运遇到
2021-10-23 赵甄文的幸福
秀荣感恩日记Day42[烟花]感恩语录感恩自己有能力有好身体，可以到处走动，做自己想做的事情10.23感恩日记今天做的事情瑜伽一小时户外散步一小时泡脚20分钟学习打卡和孩子沟通[爱心]感动的瞬间今天瑜伽回来，发现老公在厨房里做鱼。每次老公有时间休息的时候都会给我做硬菜。刘姐约我一起去公园散步晒太阳。虽然完美错过，但心里还是暖暖的。每天睁开眼打开手机，先去自己的群里逛一逛，每每发现有人点赞或者互动都
孤独的守候怒吼的生命
孤独了时光岁月了寂寞带来了惆怅那些孤独的日子里我们珍惜奋斗起来品味人生的真谛做到更好奋斗当中的你是那么努力格外自律学习起来五彩斑斓那些日子时光匆匆人生的机会很多需要把握痛苦的回忆记得住那些忧愁孤苦五一的日子寂寞当中的你时光荏苒独自带给我荒草学习起来努力奋斗可是我们做的还不够把握发展生活带给我们更多希望静静的述说你的故事你的精彩人生当中我们总是努力把握生活带给我们更多的学习生活当中我们奋斗可是做的还
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
2018-08-29精进打卡米兰王
姓名:王兰英【日精进打卡第25天】【知～学习】《六项精进》1遍共39遍《大学》1遍共50遍【经典名句分享】一切都是最好的安排。【行～实践】一、修身：（对自己个人）1，散步1小时。2，每天坚持读书。二、齐家：（对家庭和家人）1，指导孩子开车。2，和家人一起逛超市。三、建功：（对工作）用心做好每件事。｛积善｝：发愿从2018年8月5日起1年内365个善事。今日1善，累计27善。【省～觉悟】正人先正己。
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不

机器学习算法竞赛实战-学习总结

背景

竞赛的介绍

竞赛平台

Kaggle

天池

其他算法竞赛

竞赛流程

问题建模

数据探索

特征工程

模型训练

模型融合

问题建模

数据理解

数据基础层

数据描述层

评价指标

分类指标

回归指标

样本处理

数据采样的方法

数据的线下评估

问题建模 小示例

数据探索

数据初探

变量分析

单变量分析

多变量分析

模型学习曲线分析

欠拟合学习曲线

过拟合学习曲线

特征重要性分析

误差分析

特征工程

数据预处理

缺省值处理

异常值处理

内存优化

特征变换

特征提取

特征选择

你可能感兴趣的:(机器学习,机器学习,算法,学习)

问题建模小示例