Python数据挖掘

推荐收藏！40 道数据挖掘面试真题大放送！

文章目录

- 1、在 PCA 中为什么要做正交变换？
- 2、给定一个数据集，这个数据集有缺失值，且这些缺失值分布在离中值有 1 个标准偏差的范围内。百分之多少的数据不会受到影响？为什么？
- 3、给你一个癌症检测的数据集，你已经建好了分类模型，取得了96％的精度。如果不满意你的模型性能的话，你可以做些什么呢？
- 4、对于不平衡数据集，有什么应对方案？
- 5、什么是 K-fold 交叉验证？
- 6、简述准确率(accuracy)、召回率(Recall)统计量的含义？
- 7、简述 F 值(F-Measure)统计量的含义？
- 8、简述 ROC 曲线统计量的含义？
- 9、如何画出一个 ROC 曲线？
- 10、简述 PR 曲线统计量的含义？
- 11、什么是 SMOTE 算法？
- 12、简述 G-mean 统计量的含义？
- 13、简述 AUC 曲线统计量的含义？
- 14、SMOTE 算法有什么缺点？如何改进？
- 15、简述什么是调和平均数并指出其应用及性质？
- 16、EasyEnsemble 算法？
- 17、什么是凸包？
- 18、BalanceCascad 算法和 EasyEnsemble 有什么异同？
- 19、你会在时间序列数据集上使用什么交叉验证技术？是用 k 倍或LOOCV？
- 20、常见的过采样方法有哪些以用来应对样本不平衡问题？
- 21、给你一个缺失值多于 30%的数据集？比方说，在 50 个变量中，有 8 个变量的缺失值都多于 30%。你对此如何处理？
- 22、什么是协同过滤算法？
- 23、当在解决一个分类问题时，出于验证的目的，你已经将训练集随机抽样地分成训练集和验证集。你对你的模型能在未看见的数据上有好的表现非常有信心，因为你的验证精度高。但是，在得到很差的精度后，你大失所望。什么地方出了错？
- 24、在 k-means 或 kNN，我们是用欧氏距离来计算最近的邻居之间的距离。为什么不用曼哈顿距离？
- 25、考虑到机器学习有这么多算法，给定一个数据集，你如何决定使用哪一个算法？
- 26、什么时候正则化在机器学习中是有必要的？
- 27、考虑到机器学习有这么多算法，给定一个数据集，你如何决定使用哪一个算法？
- 28、OLS 是用于线性回归，最大似然是用于逻辑回归。请解释以上描述。
- 29、一个有 1000 列和 1 百万行的训练数据集。这个数据集是基于分类问题的。你来降低该数据集的维度以减少模型计算时间。你的机器内存有限，你会怎么做？（你可以自由做各种实际操作假设）
- 30、KNN 中的 K 是如何选取的？
- 31、防止过拟合的方法有哪些？
- 32、机器学习中为何要经常对数据做归一化？
- 33、什么是欠采样和过采样？
- 34、不平衡数据集处理中基于数据集的应对方案有哪些？
- 35、二分类问题如何转化为一分类问题？
- 36、如何通过增加惩罚项来提高稀有数据的预测准确率？
- 37、L1 和 L2 有什么区别？
- 38、CNN 最成功的应用是在 CV，那为什么 NLP 和 Speech 的很多问题也可以用 CNN 解出来？为什么 AlphaGo 里也用了 CNN？这几个不相关的问题的相似性在哪里？CNN 通过什么手段抓住了这个共性？
- 39、实现对比 LSTM 结构推导，为什么比 RNN 好？
- 40、请简要说说 EM 算法？
- 技术交流

在上一篇文章中，我们梳理了数据分析面试题：推荐收藏！48道数据分析师高频面试题汇总！

今天我给大家梳理数据挖掘工程师常考的面试题，找相关岗位的同学一定要码住认真看。

想了解最新的面试动态、最新高频考点、技术交流的同学，可以文末加入我们

1、在 PCA 中为什么要做正交变换？

PCA 的思想是将 n 维特征映射到 k 维上（k

2、给定一个数据集，这个数据集有缺失值，且这些缺失值分布在离中值有 1 个标准偏差的范围内。百分之多少的数据不会受到影响？为什么？

由于数据分布在中位数附近，先假设这是一个正态分布。在一个正态分布中，约有 68％的数据位于跟平均数（或众数、中位数）1 个标准差范围内的，那样剩下的约 32%的数据是不受影响的。因此，约有 32%的数据将不受到缺失值的影响。

3、给你一个癌症检测的数据集，你已经建好了分类模型，取得了96％的精度。如果不满意你的模型性能的话，你可以做些什么呢？

癌症检测结果是不平衡数据，在不平衡数据集中，精度不应该被用来作为衡量模型的标准，因为 96％（按给定的）可能只有正确预测多数分类，但我们感兴趣是那些少数分类（4％），是那些被诊断出癌症的人。

因此，为了评价模型的性能，应该用灵敏度（真阳性率），特异性（真阴性率），F 值用来确定这个分类器的“聪明”程度。如果在那 4%的数据上表现不好，我们可以采取以下步骤：

1.使用欠采样、过采样或 SMOTE 让数据平衡。

2.通过概率验证和利用 AUC-ROC 曲线找到最佳阀值来调整预测阀值。

3.给分类分配权重，那样较少的分类获得较大的权重。

4.使用异常检测。

4、对于不平衡数据集，有什么应对方案？

即数据集中，每个类别下的样本数目相差很大。例如，在一个二分类问题中，共有 100 个样本（100 行数据，每一行数据为一个样本的表征），其中 80 个样本属于 class 1，其余的 20 个样本属于 class 2，class 1:class2=80:20=4:1，这便属于类别不均衡。当然，类别不均衡问题同样会发生在多分类任务中。

解决不平衡分类问题的策略可以分为两大类：一类是从训练集入手 , 通过改变训练集样本分布，降低不平衡程度；另一类是从学习算法入手 , 根据算法在解决不平衡问题时的缺陷 , 适当地修改算法使之适应不平衡分类问题。平衡训练集的方法主要有训练集重采样 (re-sampling)方法和训练集划分方法。学习算法层面的策略包括分类器集成、代价敏感学习和特征选择方法等。

5、什么是 K-fold 交叉验证？

K-fold 交叉验证就是把原始数据随机分成 K 个部分，在这 K 个部分中选择一个作为测试数据，剩余的 K-1 个作为训练数据。交叉验证的过程实际上是将实验重复做 K 次，每次实验都从 K 个部分中选择一个不同的部分作为测试数据，剩余的数据作为训练数据进行实验，最后把得到的 K 个实验结果平均，用于评价模型的泛化能力，从而进行模型选择。

6、简述准确率(accuracy)、召回率(Recall)统计量的含义？

召回率(Recall)是覆盖面的度量，度量有多个正例被分为正例的比例（查全率）：

准确率(accuracy)有时候准确率高并不能代表一个算法就好：

精确率(precision)表示被分为正例的示例中实际为正例的比例（查准率）。

7、简述 F 值(F-Measure)统计量的含义？

F-Measure 是 Precision 和 Recall 加权调和平均：

若参数 a=1 时即 F1-Measure，是综合这二者指标的评估指标，用于综合反映整体的指标。当然希望检索结果 Precision 越高越好，同时 Recall 也越高越好，但事实上这两者在某些情况下有矛盾的。比如极端情况下，我们只搜索出了一个结果，且是准确的，那么 Precision 就是 100%，但是 Recall 就很低；而如果我们把所有结果都返回，那么比如 Recall 是 100%，但是 Precision 就会很低。因此在不同的场合中需要自己判断希望 Precision 比较高或是 Recall 比较高。如果是做实验研究，可以绘制 Precision-Recall 曲线来帮助分析。

例如有一个池塘里面共有 1000 条鱼，含 100 条鲫鱼。机器学习分类系统将这 1000 条鱼全部分类为“不是鲫鱼”，那么准确率也有 90%（显然这样的分类系统是失败的），然而查全率为 0%，因为没有鲫鱼样本被分对。这个例子显示出一个成功的分类系统必须同时考虑 Precision 和 Recall，尤其是面对一个不平衡分类问题。

8、简述 ROC 曲线统计量的含义？

ROC 曲线 X 轴为 false positive rate（FPR），Y 轴为 true positive rate（TPR）：

考虑 ROC 曲线图中的四个点和一条线。第一个点(0,1)，即 FPR=0, TPR=1，这意味着 FN（false negative）=0，并且 FP（false positive）=0。Wow，这是一个完美的分类器，它将所有的样本都正确分类。第二个点，(1,0)，即 FPR=1，TPR=0，类似地分析可以发现这是一个最糟糕的分类器，因为它成功避开了所有的正确答案。第三个点，(0,0)，即 FPR=TPR=0，即 FP（false positive）=TP（ true positive ） =0 ，可以发现该分类器预测所有的样本都为负样本（negative）。类似的，第四个点（1,1），分类器实际上预测所有的样本都为正样本。经过以上的分析，我们可以断言，ROC 曲线越接近左上角，该分类器的性能越好。

考虑 ROC 曲线图中的虚线 y=x 上的点。这条对角线上的点其实表示的是一个采用随机猜测策略的分类器的结果，例如(0.5,0.5)，表示该分类器随机对于一半的样本猜测其为正样本，另外一半的样本为负样本。

当测试集中的正负样本的分布变化的时候，ROC 曲线能够保持不变。在实际的数据集中经常会出现类不平衡（class imbalance）现象，即负样本比正样本多很多（或者相反），而且测试数据中的正负样本的分布也可能随着时间变化。下图是 ROC 曲线和 Precision-Recall 曲线的对比：

(a)和©为 ROC 曲线，(b)和(d)为 Precision-Recall 曲线。(a)和(b)展示的是分类其在原始测试集（正负样本分布平衡）的结果，©和(d)是将测试集中负样本的数量增加到原来的 10 倍后，分类器的结果。可以明显的看出，ROC 曲线基本保持原貌，而 Precision-Recall 曲线则变化较大。

9、如何画出一个 ROC 曲线？

In signal detection theory, a receiver operating characteristic (ROC), or simply ROC curve, is a graphical plot which illustrates the performance of a binary classifier system as its discrimination threshold is varied。20 个测试样本，“Class”一栏表示每个测试样本真正的标签，p 表示正样本，n表示负样本），“Score”表示每个测试样本属于正样本的概率。

我们从高到低，依次将“Score”值作为阈值 threshold，当测试样本属于正样本的概率大于或等于这个 threshold 时，我们认为它为正样本，否则为负样本。举例来说，对于图中的第 4 个样本，其“Score”值为 0.6，那么样本 1，2，3， 4 都被认为是正样本，因为它们的“Score”值都大于等于 0.6，而其他样本则都认为是负样本。每次选取一个不同的 threshold，我们就可以得到一组 FPR 和 TPR，即 ROC 曲线上的一点。这样一来，我们一共得到了 20 组 FPR 和 TPR 的值，将它们画在 ROC 曲线的结果如下图：

当我们将 threshold 设置为 1 和 0 时，分别可以得到 ROC 曲线上的(0,0)和(1,1)两个点。将这些(FPR,TPR)对连接起来，就得到了 ROC 曲线。当 threshold 取值越多， ROC 曲线越平滑。

其实，我们并不一定要得到每个测试样本是正样本的概率值，只要得到这个分类器对该测试样本的“评分值”即可（评分值并不一定在(0,1)区间）。评分越高，表示分类器越肯定地认为这个测试样本是正样本，而且同时使用各个评分值作为threshold。

10、简述 PR 曲线统计量的含义？

注：ROC 与 PR 类似，只是横坐标与纵坐标换成成了 FPR 与 TPR。

11、什么是 SMOTE 算法？

Synthetic Minority Oversampling Technique 即合成少数类过采样技术：

1，对于少数类中每一个样本 x，以欧氏距离为标准计算它到少数类样本集 Smin 中所有样本的距离，得到其 k 近邻。

2，根据样本不平衡比例设置一个采样比例以确定采样倍率 N，对于每一个少数类样本 x，从其 k 近邻中随机选择若干个样本，假设选择的近邻为 Xn。

3，对于每一个随机选出的近邻 Xn，分别与原样本按照如下的公式构建新的样本：

对于新产生的青色数据点与其他非青色样本点距离最近的点，构成一对 Tomek link，如图框。

定义规则：

以新产生点为中心，Tomek link 的距离为范围半径，去框定一个空间，空间内的少数类的个数/多数类的个数<最低阀值，认为新产生点为“垃圾点”，应该剔除或者再次进行 smote 训练；空间内的少数类的个数/多数类的个数>=最低阀值的时候,在进行保留并纳入 smote 训练的初始少类样本集合中去抽样所以，剔除左侧的青色新增点，只保留右边的新增数据如下：

12、简述 G-mean 统计量的含义？

13、简述 AUC 曲线统计量的含义？

AUC（Area Under Curve）被定义为 ROC 曲线下的面积，显然这个面积的数值不会大于 1。又由于 ROC 曲线一般都处于 y=x 这条直线的上方，所以 AUC 的取值范围在 0.5 和 1 之间。使用 AUC 值作为评价标准是因为很多时候 ROC 曲线并不能清晰的说明哪个分类器的效果更好，而作为一个数值，对应 AUC 更大的分类器效果更好。

首先 AUC 值是一个概率值，当你随机挑选一个正样本以及一个负样本，当前的分类算法根据计算得到的 Score 值将这个正样本排在负样本前面的概率就是 AUC 值。当然，AUC 值越大，当前的分类算法越有可能将正样本排在负样本前面，即能够更好的分类。

显然 A 点为最优点，ROC 曲线越靠近 A 点代表模型表现越好，曲线下面积（Area Under Curve, AUC）越大，AUC 是衡量模型表现好坏的一个重要指标。

14、SMOTE 算法有什么缺点？如何改进？

由于对每个少数类样本都生成新样本，因此容易发生生成样本重叠(Overlapping)的问题，为了解决 SMOTE 算法的这一缺点提出一些改进算法，其中的一种是 Borderline-SMOTE 算法，该方法把少数类样本分为安全样本、边界样本和噪声样本 3类，并对边界样本进行近邻插值，考虑到了少数类内部的分布不均的现象，但对边界样本之间的差异未做考虑。

15、简述什么是调和平均数并指出其应用及性质？

调和平均的哲学意义是在一个过程中有多少条平行的路径，经过这些平行的路径后，等效的结果就是调和平均。

电子散射：电子在导体里流动并不是一帆风顺的，他会被杂质散射，晶格散射，缺陷散射，这就是一个电子上路后的三种平行的路径，最后电子迁移率可以用调和平均等效，即 Matthiessen’s Rule。

电子空穴复合：当材料被光照射后，电子吸收光子能量，从价带激发到导带，这电子空穴也有两条路径复合，辐射复合和非辐射复合：

①调和平均数易受极端值的影响，且受极小值的影响比受极大值的影响更大。

②只要有一个标志值为 0，就不能计算调和平均数。

16、EasyEnsemble 算法？

记多数类的样本集合为 L，少数类的样本集合为 S，用 r=|S|/|L|表示少数类与多数类的比例。集成方法(Ensemble)是一个最简单的集成方法，即不断从多数类中抽取样本，使得每个模型的多数类样本数量和少数类样本数量都相同，最后将这些模型集成起来。

17、什么是凸包？

在多维空間中有一群散布各处的点，「凸包」是包覆这群点的所有外壳当中，表面积容积最小的一个外壳，而最小的外壳一定是凸的。

「凸」的定义是：圆形內任意亮点的连线不会经过圆形外部。「凸」並不是指表面呈弧状隆起，事实上凸包是由许多平坦表面组成的。

当数据是线性可分的，凸包就表示两个组数据点的外边界。一旦凸包建立，我们得到的最大间隔超平面（MMH）作为两个凸包之间的垂直平分线。MMH 是能够最大限度地分开两个组的线。

18、BalanceCascad 算法和 EasyEnsemble 有什么异同？

这个方法跟 EasyEnsemble 有点像，但不同的是，每次训练 adaboost 后都会扔掉已被正确分类的样本，经过不断地扔掉样本后，数据就会逐渐平衡。

19、你会在时间序列数据集上使用什么交叉验证技术？是用 k 倍或LOOCV？

都不是。对于时间序列问题，k 倍可能会很麻烦，因为第 4 年或第 5 年的一些模式有可能跟第 3 年的不同，而对数据集的重复采样会将分离这些趋势，我们可能最终是对过去几年的验证，这就不对了。相反，我们可以采用如下所示的 5 倍正向链接策略(1，2，3，4，5，6 代表年份)：

fold 1 : training [1], test [2]

fold 2 : training [1 2], test [3]

fold 3 : training [1 2 3], test [4]

fold 4 : training [1 2 3 4], test [5]

fold 5 : training [1 2 3 4 5], test [6]

20、常见的过采样方法有哪些以用来应对样本不平衡问题？

我们可以通过欠抽样来减少多数类样本的数量从而达到平衡的目的，同样我们也可以通过，过抽样来增加少数类样本的数量，从而达到平衡的目的。

Random oversampling of minority class：通过有放回的抽样，不断的从少数类的抽取样本，不过要注意的是这个方法很容易会导致过拟合。我们通过调整抽样的数量可以控制使得 r=0.5。

21、给你一个缺失值多于 30%的数据集？比方说，在 50 个变量中，有 8 个变量的缺失值都多于 30%。你对此如何处理？

1.把缺失值分成单独的一类，这些缺失值说不定会包含一些趋势信息。

2.我们可以毫无顾忌地删除它们。

3.或者，我们可以用目标变量来检查它们的分布，如果发现任何模式，我们将保留那些缺失值并给它们一个新的分类，同时删除其他缺失值。

22、什么是协同过滤算法？

协同过滤 (Collaborative Filtering, 简称 CF)协同过滤一般是在海量的用户中发掘出一小部分和你品位比较类似的，在协同过滤中，这些用户成为邻居，然后根据他们喜欢的其他东西组织成一个排序的目录作为推荐给你，分 User CF 和 Item CF 两种。

23、当在解决一个分类问题时，出于验证的目的，你已经将训练集随机抽样地分成训练集和验证集。你对你的模型能在未看见的数据上有好的表现非常有信心，因为你的验证精度高。但是，在得到很差的精度后，你大失所望。什么地方出了错？

在做分类问题时，应该使用分层抽样而不是随机抽样。随机抽样不考虑目标类别的比例。相反，分层抽样有助于保持目标变量在所得分布样本中的分布。

24、在 k-means 或 kNN，我们是用欧氏距离来计算最近的邻居之间的距离。为什么不用曼哈顿距离？

我们不用曼哈顿距离，因为它只计算水平或垂直距离，有维度的限制。另一方面，欧式距离可用于任何空间的距离计算问题。因为，数据点可以存在于任何空间，欧氏距离是更可行的选择。例如：想象一下国际象棋棋盘，象或车所做的移动是由曼哈顿距离计算的，因为它们是在各自的水平和垂直方向的运动。

25、考虑到机器学习有这么多算法，给定一个数据集，你如何决定使用哪一个算法？

机器学习算法的选择完全取决于数据的类型。如果给定的一个数据集是线性的，线性回归是最好的选择。如果数据是图像或者音频，那么神经网络可以构建一个稳健的模型。如果该数据是非线性互相作用的的，可以用 boosting 或 bagging 算法。

如果业务需求是要构建一个可以部署的模型，我们可以用回归或决策树模型（容易解释和说明），而不是黑盒算法如 SVM，GBM 等。

26、什么时候正则化在机器学习中是有必要的？

当模型过度拟合或者欠拟合的时候，正则化是有必要的。这个技术引入了一个成本项，用于带来目标函数的更多特征。因此，正则化是将许多变量的系数推向零，由此而降低成本项。这有助于降低模型的复杂度，使该模型可以在预测上（泛化）变得更好。

27、考虑到机器学习有这么多算法，给定一个数据集，你如何决定使用哪一个算法？

从数学的角度来看，任何模型出现的误差可以分为三个部分。以下是这三个部分：

偏差误差在量化平均水平之上预测值跟实际值相差多远时有用。高偏差误差意味着我们的模型表现不太好，因为没有抓到重要的趋势。

另一方面，方差量化了在同一个观察上进行的预测是如何彼此不同的。高方差模型会过度拟合你的训练集，而在训练集以外的数据上表现很差。

28、OLS 是用于线性回归，最大似然是用于逻辑回归。请解释以上描述。

OLS 和最大似然是使用各自的回归方法来逼近未知参数（系数）值的方法。简单地说，普通最小二乘法（OLS）是线性回归中使用的方法，它是在实际值和预测值相差最小的情况下而得到这个参数的估计。最大似然性有助于选择使参数最可能产生观测数据的可能性最大化的参数值。

29、一个有 1000 列和 1 百万行的训练数据集。这个数据集是基于分类问题的。你来降低该数据集的维度以减少模型计算时间。你的机器内存有限，你会怎么做？（你可以自由做各种实际操作假设）

1.由于我们的 RAM 很小，首先要关闭机器上正在运行的其他程序，包括网页浏览器，以确保大部分内存可以使用。

2.我们可以随机采样数据集。这意味着，我们可以创建一个较小的数据集，比如有 1000 个变量和 30 万行，然后做计算。

3.为了降低维度，我们可以把数值变量和分类变量分开，同时删掉相关联的变量。对于数值变量，我们将使用相关性分析。对于分类变量，我们可以用卡方检验。

4.另外我们还可以使用 PCA（主成分分析），并挑选可以解释在数据集中有最大偏差的成分。

5.利用在线学习算法，如 VowpalWabbit（在 Python 中可用）是一个可能的选择。

6.利用 Stochastic GradientDescent（随机梯度下降）法建立线性模型也很有帮助。

7.我们也可以用我们对业务的理解来估计各预测变量对响应变量的影响大小。但是，这是一个主观的方法，如果没有找出有用的预测变量可能会导致信息的显著丢失。

注意：对于第 4 点和第 5 点，请务必阅读有关在线学习算法和随机梯度下降法的内容。这些是高阶方法。

30、KNN 中的 K 是如何选取的？

如李航博士的一书「统计学习方法」上所说：

1.如果选择较小的 K 值，就相当于用较小的领域中的训练实例进行预测，“学习”近似误差会减小，只有与输入实例较近或相似的训练实例才会对预测结果起作用，与此同时带来的问题是“学习”的估计误差会增大，换句话说，K 值的减小就意味着整体模型变得复杂，容易发生过拟合；

2.如果选择较大的 K 值，就相当于用较大领域中的训练实例进行预测，其优点是可以减少学习的估计误差，但缺点是学习的近似误差会增大。这时候，与输入实例较远（不相似的）训练实例也会对预测器作用，使预测发生错误，且 K 值的增大就意味着整体的模型变得简单。

3.K=N，则完全不足取，因为此时无论输入实例是什么，都只是简单的预测它属于在训练实例中最多的累，模型过于简单，忽略了训练实例中大量有用信息。

在实际应用中，K 值一般取一个比较小的数值，例如采用交叉验证法（简单来说，就是一部分样本做训练集，一部分做测试集）来选择最优的 K 值。

31、防止过拟合的方法有哪些？

过拟合的原因是算法的学习能力过强；一些假设条件（如样本独立同分布）可能是不成立的；训练样本过少不能对整个空间进行分布估计。处理方法有：

a. 早停止，如在训练中多次迭代后发现模型性能没有显著提高就停止训练；

b. 数据集扩增，原有数据增加、原有数据加随机噪声、重采样；

c. 正则化 d.交叉验证 e.特征选择/特征降维。

32、机器学习中为何要经常对数据做归一化？

维基百科给出的解释：1）归一化后加快了梯度下降求最优解的速度；2）归一化有可能提高精度。

1）归一化后加快了梯度下降求最优解的速度：

如下图所示，蓝色的圈圈图代表的是两个特征的等高线。其中左图两个特征 X1 和 X2 的区间相差非常大，X1 区间是[0,2000]，X2 区间是[1,5]，其所形成的等高线非常尖。当使用梯度下降法寻求最优解时，很有可能走“之字型”路线（垂直等高线走），从而导致需要迭代很多次才能收敛；而右图对两个原始特征进行了归一化，其对应的等高线显得很圆，在梯度下降进行求解时能较快的收敛。因此如果机器学习模型使用梯度下降法求最优解时，归一化往往非常有必要，否则很难收敛甚至不能收敛。

2）归一化有可能提高精度：

一些分类器需要计算样本之间的距离（如欧氏距离），例如 KNN。如果一个特征值域范围非常大，那么距离计算就主要取决于这个特征，从而与实际情况相悖（比如这时实际情况是值域范围小的特征更重要）。

33、什么是欠采样和过采样？

使用不同的数据集。有两种方法使不平衡的数据集来建立一个平衡的数据集：欠采样和过采样。欠采样是通过减少丰富类的大小来平衡数据集，当数据量足够时就该使用此方法。通过保存所有稀有类样本，并在丰富类别中随机选择与稀有类别样本相等数量的样本，可以检索平衡的新数据集以进一步建模。当数据量不足时就应该使用过采样，它尝试通过增加稀有样本的数量来平衡数据集，而不是去除丰富类别的样本的数量。通过使用重复、自举或合成少数类过采样等方法（SMOTE）来生成新的稀有样品。

欠采样和过采样这两种方法相比而言，都没有绝对的优势。这两种方法的应用取决于它适用的用例和数据集本身。另外将过采样和欠采样结合起来使用也是成功的。

34、不平衡数据集处理中基于数据集的应对方案有哪些？

Edited Nearest Neighbor (ENN)：将那些 L 类的样本，如果他的大部分 k 近邻样本都跟他自己本身的类别不一样，我们就将它删除。

Repeated Edited Nearest Neighbor：这个方法就是不断的重复上述的删除过程，直到无法再删除为止。

Tomek Link Removal：如果有两个不同类别的样本，它们的最近邻都是对方，也就是 A 的最近邻是 B，B 的最近邻是 A，那么 A,B 就是 Tomek link。我们要做的就是讲所有 Tomek link 都删除掉。那么一个删除 Tomek link 的方法就是，将组成 Tomek link 的两个样本，如果有一个属于多数类样本，就将该多数类样本删除掉。

35、二分类问题如何转化为一分类问题？

对于二分类问题，如果正负样本分布比例极不平衡，我们可以换一个完全不同的角度来看待问题：把它看做一分类（One Class Learning）或异常检测（Novelty Detection）问题。这类方法的重点不在于捕捉类间的差别，而是为其中一类进行建模，经典的工作包括 One-class SVM 等，如下图所示：

One Class SVM 是指你的训练数据只有一类正（或者负）样本的数据，而没有另外的一类。在这时，你需要学习的实际上你训练数据的边界。而这时不能使用最大化软边缘了，因为你没有两类的数据。所以呢，文章“Estimating the support of a high-dimensional distribution”中，Schölkopf 假设最好的边缘要远离特征空间中的原点。左边是在原始空间中的边界，可以看到有很多的边界都符合要求，但是比较靠谱的是找一个比较紧的边界（红色的）。这个目标转换到特征空间就是找一个离原点比较远的边界，同样是红色的直线。当然这些约束条件都是人为加上去的，你可以按照你自己的需要采取相应的约束条件。比如让你 data 的中心离原点最远。说明：对于正负样本极不均匀的问题，使用异常检测，或者一分类问题，也是一个思路。

36、如何通过增加惩罚项来提高稀有数据的预测准确率？

通过设计一个代价函数来惩罚稀有类别的错误分类而不是分类丰富类别，可以设计出许多自然泛化为稀有类别的模型。例如，调整 SVM 以惩罚稀有类别的错误分类。

37、L1 和 L2 有什么区别？

L1 范数（L1 norm）是指向量中各个元素绝对值之和，也有个美称叫“稀疏规则算子”（Lasso regularization）。

比如向量 A=[1，-1，3]，那么 A 的 L1 范数为 |1|+|-1|+|3|。

简单总结一下就是：

L1 范数: 为 x 向量各个元素绝对值之和。

L2 范数: 为 x 向量各个元素平方和的 1/2 次方，L2 范数又称 Euclidean 范数或 Frobenius范数。

Lp 范数: 为 x 向量各个元素绝对值 p 次方和的 1/p 次方。

在支持向量机学习过程中，L1 范数实际是一种对于成本函数求解最优的过程，因此， L1 范数正则化通过向成本函数中添加 L1 范数，使得学习得到的结果满足稀疏化，从而方便人类提取特征。

L1 范数可以使权值稀疏，方便特征提取。L2 范数可以防止过拟合，提升模型的泛化能力。

38、CNN 最成功的应用是在 CV，那为什么 NLP 和 Speech 的很多问题也可以用 CNN 解出来？为什么 AlphaGo 里也用了 CNN？这几个不相关的问题的相似性在哪里？CNN 通过什么手段抓住了这个共性？

以上几个不相关问题的相关性在于，都存在局部与整体的关系，由低层次的特征经过组合，组成高层次的特征，并且得到不同特征之间的空间相关性。如下图：低层次的直线／曲线等特征，组合成为不同的形状，最后得到汽车的表示。

CNN 抓住此共性的手段主要有四个：局部连接／权值共享／池化操作／多层次结构。局部连接使网络可以提取数据的局部特征；权值共享大大降低了网络的训练难度，一个 Filter 只提取一个特征，在整个图片（或者语音／文本）中进行卷积；池化操作与多层次结构一起，实现了数据的降维，将低层次的局部特征组合成为较高层次的特征，从而对整个图片进行表示。

39、实现对比 LSTM 结构推导，为什么比 RNN 好？

推导 forget gate，input gate，cell state， hidden information 等的变化；因为 LSTM 有进有出且当前的 cell informaton 是通过 input gate 控制之后叠加的，RNN 是叠乘，因此 LSTM 可以防止梯度消失或者爆炸。

40、请简要说说 EM 算法？

有时候因为样本的产生和隐含变量有关（隐含变量是不能观察的），而求模型的参数时一般采用最大似然估计，由于含有了隐含变量，所以对似然函数参数求导是求不出来的，这时可以采用 EM 算法来求模型的参数的（对应模型参数个数可能有多个），EM 算法一般分为 2 步：

E 步：选取一组参数，求出在该参数下隐含变量的条件概率值；

M 步：结合 E 步求出的隐含变量条件概率，求出似然函数下界函数（本质上是某个期望函数）的最大值，重复上面 2 步直至收敛。

技术交流

独学而无优则孤陋而寡闻，技术要学会交流、分享，不建议闭门造车。

搭建了数据分析实战与面试技术交流群，面试交流、技术答疑、源码获取，均可加交流群获取，群友已超过2000人，添加时最好的备注方式为：来源+兴趣方向，方便找到志同道合的朋友。

方式①、微信搜索公众号：Python学习与数据挖掘，后台回复：交流
方式②、添加微信号：dkl88194，备注：交流

资料1

资料2
我们打造了《数据分析实战案例宝典》，特点：从0到1轻松学习，方法论及原理、代码、案例应有尽有，所有案例都是按照这样的节奏进行表述。

你可能感兴趣的:(机器学习,数据分析及可视化,python,数据挖掘,面试,人工智能,数据分析,算法,面试题)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
三菱PLC全套学习资料及应用手册 good2know
本文还有配套的精品资源，点击获取简介：三菱PLC作为工业自动化领域的核心设备，其系列产品的学习和应用需要全面深入的知识。本次资料包为学习者提供从基础到进阶的全方位学习资源，包括各种型号PLC的操作手册、编程指南、软件操作教程以及实际案例分析，旨在帮助用户系统掌握PLC的编程语言、指令系统及在各类工业应用中的实施。1.三菱PLC基础知识入门1.1PLC的基本概念可编程逻辑控制器（PLC）是工业自动化
移动端城市区县二级联动选择功能实现包 good2know
本文还有配套的精品资源，点击获取简介：本项目是一套为移动端设计的jQuery实现方案，用于简化用户在选择城市和区县时的流程。它包括所有必需文件：HTML、JavaScript、CSS及图片资源。通过动态更新下拉菜单选项，实现城市到区县的联动效果，支持数据异步加载。开发者可以轻松集成此功能到移动网站或应用，并可基于需求进行扩展和优化。1.jQuery移动端解决方案概述jQuery技术简介jQuery
15个小技巧，让我的Windows电脑更好用了！曹元_
01.桌面及文档处理第一部分的技巧，主要是围绕桌面的一些基本操作，包括主题设置、常用文档文件快捷打开的多种方式等等。主题换色默认情况下，我们的Win界面可能就是白色的文档界面，天蓝色的图表背景，说不出哪里不好看，但是就是觉得不够高级。imageimage说到高级感，本能第一反应就会和暗色模式联想起来，如果我们将整个界面换成黑夜模式的话，它会是这样的。imageimage更改主题颜色及暗色模式，我们
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
贝多芬诞辰250周年纪念万千星河赴远方
就算不是古典音乐爱好者，你也一定听说过贝多芬。作为古典音乐史上最伟大的音乐家之一，他不仅是古典主义风格的集大成者，同时也是浪漫主义风格的开创者。贝多芬肖像画（1813年）贝多芬的一生共创作了9部交响曲、36首钢琴奏鸣曲、10部小提琴奏鸣曲、16首弦乐四重奏、1部歌剧及2部弥撒曲等等。数量虽然不及前辈海顿、莫扎特多，但他几乎改造了当时所有的音乐表达形式，赋予了它们全新的价值，对后世音乐的发展产生了极
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
力扣面试题07 - 旋转矩阵茶猫_ leetcode 矩阵算法 c语言
题目：给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]示例2:给定matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,7],[15,14,12,
最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
模拟退火(SA)：如何“故意走错路”，才能找到最优解？小瑞瑞acd 小瑞瑞学数模模拟退火算法 python 启发式算法算法
模拟退火(SA)：如何“故意走错路”，才能找到最优解？图示模拟退火算法如何通过接受较差解（橙色虚线标注）从局部最优（绿色点）逃逸，最终找到全局最优解（紫色点），展示其跳出局部极小值的能力。大家好，我是小瑞瑞！欢迎回到我的专栏！想象一下，你站在一座连绵不绝的山脉中，目标是找到海拔最低的那个山谷。你手上只有一个高度计，视野被浓雾笼罩，只能看清脚下的一小片区域。如果你是一个“贪心”的登山者，你的策略会非
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
我最喜欢的公众号素颜创始人小云
一年多前，也是因为工作的原因。认识了她，她是我七个人物法其一，她在我心里也是很敬佩的一个女孩子。她会讲一些护肤知识，哪些产品好用哪些不好用而他讲解的产品都是我跃跃欲试的。图片发自App她做的每一篇文章都很精美，可以吸引到我从头看到尾，看每一个字都会很珍惜很期待，做事也特别的认真仔细。去年出了一本《活得漂亮》我也看了她的创业故事，很厉害！她的认真及敬业精神我觉得是很难学得来的，现在怀孕3个月了，依然
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
uniapp微信小程序 - 详解微信小程序平台用户授权登录全流程，uniapp v3版本中小程序端开发下用户点击登录后获取手机号/昵称/性别/头像等信息完成登录（提供完整示例代码，一键复制开箱即用）十一猫咪爱养鱼前端组件与功能(开箱即用)uniapp常见问题解决 uniapp vue3 uniapp3小程序授权登录微信小程序登录获取用户信息教程获取用户昵称手机号头像信息登录 vue3版本小程序平台授权登录 uniap小程序端用户登录流程 uni完整的小程序平台登录源码
效果图在uniapp微信小程序端开发中，超详细实现用户授权登录完整功能源码，用户授权后获取手机号/昵称/头像/性别等，提供完整思路流程及逻辑讲解。uniappVue3和Vue2都能用，你也可以直接复制粘贴，然后改下参数放到你的项目中去就行。整体思路做功能之前，先来看一下整体流程是
元宇宙中的视觉技术：虚拟化身与场景生成 xcLeigh 计算机视觉CV 元宇宙虚拟化身场景生成 AIGC 数字孪生
元宇宙中的视觉技术：虚拟化身与场景生成前言一、元宇宙与视觉技术的深度关联1.1元宇宙概念深度剖析1.2视觉技术：元宇宙的“灵魂之窗”二、虚拟化身：数字世界的“第二自我”2.1虚拟化身技术的深度解析2.1.1核心技术构成2.1.2技术实现原理与流程2.2虚拟化身的应用领域及案例展示2.2.1游戏娱乐领域2.2.2教育培训领域三、场景生成：构建元宇宙的虚拟天地3.1场景生成技术全景透视3.1.1关键技
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
处于停机等非正常状态_设备非正常停机管理指导办法
设备非正常停机管理指导办法一、设备非正常停机的范围：1、维护、维修不良：未遵守设备维护及维修规程，导致维护、维修质量无法满足设备运行的技术、环境要求而造成的设备停机，例如：未按维护保养计划保养、维护质量不到位、违章检修，故障维修不彻底，润滑缺油或变质等。2、违章操作：未按照设备操作规程及作业文件等操作而造成的设备停机。3、设备点检缺失：是指设备操作者及维修人员未严格按照点检标准有效地对设备各部位进
【Coze搞钱实战】3. 避坑指南：对话流设计中的6个致命错误（真实案例） AI_DL_CODE Coze平台对话流设计客服Bot避坑用户流失封号风险智能客服配置故障修复指南
摘要：对话流设计是智能客服Bot能否落地的核心环节，直接影响用户体验与业务安全。本文基于50+企业Bot部署故障分析，聚焦导致用户流失、投诉甚至封号的6大致命错误：无限循环追问、人工移交超时、敏感词过滤缺失、知识库冲突、未处理否定意图、跨平台适配失败。通过真实案例拆解每个错误的表现形式、技术根因及工业级解决方案，提供可直接复用的Coze配置代码、工作流模板和检测工具。文中包含对话流健康度检测工具使
深入理解 Tomcat Wrapper 原理北漂老男人 Tomcat tomcat java
深入理解TomcatWrapper原理一、引言在Tomcat的分层容器架构中，Wrapper作为最底层的容器，专门负责管理单个Servlet的生命周期及请求分发。每一个Servlet（包括JSP、Filter等）都对应一个Wrapper。Wrapper是Servlet规范与Tomcat容器实现之间的桥梁，直接关系到请求的分发效率、Servlet的加载与重用、安全隔离等。本文将系统剖析Wrapper
Pktgen-DPDK：开源网络测试工具的深度解析与应用艾古力斯
本文还有配套的精品资源，点击获取简介：Pktgen-DPDK是基于DPDK的高性能流量生成工具，适用于网络性能测试、硬件验证及协议栈开发。它支持多种网络协议，能够模拟高吞吐量的数据包发送。本项目通过利用DPDK的高速数据包处理能力，允许用户自定义数据包内容，并实现高效的数据包管理与传输。文章将指导如何安装DPDK、编译Pktgen、配置工具以及使用方法，最终帮助开发者和网络管理员深入理解并优化网络
中原焦点团队坚持原创分享第 1172天金JJ
信阳案例督导：在学生出现危机时，学校启动心理应急程序，一位心理老师安抚个案的同时，其他心理老师给班级同学进行团体心理辅导，学校方面马上通知家长前来学校。学校危机干预应急流程的成熟，能有效降低个案的自杀风险。个案不愿谈及家庭及自己自杀行为等问题时，用沙盘、玩具等分散注意力，谈论他感兴趣的话题，老师温和的态度，关切的言语，个案的情绪逐渐平复。从个案自己说的，流露的非言语，家长、老师、同学、以往的记录，
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
求解——妊娠纹霜哪个牌子好？皮肤专家推荐的热门秘诀！ zhangxing0100
妊娠纹会严重影响女性的美观，那孕期的女性朋友该如何避免减少妊娠纹的出现呢?下面美腹丽人小编为大家分享了预防妊娠纹的方法，赶紧一起来学习吧!一、预防妊娠纹的饮食习惯1、多食用对皮肤内胶原纤维有利的食品来增强皮肤的弹性。2、控制糖分摄入，少吃色素含量高的食物。3、早晚两杯脱脂牛奶，多食用维丰富的蔬菜、水果和富含维生素及矿物质的食物，增加细胞膜的通透性和皮肤的新陈代谢功能。4、正确的喝水习惯可以提速皮肤
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
Qwen3 大模型实战：使用 vLLM 部署与函数调用（Function Call）全攻略曦紫沐大模型大模型部署 Qwen3 vLLM 函数调用
文章摘要本文将带你从零开始，深入掌握如何使用Qwen3-8B大语言模型，结合vLLM进行高性能部署，并通过函数调用（FunctionCall）实现模型与外部工具的智能联动。我们将详细讲解部署命令、调用方式、代码示例及实际应用场景，帮助你快速构建基于Qwen3的智能应用。一、Qwen3简介与部署环境准备Qwen3是通义千问系列的最新一代大语言模型，具备强大的自然语言理解和生成能力，尤其在函数调用、工
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在