奔跑吧邓邓子

解锁数据宝藏：数据挖掘之数据预处理全解析

一、引言：数据预处理 —— 数据挖掘的基石
二、数据预处理的重要性
- 2.1 现实数据的问题剖析
- 2.2 数据预处理的关键作用
三、数据预处理的核心方法
- 3.1 数据清洗
- - 3.1.1 缺失值处理
  - 3.1.2 离群点处理
  - 3.1.3 噪声处理
- 3.2 数据集成
- - 3.2.1 实体识别
  - 3.2.2 冗余处理
  - 3.2.3 数据值冲突处理
- 3.3 数据变换
- - 3.3.1 平滑处理
  - 3.3.2 聚合操作
  - 3.3.3 离散化
  - 3.3.4 归一化
四、数据预处理的实践流程
- 4.1 数据加载与初步检查
- 4.2 数据清洗实践
- 4.3 数据类型转换
- 4.4 数据标准化与归一化
- 4.5 特征选择
- 4.6 类别特征编码
- 4.7 数据集划分
五、数据预处理案例深度剖析
- 5.1 电子商务客户数据预处理案例
- 5.2 电力窃漏电数据预处理案例
六、总结与展望
- 6.1 数据预处理的关键要点回顾
- 6.2 未来发展趋势展望

一、引言：数据预处理 —— 数据挖掘的基石

在数字化浪潮汹涌澎湃的当下，数据已然成为驱动各行业发展与创新的核心要素。从金融领域的风险评估、电商平台的个性化推荐，到医疗行业的疾病预测与诊断，数据挖掘技术宛如一把精准的手术刀，剖析海量数据，挖掘出隐藏其中的宝贵信息与潜在规律，为各领域的决策提供有力支持，极大地推动了各行业的智能化进程。

数据挖掘，这一从海量数据中提取有价值信息的过程，其流程复杂而精妙，涵盖了数据收集、数据预处理、模型构建、模型评估与验证以及模型部署与应用等多个关键环节。而数据预处理，无疑是整个数据挖掘流程中最为关键且不可或缺的起始步骤，堪称数据挖掘的基石。

原始数据往往存在诸多问题，如数据缺失，就像一幅拼图缺失了关键的碎片，使得信息不完整；噪声数据如同混入纯净水源的杂质，干扰数据的准确性；数据不一致则如同混乱的拼图，各部分无法协调统一。这些问题会严重影响数据挖掘的准确性和有效性，导致挖掘出的结果偏差较大，甚至得出错误的结论。例如，在电商用户行为分析中，如果数据存在大量缺失值，可能会错误地判断用户的偏好和购买习惯，从而影响推荐系统的精准度，降低用户体验和购买转化率。因此，数据预处理的重要性不言而喻，它就像是数据的 “质检员” 和 “美容师”，通过清洗、转换、集成等一系列操作，去除数据中的杂质和瑕疵，将原始数据转化为高质量、易于分析的形式，为后续的数据挖掘工作奠定坚实的基础。接下来，我们将深入探讨数据预处理的各个方面，揭开它神秘而又重要的面纱。

二、数据预处理的重要性

2.1 现实数据的问题剖析

在现实世界中，数据犹如未经雕琢的璞玉，虽蕴含着巨大的价值，但往往存在诸多问题，这些问题如同隐藏在暗处的礁石，时刻威胁着数据挖掘的准确性和有效性。

数据不完整：数据缺失是最为常见的不完整问题，例如在医疗数据中，患者的某些检查指标可能由于各种原因未被记录，这可能是因为检查设备故障、患者拒绝检查或者数据录入人员的疏忽。在电商用户行为数据中，用户的部分购买记录可能缺失，如购买时间、购买地点等关键信息的缺失，这会使得我们无法全面了解用户的购买行为和偏好。此外，数据的不完整还可能表现为某些属性值的缺失，这会导致数据的维度不统一，影响数据分析的准确性。
数据不一致：在不同数据源的数据集成过程中，数据不一致的问题尤为突出。例如，在企业的客户信息管理系统中，可能从多个渠道收集客户信息，如线上注册、线下门店登记等。由于不同渠道的信息录入标准和格式不一致，可能会导致同一客户的姓名、联系方式等信息在不同数据源中存在差异。此外，数据的更新不同步也会导致数据不一致，如在分布式数据库中，不同节点的数据更新时间存在延迟，可能会导致在某个时刻查询到的数据不一致。
含噪声数据：噪声数据是指数据中存在错误或偏离真实值的数据点，这些数据点会干扰数据挖掘的结果。噪声数据的产生原因多种多样，可能是由于数据采集设备的误差、数据传输过程中的干扰或者人为的错误录入。在传感器采集的数据中，由于传感器的精度限制或者受到外界环境的干扰，可能会采集到一些异常值，这些异常值就是噪声数据。在文本数据中，可能会存在错别字、语法错误等噪声，这些噪声会影响文本分析的准确性。
数据量过大：随着大数据时代的到来，数据量呈爆炸式增长，这给数据挖掘带来了巨大的挑战。海量的数据不仅需要更多的存储空间和计算资源，还会导致数据挖掘算法的运行效率降低。例如，在电商平台的用户行为分析中，每天都会产生数以亿计的用户行为数据，包括浏览记录、购买记录、评论记录等。处理如此庞大的数据量，需要强大的计算能力和高效的数据挖掘算法，否则可能会导致分析结果的延迟和不准确。

2.2 数据预处理的关键作用

面对现实数据中的种种问题，数据预处理就像是一位技艺精湛的工匠，通过一系列精细的操作，将粗糙的数据雕琢成高品质的原材料，为数据挖掘的成功奠定坚实基础。

提升数据质量：数据清洗是提升数据质量的关键步骤，通过去除重复数据、填充缺失值、纠正错误数据和处理噪声数据等操作，可以使数据更加准确、完整和一致。在医疗数据中，通过填充缺失的检查指标值，可以使医生更全面地了解患者的病情；在电商数据中，去除重复的订单记录，可以避免重复统计，提高数据分析的准确性。
提高数据挖掘算法的准确性：高质量的数据是数据挖掘算法准确运行的前提。数据预处理通过对数据的清洗、转换和集成等操作，可以减少数据中的误差和干扰，使数据挖掘算法能够更好地发现数据中的模式和规律。在分类算法中，如果数据存在大量的噪声和缺失值，可能会导致分类模型的准确率降低；而经过数据预处理后的数据，可以提高分类模型的准确率和泛化能力。
提高数据挖掘效率：数据归约和数据变换等预处理操作可以减少数据的规模和复杂度，从而提高数据挖掘算法的运行效率。数据归约通过去除冗余特征、选择重要特征和聚类等方法，可以降低数据的维度，减少计算量。数据变换通过对数据进行标准化、归一化和离散化等操作，可以使数据更适合数据挖掘算法的处理，提高算法的运行速度。
降低计算成本：在大数据环境下，处理海量数据需要消耗大量的计算资源和时间。数据预处理通过对数据的优化和精简，可以减少数据的存储和处理需求，从而降低计算成本。在分布式计算环境中，通过对数据进行分区和压缩等预处理操作，可以减少数据在网络传输和存储过程中的开销，提高计算效率。

三、数据预处理的核心方法

3.1 数据清洗

数据清洗是数据预处理的基础环节，其核心目标是提高数据质量，为后续的数据挖掘工作提供可靠的数据支持。数据清洗主要针对数据中的缺失值、离群点和噪声等问题展开处理。

3.1.1 缺失值处理

缺失值是指数据集中某些属性值的缺失，它会影响数据的完整性和分析结果的准确性。处理缺失值的方法多种多样，每种方法都有其适用场景。

删除变量：当某个变量的缺失值比例过高，且该变量对分析目标的重要性较低时，可以考虑直接删除该变量。例如，在一个包含众多用户信息的数据集里，若某个不太关键的字段缺失值超过了 80%，删除该字段可能对整体分析影响较小。但此方法需谨慎使用，因为删除变量可能会导致信息丢失，影响模型的准确性和泛化能力。
定值填充：采用一个固定的值来填充缺失值，例如对于年龄字段的缺失值，可统一填充为 “未知”。这种方法简单直接，适用于对数据精度要求不高的场景。但如果填充值与实际情况偏差较大，可能会引入误差，影响数据分析的准确性。
统计量填充：通过计算数据的统计量，如均值、中位数或众数，来填充缺失值。对于数值型数据，当数据分布较为均匀时，均值填充较为合适；若数据存在异常值，中位数填充能更好地反映数据的集中趋势。在一个学生成绩数据集中，若某学生的数学成绩缺失，可使用该班级数学成绩的均值进行填充。对于分类数据，则通常使用众数填充。不过，统计量填充可能会掩盖数据的真实分布，导致信息的不准确表达。
插值法填充：根据数据的趋势进行插值，常用的插值方法有线性插值、拉格朗日插值等。线性插值假设数据在两个已知点之间呈线性变化，通过线性关系计算缺失值。在时间序列数据中，如果某一时刻的温度数据缺失，可利用前后时刻的温度数据进行线性插值来估计缺失值。插值法适用于数据具有明显趋势的情况，但对于复杂的数据分布，插值结果可能不准确。
模型填充：利用机器学习模型，如决策树、回归模型等，根据其他相关变量来预测缺失值。在预测房屋价格时，若房屋面积字段存在缺失值，可使用决策树模型，结合房屋的位置、房龄、户型等其他特征来预测缺失的面积值。模型填充能够充分利用数据中的信息，提高填充的准确性，但模型的训练需要一定的计算资源和时间，且模型的选择和训练效果会影响填充结果。
哑变量填充：将缺失值作为一个新的类别进行处理，通过创建哑变量来表示。在分析用户购买行为时，若用户的职业字段存在缺失值，可将缺失值作为一个新的职业类别，创建相应的哑变量。哑变量填充不会丢失数据，适用于分类数据，但会增加数据的维度，可能导致模型的复杂度增加。

3.1.2 离群点处理

离群点是指数据集中与其他数据点差异较大的数据点，它可能是由于数据录入错误、测量误差或特殊情况导致的。离群点会对数据分析结果产生较大影响，因此需要进行检测和处理。

离群点检测方法：
- 简单统计分析：通过计算数据的基本统计量，如最大值、最小值、均值、标准差等，来判断数据是否存在离群点。若某个数据点的值远远超出了正常范围，如在一个班级学生的考试成绩中，大部分学生成绩在 60 - 90 分之间，而有一个学生成绩为 150 分，这个成绩可能就是离群点。
- 3σ 原则：基于正态分布的原理，假设数据服从正态分布，在 3σ（标准差）原则下，数据点落在（μ - 3σ，μ + 3σ）区间内的概率约为 99.7%，超出这个区间的数据点可被视为离群点。在一个生产线上产品质量检测的数据集中，若产品的某个质量指标服从正态分布，可利用 3σ 原则来检测离群点。
- 基于绝对离差中位数：计算每个数据点与中位数的绝对离差，然后根据一定的比例确定离群点。具体来说，先计算数据的中位数，再计算每个数据点与中位数的绝对离差，若某个数据点的绝对离差大于 k 倍的绝对离差中位数（k 通常取 1.5 或 3），则该数据点被视为离群点。
- 基于距离：通过计算数据点之间的距离，如欧氏距离、曼哈顿距离等，来判断离群点。若某个数据点与其他数据点的距离远大于平均距离，则该数据点可能是离群点。在一个客户地理位置数据集中，可通过计算客户之间的距离来检测离群点。
- 基于密度：根据数据点周围的密度来判断离群点。离群点通常位于数据密度较低的区域。局部异常因子（LOF）算法是一种常用的基于密度的离群点检测方法，它通过计算每个数据点的局部密度与邻域密度的比值来判断该数据点是否为离群点。
- 基于聚类：将数据进行聚类，离群点通常不属于任何一个聚类簇，或者属于密度较低的聚类簇。在图像识别中，可通过聚类算法将图像特征进行聚类，检测出离群点，这些离群点可能代表着异常的图像或目标。
离群点处理策略：
- 删除记录：当离群点是由于数据录入错误或测量误差导致，且对分析结果影响较大时，可以直接删除离群点对应的记录。在一个销售数据集中，若某个销售记录的销售额明显错误，远远超出正常范围，可删除该记录。但删除记录可能会导致数据量减少，影响模型的稳定性和泛化能力。
- 对数变换：对于一些数据分布不均匀，存在离群点的数据，可对数据进行对数变换。对数变换可以压缩数据的范围，使离群点对整体数据的影响减小。在处理房价数据时，若房价数据存在离群点，可对房价进行对数变换，使数据分布更加均匀。
- 均值或中位数替代：用数据的均值或中位数替代离群点的值。在一个员工工资数据集中，若某个员工的工资是离群点，可使用员工工资的均值或中位数来替代该离群点的值。这种方法简单易行，但可能会掩盖数据的真实情况。
- 利用树模型的鲁棒性：决策树、随机森林等树模型对离群点具有一定的鲁棒性，在建模时可以直接使用包含离群点的数据。树模型通过划分数据空间来构建模型，离群点对树模型的影响相对较小。在预测客户信用风险时，可使用随机森林模型，该模型能够在一定程度上处理数据中的离群点。

3.1.3 噪声处理

噪声数据是指数据中存在的错误或偏离真实值的数据点，它会干扰数据挖掘的结果。处理噪声数据的方法主要有分箱操作和回归分析。

分箱操作：将数据按照一定的规则划分为多个箱，每个箱内的数据具有相似的特征。分箱方法包括等频分箱和等宽分箱。等频分箱是将数据按照频率划分为若干个箱，每个箱内的数据数量大致相同；等宽分箱是将数据按照数值范围划分为若干个箱，每个箱的宽度相同。分箱后，可以用箱内数据的平均数、中位数或边界值来代替箱中的所有数据，从而平滑噪声数据。在一个学生成绩数据集中，可将成绩按照等频分箱的方法划分为几个箱，然后用每个箱的中位数来代替箱内的成绩，以减少噪声的影响。
回归分析：通过建立回归模型，将噪声数据视为因变量，其他相关变量视为自变量，利用回归模型来预测噪声数据的真实值。在一个时间序列数据集中，若存在噪声数据，可建立线性回归模型，根据时间和其他相关因素来预测噪声数据的近似值，然后用预测值替代噪声数据。回归分析能够利用数据之间的关系来处理噪声，但模型的建立需要一定的计算资源和时间，且模型的准确性会影响噪声处理的效果。

3.2 数据集成

数据集成是将多个数据源中的数据整合到一个统一的数据存储中，以便进行数据分析和挖掘。在数据集成过程中，需要解决实体识别、冗余处理和数据值冲突处理等问题。

3.2.1 实体识别

实体识别是指在不同的数据源中，识别出表示同一现实世界实体的记录。在电商领域，不同的数据库可能分别存储了客户的基本信息、购买记录和评价信息，需要通过实体识别将这些信息关联起来，形成完整的客户画像。实体识别的方法主要有基于规则的方法和基于机器学习的方法。

基于规则的方法：通过制定一系列规则来判断不同数据源中的记录是否表示同一实体。这些规则可以基于实体的属性值、属性之间的关系等。在客户信息集成中，可以规定如果两个记录的客户姓名、身份证号码和联系电话都相同，则认为它们表示同一客户。基于规则的方法简单直观，但对于复杂的数据和多样化的实体表示，规则的制定和维护较为困难。
基于机器学习的方法：利用机器学习算法，如分类算法、聚类算法等，对已知的实体对进行学习，建立实体识别模型，然后用该模型对未知的记录进行判断。在文本数据集成中，可以使用支持向量机（SVM）算法，将文本中的关键词、语义等特征作为输入，训练一个实体识别模型，用于判断不同文本是否描述同一实体。基于机器学习的方法能够自动学习数据中的模式，提高实体识别的准确性和效率，但需要大量的训练数据和计算资源。

3.2.2 冗余处理

冗余是指数据中存在重复或不必要的信息，冗余数据会占用存储空间，增加数据处理的时间和成本。在数据集成过程中，需要识别和处理冗余属性和冗余记录。

属性冗余检测：通过计算属性之间的相关性来检测冗余属性。对于数值型变量，可以使用皮尔逊相关系数计算相关系数矩阵，若两个属性的相关系数绝对值接近 1，则说明它们之间存在较强的相关性，可能存在冗余。在一个房价预测数据集中，房屋面积和房间数量可能存在一定的相关性，如果相关系数较高，可考虑删除其中一个属性。对于标称型变量，可以使用卡方检验来判断它们之间的独立性，若两个标称型变量的卡方检验结果表明它们不独立，则可能存在冗余。
冗余记录处理：对于重复的记录，可以直接删除。在一个客户信息数据库中，可能存在由于数据录入错误或系统故障导致的重复客户记录，可通过比较记录的所有属性值，删除完全相同的记录。对于属性或命名不一致导致的冗余问题，需要进行数据标准化和统一命名。在不同的数据源中，可能对 “客户性别” 这个属性有不同的命名，如 “gender”“sex” 等，需要将其统一为一个标准的命名。

3.2.3 数据值冲突处理

在数据集成过程中，由于不同数据源的数据来源、采集方式和存储格式等不同，可能会导致数据值冲突。在不同的电商平台中，对于同一商品的价格可能有不同的记录，这就需要解决数据值冲突问题，以保证数据的一致性和准确性。

数据规范化：将不同数据源中的数据按照统一的标准进行规范化处理。在日期格式上，将不同的日期表示方式统一为 “YYYY - MM - DD” 的格式；在数据单位上，将不同的单位统一为标准单位，如将长度单位统一为米。
去除重复数据：通过数据清洗和去重操作，去除数据中的重复记录，以减少数据值冲突的可能性。在一个包含多个数据源的客户地址数据集中，可能存在重复的地址记录，可通过比较地址的详细信息，去除重复的记录。
冲突解决策略：当数据值冲突无法通过规范化和去重解决时，需要制定冲突解决策略。可以选择可信度高的数据源的数据值，在商品价格冲突时，选择官方网站或权威平台的数据值；也可以采用统计方法，如取平均值、中位数等，来确定最终的数据值。

3.3 数据变换

数据变换是将原始数据转换为更适合数据挖掘算法处理的形式，通过数据变换可以提取数据中的重要特征，提高数据挖掘的效率和准确性。数据变换的方法主要包括平滑处理、聚合操作、离散化和归一化。

3.3.1 平滑处理

平滑处理是通过算法对数据进行处理，去除数据集中的噪声，使数据更加平滑和连续。常见的平滑处理方法有移动平均法和指数平滑法。

移动平均法：通过计算数据的移动平均值来平滑数据。简单移动平均法是将一定时间窗口内的数据进行平均，得到平滑后的数据。在一个时间序列数据集中，若要平滑某产品的销售数据，可以计算过去 5 天的销售数据的平均值，作为当天的平滑后销售数据。加权移动平均法则根据不同时间点的数据对当前数据的影响程度，赋予不同的权重，然后计算加权平均值。在预测股票价格时，可对近期的股票价格赋予较高的权重，对远期的股票价格赋予较低的权重，以更好地反映股票价格的变化趋势。
指数平滑法：根据时间序列数据的历史观测值，对未来值进行预测。它对不同时期的数据给予不同的权重，近期数据的权重较大，远期数据的权重较小。一次指数平滑法适用于数据没有明显趋势和季节性变化的情况；二次指数平滑法适用于数据有线性趋势的情况；三次指数平滑法适用于数据有非线性趋势和季节性变化的情况。在预测电力负荷时，由于电力负荷具有季节性变化的特点，可使用三次指数平滑法进行预测和平滑处理。

平滑处理不仅可以去除数据中的噪声，还可以帮助我们更好地了解数据集的重要特征，发现一些有助于预测的简单变化，从而为后续的数据分析和预测提供更可靠的数据基础。

3.3.2 聚合操作

聚合操作是将数据以摘要形式进行存储和呈现，通过对数据进行汇总和统计，得到更具概括性的信息。聚合操作可以将多个数据源的数据集集成到数据分析描述中，方便进行综合分析。

常见的聚合函数：包括求和（SUM）、计数（COUNT）、平均值（AVG）、最大值（MAX）和最小值（MIN）等。在一个销售数据集中，可以使用 SUM 函数计算每个月的销售总额，使用 COUNT 函数统计每个销售人员的销售订单数量，使用 AVG 函数计算每个产品的平均销售价格，使用 MAX 函数和 MIN 函数分别找出销售价格最高和最低的产品。
聚合操作的应用场景：在数据分析中，聚合操作常用于生成报表和进行数据可视化。通过聚合操作，可以将大量的原始数据转换为简洁明了的统计信息，便于用户快速了解数据的总体情况。在企业的财务报表中，通过聚合操作可以计算出不同部门的收入、支出和利润等关键指标，为企业的决策提供依据。在数据可视化中，聚合操作可以将数据按照不同的维度进行分组和汇总，生成柱状图、折线图、饼图等可视化图表，更直观地展示数据的分布和趋势。

3.3.3 离散化

离散化是将连续数据分割成区间，将连续型数据转换为离散型数据，从而减少数据的大小和复杂性。在数据分析中，离散化可以使数据更易于理解和处理，同时也有助于提高某些数据挖掘算法的性能。

离散化的方法：包括等宽法、等频法和基于聚类的方法。等宽法是将数据按照固定的宽度划分为若干个区间，每个区间的宽度相等。在对学生成绩进行离散化时，可以将成绩按照每 10 分一个区间进行划分，如 0 - 10 分、10 - 20 分等。等频法是将数据按照相同的频率划分为若干个区间，每个区间内的数据数量大致相同。在对用户年龄进行离散化时，可以使每个年龄段的用户数量大致相等。基于聚类的方法是利用聚类算法将数据划分为不同的簇，每个簇对应一个离散化的区间。在对客户消费金额进行离散化时，可以使用 K - means 聚类算法将客户按照消费金额分为高、中、低三个簇，每个簇代表一个消费区间。
离散化的应用场景：在一些分类算法中，如决策树、朴素贝叶斯等，要求输入数据为离散型数据，因此需要对连续数据进行离散化处理。在分析用户的购买行为时，可以将用户的购买金额离散化为 “低消费”“中消费”“高消费” 三个区间，然后使用决策树算法分析不同消费区间用户的购买偏好。在数据存储和传输中，离散化可以减少数据的存储空间和传输带宽，提高数据处理的效率。

3.3.4 归一化

归一化是通过缩放数据，将数据映射到一个特定的区间内，使其在更小的范围内表示，通常是将数据映射到 [0, 1] 或 [-1, 1] 区间。归一化可以消除数据特征之间的量纲和取值范围差异的影响，使数据更适合进行数据分析和模型训练。

归一化的方法：常见的归一化方法有最小 - 最大归一化、Z - score 归一化和小数定标归一化。最小 - 最大归一化是将数据线性变换到 [0, 1] 区间，公式为 $X'=\frac{X - X_{min}}{X_{max}-X_{min}}$ ，其中 $X$ 是原始数据， $X_{min}$ 和 $X_{max}$ 分别是数据的最小值和最大值。在图像处理中，常将图像的像素值通过最小 - 最大归一化映射到 [0, 1] 区间，以便于后续的处理。

四、数据预处理的实践流程

4.1 数据加载与初步检查

在数据预处理的实践中，首先要进行数据加载与初步检查，这一步骤是了解数据全貌的关键。以 Python 的 pandas 库为例，它提供了丰富且便捷的函数和方法，能够高效地完成这些任务。

import pandas as pd

# 加载数据，这里假设数据存储在data.csv文件中
data = pd.read_csv('data.csv')

# 查看数据前5行，默认head()方法返回前5行数据，可传入参数指定行数
print(data.head())  

# 查看数据基本信息，包括列的数据类型、非空值数量等
print(data.info())  

# 对数值列进行简单统计分析，包括计数、均值、标准差、最小值、四分位数和最大值等
print(data.describe())

通过上述代码，我们可以快速加载数据，并对数据的结构、数据类型以及数值列的基本统计信息有一个初步的认识。查看数据前几行可以直观地了解数据的大致内容和格式；info () 方法能帮助我们发现数据中可能存在的缺失值或数据类型不一致的问题；describe () 方法则为数值列的分布情况提供了详细的统计信息，这些信息对于后续的数据预处理决策至关重要。例如，如果发现某列数据的标准差过大，可能意味着该列存在异常值，需要进一步分析和处理。

4.2 数据清洗实践

数据清洗是数据预处理中至关重要的环节，它能够去除数据中的噪声和错误，提高数据质量。下面展示使用 pandas 库进行数据清洗的一些常见操作。

# 删除重复记录，subset参数可指定基于哪些列判断重复，keep参数指定保留哪条记录，默认keep='first'保留第一条
data = data.drop_duplicates(subset=None, keep='first', inplace=False)  

# 检查缺失值，isnull()方法返回一个布尔型DataFrame，标识每个值是否为缺失值，sum()方法计算每列缺失值总数
missing_values = data.isnull().sum()  
print(missing_values)  

# 使用均值填充数值列缺失值，假设要填充'column_name'列的缺失值
column_mean = data['column_name'].mean()
data['column_name'] = data['column_name'].fillna(column_mean)

在实际应用中，我们可能会遇到各种复杂的数据情况。比如，在一个电商销售数据集中，可能存在大量重复的订单记录，这些重复数据会影响销售统计的准确性，使用 drop_duplicates 方法可以轻松删除这些重复记录。而对于缺失值问题，不同的数据场景可能需要不同的处理方法。在上述代码中，我们使用均值填充数值列的缺失值，但在某些情况下，可能使用中位数或其他更合适的统计量进行填充，这需要根据数据的特点和业务需求来决定。

4.3 数据类型转换

在数据分析过程中，数据类型的正确与否直接影响着后续的分析和计算。有时，我们需要将数据从一种类型转换为另一种类型，以满足分析的需求。以下是以将包含 “K” 字符表示金额的数据列转换为数值型为例，展示使用 pandas 库进行数据类型转换的操作。

# 假设数据集中有一列'amount'，其值类似'100K'，需要转换为数值型
# 先去掉'K'字符
data['amount'] = data['amount'].str.replace('K', '')  

# 将数据转换为数值型，errors='coerce'表示转换失败时设置为NaN
data['amount'] = pd.to_numeric(data['amount'], errors='coerce')  

# 进行数值转换，将以'K'为单位的值转换为实际数值
data['amount'] = data['amount'] * 1000

在实际数据中，数据类型不一致的情况屡见不鲜。如在财务数据中，金额的表示方式可能多种多样，通过上述代码，我们可以将这种不规范的表示方式统一转换为数值型，方便进行后续的计算和分析。在处理过程中，需要注意处理转换失败的情况，errors=‘coerce’ 参数可以将无法转换的值设置为 NaN，避免影响后续分析。

4.4 数据标准化与归一化

数据标准化和归一化是数据预处理中的重要步骤，它们能够使数据具有统一的尺度，提高数据挖掘算法的性能和稳定性。我们可以引入 scikit - learn 库中的 MinMaxScaler（数据标准化，缩放到 [0, 1] 范围）和 StandardScaler（数据归一化，转换为零均值和单位方差形式）来实现这一目的。

from sklearn.preprocessing import MinMaxScaler, StandardScaler

# 假设要对数据集中的'feature1'和'feature2'列进行标准化和归一化
features = data[['feature1', 'feature2']]

# 数据标准化
scaler_minmax = MinMaxScaler()
features_minmax = scaler_minmax.fit_transform(features)
data[['feature1_minmax', 'feature2_minmax']] = features_minmax

# 数据归一化
scaler_standard = StandardScaler()
features_standard = scaler_standard.fit_transform(features)
data[['feature1_standard', 'feature2_standard']] = features_standard

在机器学习和数据分析中，不同特征的取值范围可能差异很大。例如，在房价预测数据集中，房屋面积可能在几十到几百平方米之间，而房屋价格可能在几十万到几百万元之间。这种差异会导致模型在训练时对不同特征的敏感度不同，影响模型的性能。通过数据标准化和归一化，我们可以将所有特征的值缩放到相同的范围，使模型能够更公平地对待每个特征，提高模型的准确性和泛化能力。

4.5 特征选择

特征选择是从原始特征中挑选出最具代表性和相关性的特征，以减少数据维度，提高模型训练效率和性能。我们可以使用 pandas 和 seaborn 库，通过计算特征之间的相关性矩阵并绘制热力图，来直观地了解特征之间的相关性，从而选择合适的特征。

import seaborn as sns
import matplotlib.pyplot as plt

# 计算特征之间的相关性矩阵
corr = data.corr()  

# 绘制相关性热力图
plt.figure(figsize=(10, 8))
sns.heatmap(corr, annot=True, cmap='coolwarm')
plt.show()

运行上述代码后，会生成一个相关性热力图。在图中，颜色越深表示相关性越强，正值表示正相关，负值表示负相关。通过观察热力图，我们可以发现哪些特征之间存在较强的相关性。例如，如果两个特征的相关性系数接近 1，说明它们之间存在高度正相关，在特征选择时可以考虑保留其中一个，避免信息冗余。在实际应用中，我们可以根据业务需求和经验，结合相关性分析结果，选择对目标变量影响较大的特征，从而提高模型的训练效率和预测准确性。

4.6 类别特征编码

在数据集中，常常会存在类别特征，如性别、地区、职业等。这些类别特征在机器学习模型中不能直接使用，需要进行编码处理，将其转换为数值形式。以处理数据集中 “Gender” 分类特征为例，展示使用 scikit - learn 库中的 LabelEncoder 进行标签编码和 OneHotEncoder 进行独热编码的代码实现过程。

from sklearn.preprocessing import LabelEncoder, OneHotEncoder

# 假设数据集中有'Gender'列，值为'Male'和'Female'
# 标签编码
le = LabelEncoder()
data['Gender_label'] = le.fit_transform(data['Gender'])  

# 独热编码
ohe = OneHotEncoder(sparse=False)
gender_ohe = ohe.fit_transform(data[['Gender']])
gender_ohe_df = pd.DataFrame(gender_ohe, columns=ohe.get_feature_names_out(['Gender']))
data = pd.concat([data, gender_ohe_df], axis=1)

标签编码是将每个类别映射为一个唯一的整数，例如将 “Male” 映射为 0，“Female” 映射为 1。这种编码方式简单直接，但可能会引入错误的顺序关系，因为模型可能会认为较大的数值代表更重要的类别。独热编码则是为每个类别创建一个新的二进制列，只有该类别对应的列值为 1，其他列值为 0。通过独热编码，可以避免标签编码的问题，使模型能够正确处理类别特征，但会增加数据的维度。在实际应用中，需要根据数据特点和模型需求选择合适的编码方式。

4.7 数据集划分

在构建机器学习模型时，为了评估模型的泛化能力，需要将数据集划分为训练集和测试集。我们可以引入 scikit - learn 库中的 train_test_split 函数来实现这一目的。

from sklearn.model_selection import train_test_split

# 假设数据集中特征为X，目标变量为y
X = data.drop('target_variable', axis=1)
y = data['target_variable']

# 将数据集划分为训练集和测试集，test_size指定测试集所占比例，random_state设置随机种子以保证结果可复现
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

通过上述代码，我们将数据集按照 80% 和 20% 的比例划分为训练集和测试集。训练集用于训练模型，测试集用于评估模型在未见过的数据上的性能。设置 random_state 参数可以使每次划分的结果保持一致，方便进行模型的比较和评估。在实际应用中，合理的数据集划分对于准确评估模型的性能至关重要，如果划分不合理，可能会导致模型的评估结果出现偏差，从而影响模型的选择和应用。

五、数据预处理案例深度剖析

5.1 电子商务客户数据预处理案例

在电子商务领域，客户数据的分析对于企业了解市场需求、优化营销策略、提升客户满意度等方面具有重要意义。而数据预处理作为数据分析的关键前置步骤，直接影响着后续分析结果的准确性和可靠性。下面我们将以 Python 的 pandas 库为工具，详细展示对电子商务客户数据进行预处理的全过程。

假设我们有一份电子商务客户订单数据，存储在名为 “ecommerce_customers.csv” 的文件中，数据内容如下：

CustomerID	OrderDate	Product	Quantity	Price
C001	2024-01-10	智能手机	2	500.00
C002	2024-01-12	笔记本电脑	1	1200.00
C003	NaN	耳机	3	50.00
C001	2024-01-15	平板电脑	1	300.00
C004	2024-01-18	笔记本电脑	1	1200.00
C005	2024-01-20	智能手机	2	NaN
C001	2024-01-15	平板电脑	1	300.00
C006	2024-01-22	耳机	2	100.00
C007	2024-01-25	智能手表	1	200.00
C008	2024-01-28	平板电脑	3	900.00
C009	2024-01-30	笔记本电脑	1	1500.00
C010	2024-02-01	智能手机	4	2000.00
C011	2024-02-05	耳机	5	250.00
C012	2024-02-08	平板电脑	1	300.00
C013	2024-02-10	智能手表	2	400.00
C014	2024-02-12	笔记本电脑	2	2400.00
C015	2024-02-15	智能手机	1	1000.00
C016	2024-02-18	平板电脑	2	600.00
C017	2024-02-20	智能手表	3	600.00
C018	2024-02-22	耳机	1	50.00
C019	2024-02-25	智能手机	2	1200.00
C020	2024-02-28	笔记本电脑	1	1300.00

数据导入
使用 pandas 库的 read_csv 函数可以轻松导入 CSV 文件中的数据。

import pandas as pd
# 导入CSV文件
df = pd.read_csv('ecommerce_customers.csv')

通过这一步，我们将存储在 CSV 文件中的客户订单数据读取到了 Python 的 DataFrame 数据结构中，为后续的数据处理和分析提供了基础。

查看数据集信息
为了对数据有一个初步的了解，我们可以使用 pandas 的多种方法查看数据集的结构和内容。

# 查看数据的前几行，默认显示前5行
print(df.head()) 
# 查看数据类型和列信息
print(df.info()) 
# 对数值列进行简单统计分析
print(df.describe())

运行 df.head ()，可以快速查看数据的前 5 行，了解数据的大致结构和内容，如每列的数据类型和部分数据值。df.info() 则显示了数据集的列名、非空值数量和数据类型，帮助我们了解数据集的整体情况，通过它我们能发现 OrderDate 列有 1 个缺失值，Price 列也有 1 个缺失值。df.describe () 对数值列（如 Quantity 和 Price）进行了统计分析，提供了均值、标准差、最小值、四分位数和最大值等信息，这些信息对于了解数据的分布和特征非常重要，例如通过它我们知道 Quantity 列的平均购买量是 2，Price 列的平均价格是 810.53。

处理缺失值
数据中 OrderDate 和 Price 列存在缺失值，我们需要对其进行处理。

# 查看缺失值
def missing_values(df):
    return df.isnull().sum()
print(missing_values(df))

# 填充缺失的价格列，以平均值替代
df['Price'].fillna(df['Price'].mean(), inplace=True) 

# 填充缺失的订单日期，以特定日期替代
df['OrderDate'].fillna('2024-01-01', inplace=True)

通过 df.isnull ().sum () 统计每一列的缺失值数量，明确缺失值所在的列和数量。对于 Price 列的缺失值，使用该列的均值进行填充，这样可以在一定程度上保持数据的统计特征；对于 OrderDate 列的缺失值，填充为 “2024-01-01” 这个特定日期，使得数据完整，便于后续基于日期的分析，如统计不同时间段的订单数量等。

数据格式转换
将 OrderDate 列从字符串转换为日期类型，以便进行时间序列分析。

df['OrderDate'] = pd.to_datetime(df['OrderDate'])

使用 pd.to_datetime 函数将 OrderDate 列转换为日期时间格式，转换后的数据可以方便地进行日期排序、计算时间间隔等操作，比如分析不同月份的销售趋势，或者统计订单之间的平均时间间隔等。

重复值删除
检查并删除数据中的重复记录。

# 删除重复记录，subset=None表示基于所有列判断重复，keep='first'表示保留第一条
df = df.drop_duplicates(subset=None, keep='first', inplace=False)

drop_duplicates 方法用于删除重复记录，通过设置 subset 参数为 None，基于所有列来判断记录是否重复，keep=‘first’ 表示保留第一次出现的记录，删除后续重复的记录。这一步可以确保数据的唯一性，避免重复数据对分析结果的干扰，例如在统计客户购买次数时，如果存在重复订单记录，会导致统计结果不准确。

数据标准化
对数值型数据进行标准化处理，使不同特征的数据具有相同的尺度。

from sklearn.preprocessing import StandardScaler

# 假设要对Price和Quantity列进行标准化
features = df[['Price', 'Quantity']]

scaler = StandardScaler()
df[['Price_standard', 'Quantity_standard']] = scaler.fit_transform(features)

这里使用了 scikit - learn 库中的 StandardScaler 进行数据标准化，它将数据转换为均值为 0，标准差为 1 的标准正态分布。对 Price 和 Quantity 列进行标准化后，数据在不同特征之间具有了可比性，这在构建机器学习模型时尤为重要，比如在使用 K 近邻算法进行客户分类时，标准化后的数据可以避免某些特征因数值范围较大而对模型产生过大影响。

数据导出
将预处理后的数据导出，以便后续使用。

# 将处理后的数据导出为新的CSV文件
df.to_csv('preprocessed_ecommerce_customers.csv', index=False)

使用 to_csv 函数将预处理后的数据导出为新的 CSV 文件，设置 index=False 表示不导出行索引，这样导出的数据文件更简洁，便于其他工具或系统读取和使用，例如可以将其导入到 Excel 中进行可视化分析，或者作为其他数据分析项目的输入数据。

通过以上一系列的数据预处理操作，我们将原始的电子商务客户数据转换为了更适合分析的格式，为后续深入挖掘客户行为模式、购买偏好等信息奠定了坚实的基础。

5.2 电力窃漏电数据预处理案例

在电力行业中，准确识别电力窃漏电行为对于保障电力系统的安全稳定运行、维护电力企业的经济效益具有至关重要的意义。而电力窃漏电数据预处理作为实现准确识别的关键环节，能够去除数据中的噪声和冗余，提取出有效的特征信息，为后续的数据分析和模型构建提供高质量的数据支持。以下将详细介绍电力窃漏电数据预处理的过程和方法。

去掉冗余数据
原始电力窃漏电数据中包含大量的信息，但并非所有数据都与窃漏电分析相关，因此需要过滤掉冗余数据。
- 过滤非居民用电类别数据：通过数据的探索分析发现，非居民用电类别（如银行、学校、政府机关等）由于其用电性质和管理方式的特殊性，不可能存在窃漏电现象。因此，在数据处理时，将非居民用电类别数据过滤掉，这样可以减少数据处理的工作量，提高分析效率。例如，在一个包含大量用户用电数据的数据库中，通过筛选用电类别字段，去除所有非居民用电类别的记录，只保留居民用电数据，从而使后续的分析更具针对性。
- 过滤节假日用电数据：结合电力行业的业务特点，节假日期间的用电量与工作日相比会明显降低，且其用电模式可能与正常的窃漏电行为特征存在差异。为了避免节假日用电数据对窃漏电分析的干扰，需要将其过滤掉。在分析某个地区的电力窃漏电情况时，通过判断用电数据中的日期字段，识别出节假日的用电记录并将其删除，以确保分析数据的一致性和准确性。
缺失值处理
在原始计量数据，特别是用户电量抽取过程中，常常会发现存在缺失值的现象。若将这些含有缺失值的数据抛弃掉，会严重影响供出电量的计算结果，进而导致日线损率数据误差很大，影响窃漏电分析的准确性。因此，需要对缺失值进行处理。
拉格朗日多项式插值公式填充：采用拉格朗日多项式插值公式进行缺失值填充。首先从原始数据集中确定因变量和自变量，取出缺失值前后 5 个数据（若遇到数据不存在或者为空的，直接将数据舍去），将仅有的数据组成一组，然后根据拉格朗日多项式插值公式进行计算。具体步骤如下：

import pandas as pd
from scipy.interpolate import lagrange

# 假设输入数据文件为missing_data.xls
inputfile ='missing_data.xls' 
data = pd.read_excel(inputfile, header=None) 

# 自定义列向量插值函数
def ployinterp_column(s, n, k=5):
    y = s[list(range(n - k, n)) + list(range(n + 1, n + 1 + k))] 
    y = y[y.notnull()] 
    return lagrange(y.index, list(y))(n) 

# 逐个元素判断是否需要插值
for i in data.columns:
    for j in range(len(data)):
        if (data[i].isnull())[j]: 
            data[i][j] = ployinterp_column(data[i], j)

通过这种方式，能够根据已有数据的趋势来推测缺失值，使得填充后的数据更符合实际情况，尽可能地减少缺失值对数据分析的影响，为后续准确计算供出电量和分析窃漏电行为提供可靠的数据基础。

数据变换
通过电力计量系统采集的电量、负荷等数据，虽然在一定程度上能反映用户窃漏电行为的某些规律，但要作为构建模型的专家样本，特征并不明显，需要重新构造。
- 构建窃漏电评价指标体系：
  - 电量趋势下降指标：窃漏电用户的用电量通常呈现下降的趋势。考虑以前后几天作为统计窗口，利用电量数据进行直线拟合，得到斜率作为衡量指标。例如，选取窃漏电用户某段时间内（如一周）每天的用电量数据，使用线性回归方法进行直线拟合，计算出拟合直线的斜率。如果斜率为负且绝对值较大，说明用电量下降趋势明显，可能存在窃漏电行为。
  - 告警类指标：与窃漏电相关的终端报警主要有电压缺相、电压断相、电流反极性等告警信息。这些告警信息可以作为判断窃漏电行为的重要依据，将这些告警事件进行统计和编码，转化为模型可处理的特征。例如，将电压缺相告警编码为 1，无告警编码为 0，以此类推，将多种告警信息转化为数值型特征，便于后续模型分析。
  - 线损指标：线损率是用于衡量供电线路的损失比例，同时可结合线户拓扑关系计算出用户所属线路在当天的线损率。如果某用户所在线路的线损率异常升高，且排除了正常的线路损耗因素，可能存在窃漏电行为。通过计算用户所属线路的线损率，并与正常范围进行比较，可以提取出线损相关的特征指标。
构建专家样本
专家样本数据对 2009 年 1 月 1 日至 2014 年 12 月 31 日所有窃漏电用户及正常用户的电量、告警及线损数据和该用户在当天是否窃漏电的标识，按窃漏电评价指标进行处理并选取其中 291 个样本数据，得到专家样本。这些专家样本数据包含了丰富的特征信息，能够准确地反映窃漏电用户和正常用户的行为差异，为构建窃漏电用户识别模型提供了高质量的训练数据。在构建窃漏电用户识别模型时，将这些专家样本数据划分为训练集和测试集，使用训练集对模型进行训练，使用测试集对模型的性能进行评估，从而不断优化模型，提高窃漏电识别的准确率。

通过以上电力窃漏电数据预处理过程，能够有效地去除冗余数据，处理缺失值，提取出具有代表性的特征信息，并构建出高质量的专家样本，为后续利用数据挖掘技术准确识别电力窃漏电行为奠定了坚实的基础，有助于电力企业及时发现和防范窃漏电行为，保障电力系统的安全稳定运行和经济效益。

六、总结与展望

6.1 数据预处理的关键要点回顾

数据预处理作为数据挖掘的基石，在整个数据挖掘流程中起着举足轻重的作用。它能够提升数据质量，去除原始数据中的不完整、不一致、含噪声以及数据量过大等问题，为后续的数据挖掘工作提供可靠的数据基础。通过数据清洗、数据集成、数据变换等多种方法，有效地解决了数据中的各类问题。

在数据清洗方面，针对缺失值，我们可以根据数据特点和业务需求选择删除变量、定值填充、统计量填充、插值法填充、模型填充或哑变量填充等方法；对于离群点，通过简单统计分析、3σ 原则、基于绝对离差中位数、基于距离、基于密度和基于聚类等方法进行检测，然后采用删除记录、对数变换、均值或中位数替代、利用树模型的鲁棒性等策略进行处理；噪声处理则主要通过分箱操作和回归分析来实现。

数据集成通过实体识别将不同数据源中表示同一现实世界实体的记录关联起来，通过属性冗余检测和冗余记录处理去除数据中的冗余信息，通过数据规范化和冲突解决策略处理数据值冲突问题，实现了多数据源数据的有效整合。

数据变换中的平滑处理利用移动平均法和指数平滑法去除数据噪声，使数据更加平滑和连续；聚合操作用求和、计数、平均值、最大值和最小值等聚合函数对数据进行汇总和统计，方便进行综合分析；离散化通过等宽法、等频法和基于聚类的方法将连续数据转换为离散型数据，减少数据的大小和复杂性；归一化采用最小 - 最大归一化、Z - score 归一化和小数定标归一化等方法将数据映射到特定区间，消除数据特征之间的量纲和取值范围差异的影响。

在实践流程中，从数据加载与初步检查开始，利用 pandas 库的函数了解数据全貌；然后进行数据清洗，去除重复记录和处理缺失值；接着进行数据类型转换，使数据类型符合分析需求；再通过数据标准化与归一化、特征选择、类别特征编码等操作，将数据转换为更适合数据挖掘算法处理的形式；最后进行数据集划分，为模型训练和评估提供数据。

通过电子商务客户数据预处理案例和电力窃漏电数据预处理案例，我们更加深入地了解了数据预处理在实际应用中的具体操作和重要性。在电子商务客户数据预处理中，通过数据导入、查看数据集信息、处理缺失值、数据格式转换、重复值删除、数据标准化和数据导出等步骤，将原始数据转换为适合分析的格式；在电力窃漏电数据预处理中，通过去掉冗余数据、缺失值处理、数据变换和构建专家样本等操作，为电力窃漏电行为的准确识别提供了高质量的数据支持。

6.2 未来发展趋势展望

展望未来，数据预处理领域将迎来诸多新的发展机遇和变革。随着人工智能和机器学习技术的不断发展，自动化机器学习（AutoML）技术在数据预处理中的应用将更加广泛。AutoML 能够自动完成数据预处理、模型选择和超参数调整等一系列任务，大大提高了数据处理的效率和准确性。在图像识别领域，AutoML 可以自动对图像数据进行清洗、增强和特征提取等预处理操作，为图像识别模型提供高质量的数据。

流式架构的 ETL 工具也将得到进一步发展。随着数据的实时性需求不断增加，流式架构的 ETL 工具能够实时处理和分析源源不断的数据流，实现数据的实时清洗、转换和加载。在金融交易领域，流式架构的 ETL 工具可以实时处理大量的交易数据，及时发现异常交易行为，保障金融交易的安全。

数据预处理与人工智能和深度学习的融合也将更加深入。人工智能和深度学习算法对数据的质量和特征要求较高，数据预处理能够为其提供高质量的数据和有效的特征。通过与人工智能和深度学习的融合，数据预处理可以更好地挖掘数据中的潜在信息和模式，为各行业的决策提供更有力的支持。在医疗领域，结合深度学习算法的数据预处理可以更准确地分析医疗影像数据，辅助医生进行疾病诊断。

此外，随着数据量的不断增加和数据类型的日益丰富，数据预处理将面临更多的挑战，如数据隐私保护、数据安全等问题。因此，未来的数据预处理技术需要在提高数据处理效率和准确性的同时，更加注重数据隐私保护和数据安全，为数据挖掘和人工智能的发展提供更加可靠的保障。我们鼓励读者持续关注和学习数据预处理技术，不断探索新的方法和应用，以适应不断变化的数据环境和业务需求。

你可能感兴趣的:(必备核心技能,数据挖掘,数据预处理,机器学习)

三菱PLC全套学习资料及应用手册 good2know
本文还有配套的精品资源，点击获取简介：三菱PLC作为工业自动化领域的核心设备，其系列产品的学习和应用需要全面深入的知识。本次资料包为学习者提供从基础到进阶的全方位学习资源，包括各种型号PLC的操作手册、编程指南、软件操作教程以及实际案例分析，旨在帮助用户系统掌握PLC的编程语言、指令系统及在各类工业应用中的实施。1.三菱PLC基础知识入门1.1PLC的基本概念可编程逻辑控制器（PLC）是工业自动化
（二）SAP Group Reporting (GR) 核心子模块功能及数据流向架构解析
数据如何从子公司流转到合并报表的全过程，即数据采集→合并引擎→报表输出，特别是HANA内存计算如何优化传统ETL瓶颈。SAPGroupReporting(GR)核心模块功能及数据流向的架构解析，涵盖核心组件、数据处理流程和关键集成点，适用于S/4HANA1809+版本：一、核心功能模块概览模块功能关键事务码/FioriApp数据采集(DataCollection)整合子公司财务数据（SAP/非SA
Git 与 GitHub 的对比与使用指南一念& 其它 git github
Git与GitHub的对比与使用指南在软件开发中，Git和GitHub是两个密切相关但本质不同的工具。下面我将逐步解释它们的定义、区别、核心概念以及如何协同使用，确保内容真实可靠，基于广泛的技术实践。1.什么是Git？Git是一个分布式版本控制系统，由LinusTorvalds于2005年创建。它的核心功能是跟踪代码文件的变化，帮助开发者管理项目历史记录、协作和回滚错误。Git是开源的，可以在本地
英伟达靠什么支撑起了4万亿？AI泡沫还能撑多久？
英伟达市值突破4万亿美元，既是AI算力需求爆发的直接体现，也暗含市场对未来的狂热预期。其支撑逻辑与潜在风险并存，而AI泡沫的可持续性则取决于技术、商业与地缘政治的复杂博弈。⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势：英伟达GPU在AI训练市场占有率超87%，H100芯片的FP16算力达1979TFLOPS，领先竞品3-5倍。CUDA生态：400万开发者构建的软件护城河，成为A
深入解析JVM工作原理：从字节码到机器指令的全过程
一、JVM概述Java虚拟机(JVM)是Java平台的核心组件，它实现了Java"一次编写，到处运行"的理念。JVM是一个抽象的计算机器，它有自己的指令集和运行时内存管理机制。JVM的主要职责：加载：读取.class文件并验证其正确性存储：管理内存分配和垃圾回收执行：解释或编译字节码为机器指令安全：提供沙箱环境限制恶意代码二、JVM架构详解JVM由三个主要子系统组成：1.类加载子系统类加载过程分为
关于流媒体播放器EasyPlayer和EasyPlayerPro的介绍以及其区别 EasyDarwin EasyDarwin 音视频 ffmpeg 人工智能大数据 ar
EasyPlayer是一款流媒体播放器系列项目，它支持多种流媒体协议的播放，包括但不限于RTSP、RTMP、HTTP、HLS、UDP、RTP、File等。除此之外，EasyPlayer还支持本地文件播放和多种功能特性，包括本地抓拍、本地录像、播放旋转、多屏播放、倍数播放等。EasyPlayer核心基于ffmpeg，稳定、高效、可靠、可控。随着多年的不断发展和迭代，EasyPlayer基于成功的实践
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
Flowable 实战落地核心：选型决策与坑点破解练习时长两年半的程序员小胡 Flowable 流程引擎实战指南低代码 BPMN 流程引擎 flowable 后端 java
在企业级流程引擎的落地过程中，选型的准确性和坑点的预见性直接决定项目成败。本文聚焦Flowable实战中最关键的“选型决策”与“常见坑点”，结合真实项目经验，提供可落地的解决方案。一、流程引擎选型：从业务本质出发1.1选型的三大核心维度企业在选择流程引擎时，需避免陷入“技术崇拜”，应回归业务本质。评估Flowable是否适用，可从三个维度判断：业务复杂度若流程涉及动态审批链（如按金额自动升级审批）
互信息：理论框架、跨学科应用与前沿进展大千AI助手人工智能 Python #OTHER 人工智能深度学习算法互信息香农通信随机变量
1.起源与核心定义互信息（MutualInformation,MI）由克劳德·香农（ClaudeShannon）在1948年开创性论文《AMathematicalTheoryofCommunication》中首次提出，该论文奠定了现代信息论的基础。互信息用于量化两个随机变量之间的统计依赖关系，定义为：若已知一个随机变量的取值，能为另一个随机变量提供的信息量。数学上，对于离散随机变量XXX和YYY，
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
【ARM】FPU,VFP,ASE,NEON,SVE...是什么意思？亿道电子Emdoor ARM arm开发 ARM
1、文档目标对执行浮点和SIMD操作的逻辑的各种名称的缩写词进行简要解释。2、问题场景Arm处理器内核中有用于执行浮点和SIMD操作的逻辑，有各种名称。它们通常是一系列的缩写形式，因此本文旨在对每一个缩写词进行简要解释。3、软硬件环境1、软件版本：不涉及2、电脑环境：不涉及4、相关缩写FPU(Floating-PointUnit)浮点单元浮点单元是处理器核心中的一个模块，用于使用浮点数执行算术运算
深入理解汇编语言子程序设计与系统调用网安spinage 汇编语言开发语言汇编算法
本文将全面解析汇编语言中子程序设计的核心技术以及系统调用的实现方法，涵盖参数传递的多种方式、堆栈管理、API调用等关键知识点，并提供实际案例演示。一、子程序设计：参数传递的艺术1.寄存器传参：高效简洁.386.modelflat,stdcalloptioncasemap:none.dataxdd5;定义变量ydd6sumdd?.code;函数定义：addxy1addxy1procpushebpmo
平静得接受自己的笨拙 20190118 晨间日记吴伯符
图片发自App最近做了一个关于微习惯的分享，这里有八个字：微量开始，超额完成。这里的言下之意其实是要你在一开始的时候，平静地接受自己的笨拙。接受自己的笨拙，理解自己的笨拙，放慢速度尝试，观察哪里可以改进，再反复练习，观察自己哪里可以再进一步改进，再反复…这是学习一切技能的必须的过程。这里的两个关键点是：1.尽快的开始这个过程，这就能够用到微习惯的微量开始。2.尽快的度过这个过程，这就需要用到超额完
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
Java并发核心：线程池使用技巧与最佳实践！ | 多线程篇(五) bug菌¹ Java实战(进阶版)java Java零基础入门 Java并发线程池多线程篇
本文收录于「Java进阶实战」专栏，专业攻坚指数级提升，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！环境说明：Windows10+IntelliJIDEA2021.3.2+Jdk1.8本文目录前言摘要正文何为线程池？为什么需要线程池？线程池的好处线程池使用场景如何创建线程池？线程池的常见配置源码解析案例分享案例代码演示案例运行
Effective C++ 条款10：令operator=返回一个reference to *this 君鼎 C++c++
EffectiveC++条款10：令operator=返回一个referenceto*this核心思想：赋值操作符（operator=）应始终返回当前对象的引用（*this），以实现连锁赋值并保持与内置类型一致的语义。⚠️1.问题场景：违反连锁赋值语义classWidget{public:voidoperator=(constWidget&rhs){//错误：返回voidvalue=rhs.val
JVM 内存分配与回收策略：从对象创建到内存释放的全流程
在JVM的运行机制中，内存分配与回收策略是连接对象生命周期与垃圾收集器的桥梁。它决定了对象在堆内存中的创建位置、存活过程中的区域迁移，以及最终被回收的时机。合理的内存分配策略能减少GC频率、降低停顿时间，是优化Java应用性能的核心环节。本文将系统解析JVM的内存分配规则、对象晋升机制，以及实战中的内存优化技巧。一、对象优先在Eden区分配：新生代的“临时缓冲区”大多数情况下，Java对象在新生代
猎板 PCB 控深槽工艺：5G 基站散热模块的关键支撑猎板PCB黄浩 5G 运维数据库
PCB控深槽工艺在5G基站散热模块中的关键作用：猎板PCB的技术突破在5G基站的密集高频信号与高功率运行环境下，散热性能直接决定了设备的稳定性和寿命。猎板PCB通过创新性的控深槽工艺（控深锣/控深铣），结合材料科学与结构优化，为5G基站散热模块提供了高精度、高可靠性的解决方案，有效攻克了高热负荷下的技术瓶颈。一、5G基站散热的核心挑战热负荷激增：5G基站的射频功放（PA）、电源管理模块等器件功耗显
女生必备技能：如何一眼辨别渣男？艾零的奇异世界
我相信女孩子都不喜欢渣男，虽然也很喜欢看那些渣男出现的奇葩事，而且看完还得自己思考一下人生，这癖好我懂我懂！不过最近渣男出现的频率极高，甚至有点儿惊悚。3月28日芜湖市新市口，红色路虎车上烧死两人。只因男子苦追女子被拒。结果呢，男子想着呀，那就一起命送黄泉！可怜的女孩子死都没法摆脱渣男。4月12日，22岁女孩带着肚子里的孩子自杀，而渣男是准备继承皇位的花花公子。女孩3个月内打胎2次，自杀后还被键盘
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
元宇宙中的视觉技术：虚拟化身与场景生成 xcLeigh 计算机视觉CV 元宇宙虚拟化身场景生成 AIGC 数字孪生
元宇宙中的视觉技术：虚拟化身与场景生成前言一、元宇宙与视觉技术的深度关联1.1元宇宙概念深度剖析1.2视觉技术：元宇宙的“灵魂之窗”二、虚拟化身：数字世界的“第二自我”2.1虚拟化身技术的深度解析2.1.1核心技术构成2.1.2技术实现原理与流程2.2虚拟化身的应用领域及案例展示2.2.1游戏娱乐领域2.2.2教育培训领域三、场景生成：构建元宇宙的虚拟天地3.1场景生成技术全景透视3.1.1关键技
【Coze搞钱实战】3. 避坑指南：对话流设计中的6个致命错误（真实案例） AI_DL_CODE Coze平台对话流设计客服Bot避坑用户流失封号风险智能客服配置故障修复指南
摘要：对话流设计是智能客服Bot能否落地的核心环节，直接影响用户体验与业务安全。本文基于50+企业Bot部署故障分析，聚焦导致用户流失、投诉甚至封号的6大致命错误：无限循环追问、人工移交超时、敏感词过滤缺失、知识库冲突、未处理否定意图、跨平台适配失败。通过真实案例拆解每个错误的表现形式、技术根因及工业级解决方案，提供可直接复用的Coze配置代码、工作流模板和检测工具。文中包含对话流健康度检测工具使
C++编程基础与面向对象概念解析侯昂面向对象编程 C++语法函数类与对象继承与多态性
C++编程基础与面向对象概念解析背景简介C++是一种广泛使用的面向对象编程语言，它允许开发者创建高效、灵活且功能强大的程序。本文基于《C++Primer》一书的章节内容，深入解析C++的核心概念和面向对象编程原则，旨在帮助读者构建扎实的C++编程基础。面向对象编程的原则软件危机与进化介绍了软件危机的产生和软件进化的必要性，强调了面向对象编程（OOP）在应对这些问题中的优势。面向对象编程范式讨论了面
Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
办公党必备！Excel文件批量加密神器！一键保护你的重要数据阿幸软件杂货间 Excel excel
软件介绍今天推荐的这一款专为Excel文件设计的批量加密工具，能够帮助用户快速、高效地为多个Excel文件设置密码保护，有效防止数据泄露。软件特点本地化离线处理支持批量操作完全免费软件操作选择你需要加密的文件和路径，设置密码进行加密即可软件下载夸克网盘迅雷网盘UC网盘
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l