数据结构与算法学习

数据结构与算法中外部排序的详细剖析

关键词：外部排序、归并排序、多路归并、置换选择排序、败者树、磁盘I/O优化、大数据处理

摘要：本文将深入探讨外部排序技术，这是处理大规模数据时不可或缺的算法。我们将从基本概念出发，逐步解析多路归并、置换选择排序等核心技术，并通过实际代码示例展示如何实现高效的外部排序。文章还将分析外部排序在现代大数据处理中的应用场景和优化策略。

背景介绍

目的和范围

本文旨在全面介绍外部排序的核心概念、算法原理和实现细节，帮助读者理解如何高效处理无法全部装入内存的大规模数据集。我们将覆盖从基础理论到高级优化的完整知识体系。

预期读者

本文适合有一定数据结构基础的计算机专业学生、软件工程师以及对大数据处理感兴趣的技术人员。读者应熟悉基本的排序算法和文件操作概念。

文档结构概述

文章将从外部排序的基本概念开始，逐步深入探讨各种实现技术和优化策略，最后通过实际案例展示其应用。

术语表

核心术语定义

外部排序：处理数据量超过内存容量时的排序算法
归并段(Run)：已排序的数据块
置换选择排序：生成初始归并段的算法
败者树：多路归并中选择最小元素的优化数据结构

缩略词列表

I/O：输入/输出(Input/Output)
RAM：随机存取存储器(Random Access Memory)
HDD：硬盘驱动器(Hard Disk Drive)
SSD：固态硬盘(Solid State Drive)

核心概念与联系

故事引入

想象你是一个图书馆管理员，需要将100万本书按编号排序。你的办公桌(内存)只能同时放100本书(数据)，而所有书都存放在仓库(磁盘)中。如何高效完成这个任务？这就是外部排序要解决的问题！

核心概念解释

核心概念一：外部排序的基本思想
外部排序就像处理大量文件时的"分而治之"策略。它分为两个阶段：

将大数据分割成能放入内存的小块，分别排序后写回磁盘
将这些有序小块逐步合并成最终的有序文件

核心概念二：归并段(Run)
归并段是已经排好序的数据块，就像图书馆中已经整理好的小书堆。外部排序的关键就是高效生成和合并这些归并段。

核心概念三：多路归并
传统归并排序是两路归并(每次合并2个序列)，而多路归并可以同时合并多个有序序列，就像同时比较多叠卡片的最上面一张，选出最小的一张。

核心概念之间的关系

概念一和概念二的关系
外部排序依赖归并段作为基本处理单元。首先生成多个归并段，然后合并它们。就像先整理好多个小书堆，再把这些小书堆合并成大书堆。

概念二和概念三的关系
归并段是多路归并的输入，而多路归并是处理归并段的主要手段。就像多路归并是"搅拌机"，而归并段是待搅拌的"食材"。

概念一和概念三的关系
多路归并是外部排序的核心操作，决定了整体效率。就像图书馆整理工作中，同时比较多个书堆的能力决定了整体整理速度。

核心概念原理和架构的文本示意图

[原始大数据文件]
    ↓ (分块读取)
[内存排序]
    ↓ (写回磁盘)
[多个有序归并段]
    ↓ (多路归并)
[最终有序文件]

Mermaid 流程图

是

否

原始大数据文件

分块读取到内存

内存排序

写回磁盘形成归并段

还有未处理的归并段?

多路归并

最终有序文件

核心算法原理 & 具体操作步骤

外部排序主要包含两个阶段：生成初始归并段阶段和多路归并阶段。我们将用Python代码示例来说明关键步骤。

1. 生成初始归并段

传统方法是简单分块排序，但更高效的方法是使用置换选择排序算法：

def replacement_selection_sort(input_file, output_run_file, buffer_size):
    # 初始化缓冲区
    buffer = []
    with open(input_file, 'r') as f_in:
        # 首次填充缓冲区
        while len(buffer) < buffer_size:
            line = f_in.readline()
            if not line:
                break
            buffer.append(int(line.strip()))
        
        # 构建最小堆
        heapq.heapify(buffer)
        
        with open(output_run_file, 'w') as f_out:
            while buffer:
                # 取出最小元素写入当前归并段
                min_val = heapq.heappop(buffer)
                f_out.write(f"{min_val}\n")
                
                # 从输入文件读取下一个元素
                line = f_in.readline()
                if line:
                    new_val = int(line.strip())
                    # 如果新元素大于等于刚输出的元素，可以加入当前归并段
                    if new_val >= min_val:
                        heapq.heappush(buffer, new_val)
                    else:
                        # 否则暂存，用于下一个归并段
                        pass  # 实际实现需要处理暂存逻辑
                else:
                    # 输入文件已读完
                    pass

2. 多路归并实现

使用败者树优化多路归并的Python示例：

def k_way_merge(run_files, output_file):
    # 打开所有归并段文件
    files = [open(run_file, 'r') for run_file in run_files]
    # 初始化各文件的当前元素
    current_values = []
    for f in files:
        line = f.readline()
        if line:
            current_values.append((int(line.strip()), files.index(f)))
    
    # 构建败者树(这里简化使用堆)
    heapq.heapify(current_values)
    
    with open(output_file, 'w') as f_out:
        while current_values:
            # 获取当前最小值
            min_val, file_idx = heapq.heappop(current_values)
            f_out.write(f"{min_val}\n")
            
            # 从对应文件读取下一个元素
            line = files[file_idx].readline()
            if line:
                heapq.heappush(current_values, (int(line.strip()), file_idx))
    
    # 关闭所有文件
    for f in files:
        f.close()

数学模型和公式

外部排序的性能主要受以下因素影响：

磁盘I/O次数：这是主要性能瓶颈
- 生成初始归并段阶段： $\times \lceil \frac{N}{M} \rceil$ 次I/O
- 归并阶段： $\times \lceil \log_k(\frac{N}{M}) \rceil \times N$ 次I/O
  其中：
- $N$ = 总记录数
- $M$ = 内存可容纳记录数
- $k$ = 归并路数
归并路数选择：
最优归并路数 $k$ 满足：
$\min(\lfloor \frac{M}{B} \rfloor - 1, \frac{N}{M})$
其中 $B$ 是每个记录的大小。
置换选择排序的平均归并段长度：
$L_{avg} = 2M$
这比简单分块排序的 $M$ 要好得多。

项目实战：代码实际案例和详细解释说明

开发环境搭建

Python 3.8+
安装heapq模块（Python标准库）
准备一个大型数据文件（如1GB的随机整数文本文件）

完整外部排序实现

import heapq
import os
import tempfile

class ExternalSorter:
    def __init__(self, input_file, output_file, buffer_size=100000):
        self.input_file = input_file
        self.output_file = output_file
        self.buffer_size = buffer_size
        self.temp_files = []
    
    def _create_initial_runs(self):
        """生成初始归并段"""
        temp_buffer = []
        run_counter = 0
        
        with open(self.input_file, 'r') as f_in:
            while True:
                # 读取一块数据到内存
                for _ in range(self.buffer_size):
                    line = f_in.readline()
                    if not line:
                        break
                    temp_buffer.append(int(line.strip()))
                
                if not temp_buffer:
                    break
                
                # 在内存中排序
                temp_buffer.sort()
                
                # 写入临时文件
                temp_file = tempfile.NamedTemporaryFile(delete=False, mode='w')
                self.temp_files.append(temp_file.name)
                for num in temp_buffer:
                    temp_file.write(f"{num}\n")
                temp_file.close()
                
                run_counter += 1
                temp_buffer = []
                
                if not line:
                    break
    
    def _merge_runs(self):
        """合并归并段"""
        # 打开所有临时文件
        file_handles = []
        current_values = []
        
        for temp_file in self.temp_files:
            f = open(temp_file, 'r')
            file_handles.append(f)
            line = f.readline()
            if line:
                current_values.append((int(line.strip()), len(file_handles)-1))
        
        # 构建最小堆
        heapq.heapify(current_values)
        
        with open(self.output_file, 'w') as f_out:
            while current_values:
                # 获取当前最小值
                val, file_idx = heapq.heappop(current_values)
                f_out.write(f"{val}\n")
                
                # 从对应文件读取下一个元素
                line = file_handles[file_idx].readline()
                if line:
                    heapq.heappush(current_values, (int(line.strip()), file_idx))
        
        # 清理临时文件
        for f in file_handles:
            f.close()
        for temp_file in self.temp_files:
            os.unlink(temp_file)
    
    def sort(self):
        """执行外部排序"""
        self._create_initial_runs()
        self._merge_runs()

# 使用示例
if __name__ == "__main__":
    # 生成测试数据(实际使用时应该准备一个大型数据文件)
    with open('large_input.txt', 'w') as f:
        import random
        for _ in range(1000000):  # 100万条数据
            f.write(f"{random.randint(1, 1000000)}\n")
    
    # 执行外部排序
    sorter = ExternalSorter('large_input.txt', 'sorted_output.txt', buffer_size=10000)
    sorter.sort()

代码解读与分析

初始归并段生成：
- 分块读取输入文件到内存缓冲区
- 在内存中使用快速排序对每块数据进行排序
- 将排序后的数据写入临时文件，形成多个有序归并段
多路归并阶段：
- 使用最小堆数据结构高效选择最小元素
- 每次从堆顶取出最小元素写入输出文件
- 从对应归并段文件读取下一个元素加入堆中
优化点：
- 使用临时文件管理归并段
- 自动清理临时文件
- 可配置的缓冲区大小

实际应用场景

数据库管理系统：
- 大型表排序操作
- 创建索引时的排序过程
- 大规模JOIN操作的预处理
大数据处理框架：
- Hadoop MapReduce中的shuffle阶段
- Spark的sort-based shuffle
- 分布式排序算法的基础
科学计算：
- 处理大规模实验数据
- 基因组数据分析
- 气候模拟数据处理
商业应用：
- 金融交易记录处理
- 电商平台订单分析
- 日志文件分析

工具和资源推荐

开源实现：
- GNU sort命令(Unix/Linux系统工具)
- Apache Hadoop的TeraSort实现
- Spark的sort操作
性能分析工具：
- Linux perf工具
- Python cProfile模块
- Valgrind(内存分析)
学习资源：
- 《算法导论》(Introduction to Algorithms)中的外部排序章节
- 《数据库系统实现》(Database System Implementation)中的外部排序讨论
- MIT OpenCourseWare的算法课程
测试数据集：
- Google BigQuery公开数据集
- Kaggle上的大型数据集
- 自己生成的随机数据工具

未来发展趋势与挑战

存储硬件演进的影响：
- SSD的普及减少了磁盘I/O延迟
- 非易失性内存(NVM)可能改变外部排序的范式
- 存储级内存(SCM)的潜力
分布式计算的发展：
- 云原生外部排序算法
- 异构计算资源的利用(GPU排序)
- 边缘计算环境下的外部排序
算法优化方向：
- 自适应归并策略
- 混合内存-磁盘排序算法
- 机器学习辅助的排序优化
主要挑战：
- 数据量增长速度超过硬件改进速度
- 能源效率问题
- 数据隐私和安全要求提高

总结：学到了什么？

核心概念回顾：

外部排序是处理大数据集的基本技术，通过"分而治之"策略解决内存限制问题
归并段是外部排序的基本单元，其生成质量直接影响整体效率
多路归并是提高效率的关键，败者树等数据结构可以优化这一过程

概念关系回顾：

生成归并段和多路归并是外部排序的两个不可分割的阶段
置换选择排序通过智能选择元素可以产生更长的归并段，减少归并次数
内存缓冲区大小、归并路数等参数需要根据具体硬件和数据集特点进行调优

思考题：动动小脑筋

思考题一：
如果让你设计一个针对SSD优化的外部排序算法，你会考虑哪些与HDD不同的优化策略？

思考题二：
如何将外部排序算法扩展到分布式环境，使其能在多台机器上并行处理超大规模数据集？

思考题三：
假设你有一个1TB的数据文件需要排序，但内存只有8GB，磁盘是普通HDD。请估算使用外部排序需要的大致时间，并说明你的计算依据。

附录：常见问题与解答

Q1: 外部排序为什么比内部排序慢很多？
A1: 主要因为磁盘I/O速度远低于内存访问速度。每次磁盘访问的延迟可能在毫秒级，而内存访问是纳秒级。

Q2: 什么时候应该考虑使用外部排序？
A2: 当数据集大小超过可用内存的1/3时就应考虑外部排序。具体阈值取决于数据结构和可用资源。

Q3: 多路归并的路数是否越多越好？
A3: 不是。随着路数增加，每次比较的开销会增加。最优路数取决于可用内存和I/O子系统特性。

Q4: 外部排序在现代还有用吗？内存已经很大了。
A4: 仍然非常重要。虽然单机内存增大，但数据量增长更快，而且分布式环境下每台机器的内存仍然是有限资源。

扩展阅读 & 参考资料

Knuth, D. E. (1998). The Art of Computer Programming, Volume 3: Sorting and Searching. Addison-Wesley.
Garcia-Molina, H., Ullman, J. D., & Widom, J. (2008). Database Systems: The Complete Book. Pearson Education.
Apache Hadoop TeraSort实现源码
Arpaci-Dusseau, R. H., & Arpaci-Dusseau, A. C. (2014). Operating Systems: Three Easy Pieces. Arpaci-Dusseau Books.
相关研究论文：
- “A New Algorithm for External Sorting” - ACM Transactions on Database Systems
- “External Memory Algorithms and Data Structures” - J. Abello et al.

英伟达靠什么支撑起了4万亿？AI泡沫还能撑多久？
英伟达市值突破4万亿美元，既是AI算力需求爆发的直接体现，也暗含市场对未来的狂热预期。其支撑逻辑与潜在风险并存，而AI泡沫的可持续性则取决于技术、商业与地缘政治的复杂博弈。⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势：英伟达GPU在AI训练市场占有率超87%，H100芯片的FP16算力达1979TFLOPS，领先竞品3-5倍。CUDA生态：400万开发者构建的软件护城河，成为A
Spring进阶 - SpringMVC实现原理之DispatcherServlet处理请求的过程倾听铃的声后端 spring java mvc 开发语言分布式
前文我们有了IOC的源码基础以及SpringMVC的基础，我们便可以进一步深入理解SpringMVC主要实现原理，包含DispatcherServlet的初始化过程和DispatcherServlet处理请求的过程的源码解析。本文是第二篇：DispatcherServlet处理请求的过程的源码解析。@pdaiSpring进阶-SpringMVC实现原理之DispatcherServlet处理请求的
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
2025年SDK游戏盾终极解析：重新定义手游安全的“隐形护甲” 上海云盾商务经理杨杨游戏安全
副标题：从客户端加密到AI反外挂，拆解全链路防护如何重塑游戏攻防天平引言：当传统高防在手游战场“失效”2025年全球手游市场规模突破$2000亿，黑客单次攻击成本却降至$30——某SLG游戏因协议层CC攻击单日流失37%玩家，某开放世界游戏遭低频DDoS瘫痪6小时损失千万。传统高防IP的致命短板暴露无遗：无法识别伪造客户端流量、难防协议篡改、误杀率超15%。而集成于游戏终端的SDK游戏盾，正以“源
LVS+Keepalived实现高可用和负载均衡 2401_84412895 程序员 lvs 负载均衡运维
2、开启网卡子接口配置VIP[root@a~]#cd/etc/sysconfig/network-scripts/[root@anetwork-scripts]#cp-aifcfg-ens32ifcfg-ens32:0[root@anetwork-scripts]#catifcfg-ens32:0BOOTPROTO=staticDEVICE=ens32:0ONBOOT=yesIPADDR=10.1
CodeFoeces-450B ss5smi
题目原题链接：B.JzzhuandSequences题意根据公式公式计算对应fn的值。参考了其他作者的代码和思路。找循环点。负数取余需要加取余数到>0为止才可取余。代码#includeusingnamespacestd;constintmod=1e9+7;intmain(){longlongf[10],x,y,n;cin>>x>>y>>n;x=(x+mod)%mod;y=(y+mod)%mod;f
二十四节气组诗谷雨离陌_6639
图片来源网络，若侵犯了你的权益，请联系我删除6.谷雨文/离陌背上行囊背上如行囊的我从此任行程马不停蹄今天家乡的田野春雨快马加鞭播下希望的种子观音不语目送着我和夏天一道在观音山出关图片来源网络，若侵犯了你的权益，请联系我删除你好啊，我是离陌，已然在懵懂中走过了16年的岁月，为了珍惜当下的每一秒，所以立志做一名终身学习者。文学对于我来说是一种信仰，诗歌是我的生命。人生之道，四通八达，即入文学，自当持之
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
【异常】使用 LiteFlow 框架时，提示错误ChainDuplicateException: [chain name duplicate] chainName=categoryChallenge 本本本添哥 002 -进阶开发能力 java
一、报错内容Causedby:com.yomahub.liteflow.exception.ChainDuplicateException:[chainnameduplicate]chainName=categoryChallengeatcom.yomahub.liteflow.parser.helper.ParserHelper.lambda$null$0(ParserHelper.java:1
北斗短报文兜底、5G-A增强：AORO P1100三防平板构建应急通信网络
公网中断的灾区现场，泥石流阻断了最后一条光缆。一支救援队却在废墟间有序穿行，队长手中的三防平板正闪烁着北斗卫星信号，定位坐标与伤亡信息化作一行行短报文，穿透通信孤岛直达指挥中心。这是AOROP1100三防平板搭载的北斗短报文功能在应急救援中的真实场景，更代表了工业移动终端在极端环境下的能力跃迁。AOROP1100三防平板作为遨游通讯2025年推出的旗舰三防设备，AOROP1100三防平板的技术基底
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
7月29日星期二今日早报简报微语报早读微语早读生活
7月29日星期二，农历闰六月初五，早报#微语早读。1、国家育儿补贴方案公布！3周岁前每娃每年3600元；2、火狐浏览器官宣关闭北京公司，将终止中国账户服务；3、税务总局：2021年以来查处网络主播偷逃税案件360余起，查补税款30多亿元；4、江苏省体育局：职业俱乐部获男足中超冠军奖补3000万元；5、深圳出现首宗基孔肯雅热病例；6、税务总局：从今年个税汇算看，超1亿纳税人依法申请退税1300多亿，
02-Breakout靶机攻略 ZLlllllll0 02-Breakout靶机
第一步搭建靶机下载地址：https://download.vulnhub.com/empire/02-Breakout.zip下载好了之后直接用VM打开然后右击虚拟机，把网络连接改成nat模式第二步，信息收集然后开启虚拟机，左上角编辑，虚拟网络编辑器里面看一下靶机是哪个网段。打开kali用nmap扫一下的这个网段的存活主机，也就是扫除这个靶机的具体ip地址nmap192.168.109.1/24扫
何为社群？ ohh_1636
一般社会学家与地理学家所指的社群(community)，广义而言是指在某些边界线、地区或领域内发生作用的一切社会关系。它可以指实际的地理区域或是在某区域内发生的社会关系，或指存在于较抽象的、思想上的关系，除此之外。Worsley(1987)曾提出社群的广泛涵义：可被解释为地区性的社区；用来表示一个有相互关系的网络；社群可以是一种特殊的社会关系，包含社群精神(communityspirit)或社群情
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
严重的DDoS 攻击澳大利亚主要宽带提供商 Fancy1816575412
本周早些时候，澳大利亚最大的固定无线宽带运营商CirrusCommunications遭受了一次重大的DDoS攻击，导致其一半以上的网络瘫痪。该公司在其网站上声称：“强大的架构、数百个传输站点以及光纤和微波回程的使用使其能够以非常高的正常运行时间提供高速”。CirrusCommunications表示，它覆盖了澳大利亚十大人口中心以及几个主要的区域中心，主要为企业和政府客户提供服务。然而，据The
Selenium 特殊控件操作与 ActionChains 实践详解小馋喵知识杂货铺 selenium 测试工具
1.下拉框单选操作(a)使用SeleniumSelect类（标准HTML标签）Selenium提供了内置的Select类用于操作标准下拉框，这种方式简单且直观。fromselenium.webdriver.support.uiimportSelect#定位下拉框dropdown=Select(driver.find_element("id","dropdown_id"))#通过以下三种方式选择单个
DPDK 技术详解：榨干网络性能的“瑞士军刀”
你是否曾感觉，即使拥有顶级的服务器和万兆网卡，你的网络应用也总是“喂不饱”硬件，性能总差那么一口气？传统的网络处理方式，就像在高速公路上设置了太多的收费站和检查点，限制了数据包的“奔跑”速度。今天，我们要深入探讨一个能够打破这些瓶颈，让你的网络应用快到飞起的“黑科技”——DPDK(DataPlaneDevelopmentKit，数据平面开发套件)。这不仅仅是一个工具包，更是一种全新的网络处理哲学。
老公的女朋友把我打成小三后，我杀疯了周昊净许青青小说完结推荐_最热门小说老公的女朋友把我打成小三后，我杀疯了周昊净许青青小富江呀
《老公的女朋友把我打成小三后，我杀疯了》主角：周昊净许青青简介：只因跟老公说了几句情话，就被老公的‘女朋友’当成小三。她带着一群自诩为“惩治小三联盟”的网络判官冲进了我家。“怎么，有脸当小三，没脸承认？”“从你当小三的那一刻起，就该想到会有被人收拾的一天！”“我们网络判官专治道德败坏的贱人！”这群人一边疯狂大骂，一边愤怒打砸。看着狼藉不堪的家，我面色平静地给公司法务部发去消息。“按照婚前协议，拟一
Pktgen-DPDK：开源网络测试工具的深度解析与应用艾古力斯
本文还有配套的精品资源，点击获取简介：Pktgen-DPDK是基于DPDK的高性能流量生成工具，适用于网络性能测试、硬件验证及协议栈开发。它支持多种网络协议，能够模拟高吞吐量的数据包发送。本项目通过利用DPDK的高速数据包处理能力，允许用户自定义数据包内容，并实现高效的数据包管理与传输。文章将指导如何安装DPDK、编译Pktgen、配置工具以及使用方法，最终帮助开发者和网络管理员深入理解并优化网络
链商拉不到人能赚钱么，谈谈我的看法糖葫芦不甜
链商作为一种新兴的商业形态，往往依赖于用户网络的扩展和交易量的增加来实现价值增长，但这并不意味着没有直接拉新就无法盈利。以下是我对这一问题的几点看法：招合作伙伴↓微信在文章底部。首先，链商能否赚钱，关键在于其是否能提供独特且有价值的产品或服务。如果链商平台能够构建出高效、透明、安全的价值交换体系，解决行业痛点，提升用户体验，那么即使没有大规模的拉新活动，也能通过现有用户的口碑传播和持续使用来产生稳
Zread.AI：一键将GitHub项目转化为结构化中文手册的AI代码维基工具
Zread.AI：一键将GitHub项目转化为结构化中文手册的AI代码维基工具文章来源：PoixeAI文章目录Zread.AI工具概述核心功能优势亮点典型应用场景上手指南注意事项官网地址Zread.AI由智谱Z.ai推出，是一款面向开发者的AI代码维基工具，可在几秒内把任何公开GitHub仓库转化为结构化中文手册，并通过独家Buzz面板聚合commits、issues与相关新闻，让项目脉搏一目了然
学C++的五大惊人好处
为什么要学c++学c++有什么用学习c++的好处有1.中考可以加分2.高考可能直接录取3.就业广且工资高4.在未来30--50年c++一定是一个很受欢迎的职业5.c++成功的例子deepsick等AI智能C++语言兼备编程效率和编译运行效率的语言C++语言是C语言功能增强版,在c语言的基础上添加了面向对象编程和泛型编程的支持既继承了C语言高效，简洁，快速和可移植的传统,又具备类似Java、Go等其
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
Android GreenDao介绍和Generator生成表对象代码
目录(?)[-]介绍创建工程转载请注明：http://blog.csdn.net/sinat_30276961/article/details/50052109最近无意中发现了GreenDao，然后查看了一些资料后，发现这个数据库框架很适合用，于是乎，查看了官网的api，并自己写了一个小应用总结一下它的使用方法。介绍按照国际惯例，在开篇，总要先介绍一下什么是GreenDao吧。首先需要说明的是Gr
《UNIX网络编程卷1：套接字联网API》第8章：基本UDP套接字编程深度解析
《UNIX网络编程卷1：套接字联网API》第8章：基本UDP套接字编程深度解析（8000字图文实战）一、UDP协议核心特性与编程模型1.1UDP协议设计哲学UDP（UserDatagramProtocol）是面向无连接的传输层协议（图1），其核心特征包括：无连接通信：无需三次握手，直接发送数据报尽最大努力交付：不保证可靠性、不维护连接状态报文边界保留：接收方读取的数据与发送方写入完全一致低开销高效
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin

数据结构与算法中外部排序的详细剖析