本文来自 网易云社区
最近为产品做了一次HBase的数据迁移操作,学习了一些相关的技术和实现方案。现整理出来,作为今后HBase数据迁移的参考。如有纰漏,欢迎指正。
1. 前期准备
1.1 确认集群使用的版本
源HBase集群(以下称旧集群)和目的HBase集群(以下称新集群)的版本可能并不是一致的,特别是其底层所使用的HDFS版本信息。譬如这样一个数据迁移场景:业务希望从低版本的HBase集群(0.94.x)迁移到当前稳定的HBase集群(1.2.x),因为新版本的HBase有新特性,Bug更少,稳定性和可运维行更优。理论上新版本会兼容老版本的API,但是如果彼此版本差距过大,可能会出现HDFS RPC版本不一致(一般来说是Protobuf的版本),那么集群之间的迁移就会因为彼此与对方的NameNode无法进行通信而无法进行。 这种情况下,需要先考虑升级低版本的HDFS。
1.2 确认集群是否开启Kerberos认证
这里会有三种可能情况:一是都未开启认证,二是都开启认证,三是一个开了,另一个没开。前两种情况按照正常的认证(或非认证)的配置操作即可,第三种情况则需要在开启了认证的集群上开启 ipc.client.fallback-to-simple-auth-allowed 参数,意即在使用Kerberos的方式访问非Kerberos的集群时,系统自动转换成简单认证,否则会出现认证问题。Kerberos的配置和使用本文不做展开。
1.3 确认操作账号的读写权限问题
要在不同的HBase集群之间做数据迁移,必然要涉及到不同集群的读写权限问题。HBase使用ACL来管理不同数据表的读写权限,在开启了Kerberos认证的环境下,还需要验证Kerberos;而HBase使用的HDFS自身也有一套类似的权限管理规则,当两个集群配置不同时(如部署账号不一致),极易出现冲突。在迁移前需要确认两个集群的管理员账号(HDFS和HBase账号)是否一致,如果不一致,需要开通权限。
1.4 开启YARN服务
数据迁移任务本质上是一个MapRedcue任务,故需要在一个集群上开启YARN服务。如何选择在哪个集群上开呢?建议是在新集群上开,因为旧集群上可能还需要继续跑线上业务,在上面起大量Map任务并把数据远程写入到新集群,会对线上业务带来较大的性能影响;而新集群较大可能是一个独立集群,尚没有业务运行,在其上运行Map任务通过网络从旧集群中拉数据到本地写入,性价比更高,且对线上业务的侵入性更低。
在HBase集群上配置YARN服务可以查阅其安装部署文档,这里不做展开。
1.5 确认数据迁移的SLA
数据迁移是否是在线迁移,即业务不能中断。若业务允许做离线迁移,可以先将该表Disable后再做迁移,然后在新集群上重新clone成新表即可;但若需要在线进行迁移,则需要提前新集群上生成对应的HBase表,开启ACL权限等操作,并让业务开启数据双写,确保两个集群的数据在迁移时刻之后的数据是一致的。因为数据迁移和后续的数据合并耗时都很长,如果不开启双写,是无法达到数据一致性要求的。所以大多数情况下,业务都是要求数据迁移以在线方式进行。
1.6 源集群开启Snapshot
HBase的Snapshot是从0.94.6之后才引入的特性,开启Snapshot特性需要开启 hbase.snapshot.enabled (默认已开启)。如果没有开启该特性,则需要重启服务以开启该特性;如果版本过低,就只能使用其他对业务影响较大的CopyTable/ExportTable(需要Disable表)才能操作。
2. 生成HBase表和Region
完成前期的验证和准备工作后,就可以在新集群中创建待迁移的目的表和域(以下称Region)了。 因为迁移过程中业务需要开启双写,所以目的表结构必须和源表是一致;同时源数据表可能已经存在多个Region了,那么目的表也必须提前规划好这些Region,以免双写期间出现Region数量不足出现热点或者Region内文件数过多频繁Compact导致线上业务出现性能问题。 这里详细说明下如何正确创建一个带有多个Region的表。
2.1 使用RegionSplitter生成表
如果新建一个自带多个Region的表,可以使用以下命令:
例1. 生成一个表 t1, 有30个region,且表有一个列族"d",则使用
bin/hbase org.apache.hadoop.hbase.util.RegionSplitter t1 UniformSplit -c 30 -f d
例2. 生成一个表 t2, 有10个region,有两个列族 d1,d2, 其起始rowkey是'0'
bin/hbase org.apache.hadoop.hbase.util.RegionSplitter t2 UniformSplit -c 10 -f d1:d2 --firstrow '0'
2.2 使用HBase Shell生成表
使用HBase shell中的create命令也可以直接生成多个Regions,前提是必须要指定split keys
例3. 生成一个表 t3,按照'10','20','30','40'为Regions的split keys
create 't3', 'f1', SPLITS => ['10', '20', '30', '40']
整个表划分成5个Region,其起始和结束key分别是 ['0','10'],['10','20'],['20','30'],['30','40'],['40',-]
2.3 将已有的表重新切分或合并
如果一个表的Region范围过大,可以使用split来将其切分成两个子Region
split 't1', '1'
split '110e80fecae753e848eaaa08843a3e87', '\x001'
同理,如果表的Region过于零散,可以使用merge_region来进行合并
hbase> merge_region 'ENCODED_REGIONNAME', 'ENCODED_REGIONNAME'
hbase> merge_region 'ENCODED_REGIONNAME', 'ENCODED_REGIONNAME', true
具体的操作命令用户可以自己查看HBase的相关文档来了解。
注: 在为迁移的目的表划分多个Region时,其StartEndKey最好和旧HBase集群中源表分布一致。这样后续文件加载时,不需要额外进行过多的拆分,可以节省载入时间。另外有一点需要说明,使用splitKey时,系统不支持Hex字符串。 如果想用HexString来作为自己Region的StartKey,则需要对HBase的客户端代码进行简单的修改。简单来说需要能支持Bytes.toBinaryString()方法, 但系统读取后都是直接用Byets.toBytes()方法。 具体的代码实现,可以私聊。
3. Snapshot机制与使用
HBase快照是一份指向多个HFile文件的元数据文件。在执行snapshot命令时,不会触发任何的HBase数据操作,所以这个命令非常高效。使用快照来恢复或克隆一个表也非常快,因为它只需要引用已有的HFile文件即可。所以使用Snapshot进行数据迁移的优势就是备份和拷贝数据对线上服务没有影响,或者影响极低。其流程如下:
执行snapshot命令时,Master会从自己管理的meta信息中,找到该表所在RegionServer,然后下发该命令到相应的一个或多个RegionServer(RS)
RS负责生成HFile文件引用,同时会获取其Region的HFile文件信息,将当前文件的大小写入到manifest文件中。
HFile文件是使用Append方式来添加的,所以某一个时刻的文件大小相当于记录了一份当前时刻的文件偏移量。 恢复时,系统也只会读到该偏移量的位置。 如果想再次对该表做快照,那么文件引用的偏移量会正确设置为当前HFile的大小。
Snapshot命令有一个skipFlush参数,设置为true时,会强制将RS的MemStore里内容刷到磁盘中,可能会造成RS短暂的中止服务。时间长短视内存中的数据量而定。 在这里我们不需要靠强制刷新出内存中的数据来保证数据完整性,理由如下:
如果我们使用的是停服迁移的方式,那么使用快照时内存中是没有数据写入的。
如果使用的双写迁移的方案,则快照时存在于内存中的那部分数据实际上会被双写到另外的集群中,同样不会有数据丢失的问题。
3.1 创建快照
hbase> snapshot 'sourceTable', 'snapshotName'
hbase> snapshot 'namespace:sourceTable', 'snapshotName', {SKIP_FLUSH => true}
3.2 查看快照
hbase> list_snapshots
hbase> list_snapshots 'abc.*'
3.3 克隆快照
hbase> clone_snapshot 'snapshotName', 'tableName'
hbase> clone_snapshot 'snapshotName', 'namespace:tableName'
生成snapshot后,可以通过hadoop的Shell命令来查看到对应的snapshot目录
bin/hadoop fs -ls /hbase/.hbase-snapshot/newSnapshot
Found 2 items
-rw-r--r-- 3 xxx xxx 35 2017-04-24 21:58 /hbase/.hbase-snapshot/newSnapshot/.snapshotinfo
-rw-r--r-- 3 xxx xxx 486 2017-04-24 21:58 /hbase/.hbase-snapshot/newSnapshot/data.manifest
4. 使用ExportSnapshot工具迁移快照数据
ExportSnapshot是HBase提供的Snapshot迁移工具,其使用方法见下图:
可以看出,这个工具的参数列表和HDFS的DistCp工具很类似。其简要流程如下:
首先通过HDFS的cp方法,将/.hbase-snapshot/newSnapshot目录拷贝至新集群上
然后将/hbase/data/下面的数据文件通过MapReduce的方式(DistCp)拷贝至 新集群的/hbase/archive/data/
最后检查snapshot相关文件的完整性
5. 数据合并方式
一旦数据迁移到了新集群,我们可以通过clone_snapshot 命令重新生成该表,如果业务是一个可以支持离线迁移的,那迁移工作也就算完成了。更多的情况是,业务开了双写,即老集群和新集群同时在更新数据,我们需要把迁移后的数据进行合并。这里有三种方法:
5.1. 使用Phoenix SQL导入
需要在新集群上开启Phoenix支持(如何安装Phoenix见相关文档)
假设双写的新表为A',A'表必须使用Phoenix的接口来创建。其使用方法与常规的SQL语法类似,但是要注意其splitKey的用法:
例1. 创建一个表t1,只有一个列族f1,有1个修饰字段body, splitKey为['a','b','c']
CREATE TABLE IF NOT EXISTS t1
( "id" char(10) not null primary key, "f1".body varchar)
DATA_BLOCK_ENCODING='NONE',VERSIONS=5,MAX_FILESIZE=2000000 split on ('a', 'b', 'c')
使用clone_snapshot命令将迁移的数据重新生成一个HBase表B,然后再使用Phoenix的DDL重新生成B表(和实际的表B不会冲突,Phoenix的元数据存在另外的目录下),最后使用UPSERT SELECT命令将B表中的数据插入到双写的A’表即可
UPSERT INTO A'("id","f1".body) SELECT "id","f1".body FROM B;
注: 使用Phoenix的问题在于,原来的业务模式需要做较大改动以适应新的JDBC访问HBase方式。
5.2. 使用MapReduce导入
使用MapReduce导入需要有YARN服务支持,同样需要先使用clone_snapshot命令将迁移的数据重新生成一个HBase表。
用户需要使用HBase的API从表中读取记录,然后插入到新的表,这个方法实际上就是上面Phoenix的底层实现。如果集群没有安装Phoenix插件,可以用这个方法。但这个方法的缺点也是显而易见,需要自己写代码来实现在一个Map中实现上述操作,且如何切分RowKey到各个Map任务中也是一个不小的难题。
5.3. 使用IncrementLoadHFile工具
顾名思义,这个工具可以实现往HBase表中添加HFile来实现数据的批量写入,其使用方法如下:
bin/hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles
usage: completebulkload /path/to/hfileoutputformat-output tablename
-Dcreate.table=no - can be used to avoid creation of table by this tool
Note: if you set this to 'no', then the target table must already exist in HBase
这个工具的使用说明很简单,只需要提供一个HFile文件所在的Hdfs路径名和所需要写入的HBase Table名即可。 例1. 将/tmp/hbase/archive/data/test/test/f8510124151cabf704bc02c9c7e687f6目录下的HFile文件加载到test:test表中
bin/hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles -Dcreate.table=no /tmp/hbase/archive/data/test/test/f8510124151cabf704bc02c9c7e687f6 test:test
其实现原理说明如下:
首先确认目录下的HFile文件是否合法,得到一个文件列表。
从列表中获取某一个HFile,获取文件的起始和结束rowKey
查找要导入到新表的各个Region,得到其StartEndKeys(每次都是重新重启)
根据HFile的startKey,判断该HFile应该插入的Region位置
以该HFile的起始rowkey所要插入的Region的EndKey将文件切成top和bottom两部分,将这2个文件加入到待加载的文件列表中
使用SecureBulkLoadHFile方法一次性批量加载这些文件,如果其中有文件加载失败,则方法失败,返回异常的文件列表。
将返回的异常文件,加入到循环加载的文件列表里。
继续重复2-7整个流程,直至完成加载或达到重试阈值而异常退出。
SecureLoadHFile的原理也很简单,它是一个原子操作,所以操作过程中会有短暂的卡顿。
检查待加载的HFiles是否来自多个列族,需要对多个列族同时加锁以保障一致性。
检查该次操作是否满足相关权限要求,同时也会将对应的HFile文件进行权限变更操作
完成HFile文件加载,新的HFile引用被加入到Region的StoreFile列表中。
对这块逻辑感兴趣的同学,可以自行查阅SecureBulkLoadEndpoint,HRegion,HStore等类。
关于如何减少批量加载的时间,有以下几点需要注意:
如果新集群上的regions的起始和结束rowkey分布正好和旧集群一致,那么使用批量加载HFile的方式可以最快的方式来合并到线上表中。否则就需要针对新的Region来拆分HFile。
调整hbase.hregion.max.filesize 参数,该参数用于控制一个Region下的最大HFile的文件大小,超过该值后,系统会强制拆分这个文件。新旧集群上这个参数配置可能会不一致,为了尽快完成加载,可以考虑将其设置成一致,或者新集群上的配置更大,这样也能减少加载时间
该工具默认的重试次数是10次,即一个Hfile如果拆分次数超过10次,就会放弃本次批量加载。 需要注意留意日志
6. 数据验证
HFile文件增量加载更新完毕之后,进行数据验证流程。因为数据量实在太大,不可能对两边的HBase表中的记录做一一比对,故可进行抽样验证。按照Snapshot和双写的机制来讲,数据可能有重复,但不可能存在丢失的情况。验证算法描述如下:
按照迁移过程中不同阶段,划分成不同的时间区域。 对于每一个时间区间,选一个子区间作为样本
选定旧集群中的A表,获取其Region信息,得到每个Region的起始rowkey
按照每个Region的起始rowkey, 顺序查找 N 条该区间中的rowkey记录
根据上一步拿到的rowkey到相应的测试表中(A')中查找是否能找到匹配的记录。
找到记录后,对比相应Column+Cell信息,能够都完全匹配即为一个匹配的记录(因为双写的原因,时间戳会有先后,故不判断时间戳。rowkey已能满足要求)
使用Java连接Kerberized HBase的需要的配置如下:
hbase-site.xml
fs.defaultFS
hdfs://test1.163.org:8020
hbase.rootdir
hdfs://test1.163.org:8020/hbase
hbase.zookeeper.quorum
test1.163.org,test2.163.org,test3.163.org
zookeeper.znode.parent
/hbase
hbase.cluster.distributed
true
hadoop.security.authorization
true
hadoop.security.authentication
kerberos
hbase.rpc.timeout
180000
hbase.client.operation.timeout
120000
hbase.security.authentication
kerberos
hbase.security.authorization
true
dfs.namenode.principal
hdfs/[email protected]
hbase.master.kerberos.principal
hbase/[email protected]
hbase.regionserver.kerberos.principal
hbase/[email protected]
hbase.client.scanner.caching
100000
认证模块的代码片段如下(仅作参考)
Configuration configuration = HBaseConfiguration.create();
configuration.addResource("hbase-site.xml");
UserGroupInformation.setConfiguration(configuration);
UserGroupInformation.loginUserFromKeytab("principal", "keytab.path");
TableName tableName = TableName.valueOf("hbase.table.name"));
Connection connection = ConnectionFactory.createConnection(configuration);
HTable table = (HTable) connection.getTable(tableName);
7. 事后操作
因为批量加载操作会对原HFile文件进行多次拷贝,拆分等操作,会消耗大量的HDFS存储资源和物理机磁盘空间。 在数据合并完成并验证后,可以清理掉这些临时结果。此外如果在加载过程中出现了较多的自动Region切分,也可在此时重新将小Region进行合并。 最后在新集群上专门为数据迁移开启的YARN服务也可以停掉了,减少对HBase服务的影响。
原文:HBase数据迁移实战
本文来自网易云社区,经作者金川授权发布。
了解 网易云 :
网易云官网:https://www.163yun.com
云创大会0元抢购早鸟票:https://yc.163yun.com
云产品全面促销5折起:https://www.163yun.com/activity/promotion
你可能感兴趣的:(大数据,HBase,网易云)
Deepseek技术深化:驱动大数据时代颠覆性变革的未来引擎
荣华富贵8
spring boot 搜索引擎 后端 缓存 redis
在大数据时代,信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术,Deepseek正在引领新一轮技术革新,颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面,深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下,传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
大数据之路:阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余:不同业务重复存储相同数据(如用户基础信息),导致存储成本激增。计算资源浪费:未经聚合的明细数据直接参与计算(如全表扫描),消耗大量CPU/内存资源。数据一致性缺失:同一指标在不同业务线的口径差异(如“活跃用户”定义不同),引发决策冲突。开发效率低下:每次分析需重新编写复杂逻辑,无法复用已有模型。数据建模核心价值性能提升:分层设计(ODS→DWD→DWS→ADS)
免费编程课程大汇总:从入门到精通的一站式资源
大力出奇迹985
人工智能 大数据
在数字化时代,编程已成为一项至关重要的技能,无论是为了职业发展还是个人兴趣,学习编程都极具价值。本文精心汇总了丰富的免费编程课程资源,涵盖从基础入门到精通的各个阶段。通过全面介绍如Coursera、edX等在线学习平台,Codecademy、freeCodeCamp等交互式学习网站,以及B站、网易云课堂等视频课程平台的免费课程,为编程学习者提供了一站式的资源指南,帮助读者轻松开启编程学习之旅,逐步
大数据技术笔记—spring入门
卿卿老祖
篇一spring介绍spring.io官网快速开始Aop面向切面编程,可以任何位置,并且可以细致到方法上连接框架与框架Spring就是IOCAOP思想有效的组织中间层对象一般都是切入service层spring组成前后端分离已学方式,前后台未分离:Spring的远程通信:明日更新创建第一个spring项目来源:科多大数据
大数据精准获客并实现高转化的核心思路和实现方法
2401_88470328
大数据精准获客 数据分析 数据挖掘 大数据 需求分析 big data
大数据精准获客并实现高转化的核心思路和实现方法大数据精准获客并实现高转化的核心思路和实现方法在当今信息爆炸的时代,企业如何通过海量的数据精准获取潜在客户,并提高转化率,已经成为营销策略中的关键环节。大数据精准获客的核心思路在于数据驱动、多渠道触达以及优化转化路径,从而实现高效的市场推广和客户转化。数据驱动原理和机制数据驱动的核心在于通过分析用户行为数据,挖掘潜在客户的需求和喜好,从而制定更加精准的
一地鸡毛—一个中年男人的日常2021241
随止心语所自欲律
2021年8月31日,星期二,阴有小雨。早起5:30,跑步10公里。空气清新,烟雨朦胧,远山如黛,烟雾缭绕,宛若仙境。空气中湿气很大,朦胧细雨拍打在脸上,甚是舒服,跑步的人明显减少。早上开会,领导说起逐年大幅度下滑的工作业绩,越说越激动,说得脸红脖子粗。开完会又讨论了一下会议精神,心情也有波动,学习热情不高。心里还有一个大事,是今日大数据分析第1次考试,因自己前期没学,而且计算机编程方面没有任何基
Hive详解
一:Hive的历史价值1,Hive是Hadoop上的KillerApplication,Hive是Hadoop上的数据仓库,Hive同时兼具有数据仓库中的存储引擎和查询引擎的作用;而SparkSQL是一个更加出色和高级的查询引擎,所以在现在企业级应用中SparkSQL+Hive成为了业界使用大数据最为高效和流行的趋势。2,Hive是Facebook的推出,主要是为了让不动Java代码编程的人员也能
智慧施工:AI技术赋能建筑安全监测新纪元
开发AI智能应用,就下载InsCodeAIIDE,一键接入DeepSeek-R1满血版大模型!智慧施工:AI技术赋能建筑安全监测新纪元在现代建筑行业中,施工安全始终是核心关注点之一。随着科技的飞速发展,人工智能(AI)和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统,并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统:建筑行业数字化变革的引领者
青云智慧园区
java
在建筑行业积极迈向数字化转型的浪潮中,智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势,深度融合物联网、大数据、人工智能等前沿技术,构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面,全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构:打造一体化协同管理平台智慧工地系统采用先进的分层架构设计,以底层的数据采集层
Hive与Hudi集成:增量大数据处理方案
AI大数据智能洞察
大数据与AI人工智能 大数据AI应用 hive hadoop 数据仓库 ai
Hive与Hudi集成:增量大数据处理方案关键词:Hive、Hudi、增量大数据处理、数据集成、数据湖摘要:本文主要探讨了Hive与Hudi集成的增量大数据处理方案。我们将深入了解Hive和Hudi的核心概念,剖析它们之间的关系,详细阐述集成的算法原理与操作步骤,通过实际项目案例展示如何进行开发环境搭建、代码实现与解读。同时,会介绍该集成方案的实际应用场景、相关工具和资源,探讨未来发展趋势与挑战。
获取三网实时访客---无忧获客大数据
无牛_abc3
很多传统行业的公司与企业对于运营商大数据的理解还是很基础的,大多数都是在买资源程度的认识。一些敢于尝试运营商大数据获客的传统企业自然会受益颇多。运营商大数据所提供的获客服务也非常简单,就是将自身的用户数据资源、针对不同的企业去制定有个性化需求的获客标准,运营商大数据根据不同的企业,和行业去进行精准客户的部署和分配,让相关合作的企业通过运营商提供的CRM平台进行一个有效的触达。运营商大数据已经在全国
DeepSeek在大数据领域正掀起一场深刻的变革
智海观潮
AI 大数据 deepseek AI
随着人工智能技术的飞速发展,DeepSeek作为一款行业领先的开源大模型,正在大数据领域掀起一场深刻的变革。其强大的数据处理和分析能力,为各行业带来了新的机遇和变革,推动数据与业务的深度融合。以下是DeepSeek在大数据领域的一些典型的潜在应用:1.加速数据处理与分析流程在传统的大数据应用中,数据收集、预处理和分析往往是一个繁琐且耗时的工程。DeepSeek凭借其高效的算法和强大的计算能力,极大
IoTDB智能分析节点AINode:时序数据分析的新引擎
时序数据说
iotdb 数据分析 数据挖掘 时序数据库 数据库 大数据 ai
在大数据与物联网的驱动下,时序数据处理需求激增,如何高效存储、管理并实时分析海量时序数据成为技术挑战。作为专为时序数据设计的数据库,IoTDB通过引入智能分析节点(AINode),将机器学习能力原生集成到数据库中,实现了“数据存储-分析-决策”的一体化闭环。本文将深入解析AINode的核心功能、技术优势及实际应用场景。AINode:IoTDB的智能分析引擎AINode是IoTDB推出的第三种内生节
Python爬虫【五十八章】Python数据清洗与分析全攻略:从Pandas到深度学习的异常检测进阶
程序员_CLUB
Python入门到进阶 python 爬虫 pandas
目录背景与需求分析第一章:结构化数据清洗实战(Pandas核心技法)1.1数据去重策略矩阵1.2智能缺失值处理体系第二章:深度学习异常检测进阶2.1自动编码器异常检测(时序数据)2.2图神经网络异常检测(关系型数据)第三章:综合案例实战案例1:金融交易反欺诈系统案例2:工业传感器异常检测第四章:性能优化与工程实践4.1大数据处理加速技巧4.2模型部署方案第五章:方法论总结与展望5.1方法论框架5.
《剑指offer》-算法篇-排序
小新学习屋
数据结构与算法 算法 leetcode 职场和发展 数据结构与算法
题目最小的K个数数组中的逆序对代码实现最小的K个数题目描述:输入n个整数,找出其中最小的K个数。例如输入4,5,1,6,2,7,3,8这8个数字,则最小的4个数字是1,2,3,4,。思路:按照各种排序算法,找到排序结果的前K个数。思路1:最简单的方案,对数组进行排序,取最小的k个思路2:借鉴快速排序的思想,找partition的基准点povit,比较povit和k值的大小思路3:大数据处理的思想,
ZooKeeper在Hadoop中的协同应用:从NameNode选主到分布式锁实现
码字的字节
hadoop布道师 分布式 zookeeper hadoop 分布式锁
Hadoop与ZooKeeper概述Hadoop与ZooKeeper在大数据生态系统中的核心位置和交互关系Hadoop的架构与核心组件作为大数据处理的基石,Hadoop生态系统由多个关键组件构成。其核心架构主要包含HDFS(HadoopDistributedFileSystem)和YARN(YetAnotherResourceNegotiator)两大模块。HDFS采用主从架构设计,由NameNo
Hbase基础语法
flyair_China
hbase 数据库 大数据
HBase作为分布式列式数据库,其语法和预分区策略是优化性能的关键。以下综合语法详解与预分区设计指南:一、HBase核心语法分类1.DDL操作(表结构管理)创建表语法:create'表名',{NAME⇒'列族1',VERSIONS⇒n},{NAME⇒'列族2',VERSIONS⇒n}示例:创建user表,含info(保留3版本)和data(保留1版本)列族:create'user',{NAME⇒'
优查查PROB版本使用介绍,优查查官网查询入口
无忧达人
优查查最新版本PROB版本上线,优查查PROB版本的查询报告更全面,同时价格还是以前的价格,优查查大数据信用查询一次的价格是30,当然这个价格只限本文介绍的渠道,渠道我会放在文末,大家自行获取即可。优查查使用起来非常的流程,可以快速查询出来我们自身有没有信用稳定,优查查官网查询入口,每个人都可以使用优查查一键查询自己的信用,只能查询自己的信用,别人的信用是查询不了的。优查查使用入口放在文末了,划到
贝融助手要交68块钱查询是合理吗?其实是很多人搞错查询渠道了
无忧达人
我们都知道查询信用的平台都是需要收费,具体的收费每个平台都是不一样的,目前行业中收费基本上都是在30-100,其中大平台的收费会低一些,因为体量大可以降低自身的营业成本,这个原理和其它行业一样。贝融助手查询大数据信用收费是30(本文介绍的渠道),这个价格得益于贝融助手平台的体量,已经把价格做的非常低了,像信用行业大平台的价格基本上都是趋于行业的平均值,太高了太低了都不是正常值。贝融助手查询入口放在
深度评测:拼多多官方返利APP vs 其他返利平台,谁更胜一筹?
日常购物技巧呀
购物新宠儿!拼多多官方返利APP,引领智能返利新时代。随着科技的不断发展智能化已经成为了各个领域的发展趋势。在返利领域也不例外拼多多官方返利app凭借其强大的智能技术和创新能力正引领着智能返利新时代。这款app通过大数据分析用户行为习惯精准推送符合用户需求的商品和优惠信息。让你在享受智能化服务的同时也能获得更加精准的返利回报。在繁多的返利app中,高省app凭借其独特的优势脱颖而出,成为众多用户的
链表也能整容?聊聊‘重排链表’的那些小技巧与深层逻辑
Echo_Wish
LeetCode极客营 链表 数据结构
“链表也能整容?聊聊‘重排链表’的那些小技巧与深层逻辑”今天我们不聊大数据,不聊AI,咱回归算法的“原点”——链表。别看它简单,里面的很多技巧在面试、在工程开发里都能救你一命。今天我就带你聊聊重排链表(ReorderList),以及它背后的思路和一些值得深挖的细节。1.先说说“重排链表”到底是啥?简单来说:给你一个单链表,比如:1->2->3->4->5要求你把它重新排列成:1->5->2->4-
朋友圈点赞也能造假?社交媒体数据欺诈识别的那些事
“朋友圈点赞也能造假?社交媒体数据欺诈识别的那些事”咱们先聊个现实点的:你刷朋友圈、微博、抖音的时候,有没有发现一些账号的点赞数、评论数特别整齐划一?要么都是那种无意义的“支持”“666”,要么一夜之间视频播放量暴涨,看着就不太对劲。其实,这背后很可能就是数据欺诈,而且这种现象在社交媒体上特别常见。作为一个做大数据分析的人,我最直观的感受就是:社交媒体上的数据从来不是完全干净的,里面水分多得很。如
好用的酒店预订软件有哪些?酒店预订哪个软件便宜
好项目高省
哪个酒店预订App更省钱?想要预订酒店却担心价格过高?试试这些超值的酒店预订App吧!【美团】:专注于三四线城市,性价比超高!经济型酒店最受欢迎,但用户忠诚度稍低。【飞猪】:阿里旗下平台,依托强大系统和大数据。受年轻人喜爱,但产品同质化较突出,需注意商家管控和用户纠纷解决。要领取优惠券,我们需要使用APP或者登录官方网站。在进入APP后,我们可以通过以下几种途径来获取内部优惠券。一、直返直返的口号
大数据量查询计算引发数据库CPU告警问题复盘
懒虫虫~
业务解决方案 大表治理
大数据量查询计算引发数据库CPU告警问题复盘一、背景二、根因分析三、解决方案方案1:多线程+缓存方案2:利用中间表+缓存四、总结一、背景2025年7月份某天,CDP系统每天不定时推送我们的Portal服务,生产环境运营看板会展示统计数据,发现接口响应缓慢,随之而来数据库监控告警,发现数据库CPU达到了80%。由于表数据量大,计算统计复杂,多线程使用不当,导致数据库服务器爆表。其中A表数据量达到1亿
Elasticsearch-索引原理
ouyang+
最近在参与一个基于Elasticsearch作为底层数据框架提供大数据量(亿级)的实时统计查询的方案设计工作,花了些时间学习Elasticsearch的基础理论知识,整理了一下,希望能对Elasticsearch感兴趣/想了解的同学有所帮助。同时也希望有发现内容不正确或者有疑问的地方,望指明,一起探讨,学习,进步。介绍Elasticsearch是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文
结婚纪念日是婚礼当天还是领证那天??
壹刻所闻
领证日子和结婚日子大部分都是分开的,所以很多新人弄清楚结婚纪念日是需要过领证那天还是举办婚礼那天。两个日子都会有人过,不过根据大数据显示,大部分的人选择的是举办婚礼的日子。一、结婚纪念日按领证还是婚礼1、领证结婚证纪念日是按领结婚证的那一天算的。只有领了结婚证,两人才是合法夫妻关系,才能受法律保护。而举办婚礼只不过是告诉双方的亲友两人结婚了,邀请双方的亲友一起吃了顿饭罢了,不具备法律效应。如果只是
这个“看不见的问题”,才是工业数据管理的终极难题
CSDN资讯
TDengine 大数据
在谈论#工业数据管理时,我们常常会听到“4V”这样的术语,而在#大数据领域,也有类似的版本,甚至扩展成了5V、6V、乃至8V。但一个问题随之而来:这些被广泛引用的数据特征,真的代表了用户的痛点吗?真的切中了工业企业在实际应用中最棘手的挑战吗?TDengine解决方案架构师陈展隆结合自己多年服务工业客户的经验,分享了他对这个问题的深入观察与思考。或许,我们该重新思考:数据管理的“用户”到底是谁?又是
99% 的 Python 开发者都不知道的 gzip 高级用法
coder_风逝
Python数据挖掘分析 python servlet 开发语言
前言:为什么数据压缩如此重要?在当今大数据时代,数据存储和传输成本已成为每个开发者必须考虑的问题。想象一下,当你需要处理日志文件、API响应或数据库备份时,原始数据往往占用大量空间。Python内置的gzip模块提供了一种简单高效的解决方案,可以轻松将数据压缩到原大小的1/3甚至更小!本文将带你深入掌握gzip的核心用法,让你的Python程序在处理大数据时如虎添翼。1.gzip模块基础介绍gzi
Python中的 filter() | 函数详解
2401_87650616
python 开发语言
目录前言一、基本概念基本语法二、使用方式1.使用lambda函数2.使用普通函数3.使用None过滤假值三、filter()与列表推导式对比1.filter()方式2.列表推导式方式3.选择建议四、常见应用场景1.过滤偶数2.过滤空字符串3.过滤None值4.过滤质数五、注意事项与最佳实践1.惰性求值:filter()返回的是迭代器,只在需要时计算,节省内存2.性能考虑:对于大数据集,filter
Java笔记--二维数组、冒泡排序、二分法
我是小废物
intellij-idea java
一把刀的锋刃很不容易越过;因此智者说得救之道是困难的--印度《吠陀经》一、二维数组1、概念学校的班每个班有很多个学生,所以,可以用数组来存储,而我们又同时有很多个大数据班。这个也应该用一个数组来存储。如何来表示这样的数据呢?Java就提供*了二维数组供我们使用。由此可见:其实二维数组其实就是一个元素为一维数组的数组。2、格式(1)格式1:数据类型[][]变量名=new数据类型[m][n];m表示这
LeetCode[位运算] - #137 Single Number II
Cwind
java Algorithm LeetCode 题解 位运算
原题链接:#137 Single Number II
要求:
给定一个整型数组,其中除了一个元素之外,每个元素都出现三次。找出这个元素
注意:算法的时间复杂度应为O(n),最好不使用额外的内存空间
难度:中等
分析:
与#136类似,都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n,即某一
《JavaScript语言精粹》笔记
aijuans
JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值(true/false)、null和undefined值,其它值都是对象。
1、JavaScript只有一个数字类型,它在内部被表示为64位的浮点数。没有分离出整数,所以1和1.0的值相同。
2、NaN是一个数值,表示一个不能产生正常结果的运算结果。NaN不等于任何值,包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库
Kai_Ge
java
在很多人眼中,Java 已经是一门垂垂老矣的语言,但并不妨碍 Java 世界依然在前进。如果你曾离开 Java,云游于其它世界,或是每日只在遗留代码中挣扎,或许是时候抬起头,看看老 Java 中的新东西。
Guava
Guava[gwɑ:və],一句话,只要你做Java项目,就应该用Guava(Github)。
guava 是 Google 出品的一套 Java 核心库,在我看来,它甚至应该
HttpClient
120153216
httpclient
/**
* 可以传对象的请求转发,对象已流形式放入HTTP中
*/
public static Object doPost(Map<String,Object> parmMap,String url)
{
Object object = null;
HttpClient hc = new HttpClient();
String fullURL
Django model字段类型清单
2002wmj
django
Django 通过 models 实现数据库的创建、修改、删除等操作,本文为模型中一般常用的类型的清单,便于查询和使用: AutoField:一个自动递增的整型字段,添加记录时它会自动增长。你通常不需要直接使用这个字段;如果你不指定主键的话,系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField:布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL
357029540
SQL Server
返回消耗CPU数目最多的10条语句
SELECT TOP 10
total_worker_time/execution_count AS avg_cpu_cost, plan_handle,
execution_count,
(SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署,Undefined exploded archive location
7454103
eclipse MyEclipse
做个备忘!
错误信息为:
Undefined exploded archive location
原因:
在工程转移过程中,导致工程的配置文件出错;
解决方法:
 
GMT时间格式转换
adminjun
GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了,我想大家应该都会那种低级的转换问题吧,现在我向大家总结一下如何转换GMT时间格式,这种格式的转换方法网上还不是很多,所以有必要总结一下,也算给有需要的朋友一个小小的帮助啦。
1、可以使用
SimpleDateFormat SimpleDateFormat
EEE-三位星期
d-天
MMM-月
yyyy-四位年
Oracle数据库新装连接串问题
aijuans
oracle数据库
割接新装了数据库,客户端登陆无问题,apache/cgi-bin程序有问题,sqlnet.log日志如下:
Fatal NI connect error 12170.
VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制
ayaoxinchao
java 数组
在写这篇文章之前,也看了一些别人写的,基本上都是大同小异。文章是对java数组复制基础知识的回顾,算是作为学习笔记,供以后自己翻阅。首先,简单想一下这个问题:为什么要复制数组?我的个人理解:在我们在利用一个数组时,在每一次使用,我们都希望它的值是初始值。这时我们就要对数组进行复制,以达到原始数组值的安全性。java数组复制大致分为3种方式:①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入
bewithme
Java Web
在java web应用中,当你想在建立会话或移除会话时,让系统做某些事情,比如说,统计在线用户,每当有用户登录时,或退出时,那么可以用下面这个监听器来监听。
import java.util.ArrayList;
import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用)
bijian1013
redis 数据库 NoSQL
一 .Redis常用命令
Redis提供了丰富的命令对数据库和各种数据库类型进行操作,这些命令可以在Linux终端使用。
a.键值相关命令
b.服务器相关命令
1.键值相关命令
&
java枚举序列化问题
bingyingao
java 枚举 序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题:
1.加一个枚举值
新机器代码读分布式缓存中老对象,没有问题,不会抛异常。
老机器代码读分布式缓存中新对像,反序列化会中断,所以在所有机器发布完成之前要避免出现新对象,或者提前让老机器拥有新增枚举的jar。
2.删一个枚举值
新机器代码读分布式缓存中老对象,反序列
【Spark七十八】Spark Kyro序列化
bit1129
spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件,以及通过objectFile方法将对象从文件反序列出来的时候,Spark默认使用Java的序列化以及反序列化机制,通常情况下,这种序列化机制是很低效的,Spark支持使用Kyro作为对象的序列化和反序列化机制,序列化的速度比java更快,但是使用Kyro时要注意,Kyro目前还是有些bug。
Spark
Hybridizing OO and Functional Design
bookjovi
erlang haskell
推荐博文:
Tell Above, and Ask Below - Hybridizing OO and Functional Design
文章中把OO和FP讲的深入透彻,里面把smalltalk和haskell作为典型的两种编程范式代表语言,此点本人极为同意,smalltalk可以说是最能体现OO设计的面向对象语言,smalltalk的作者Alan kay也是OO的最早先驱,
Java-Collections Framework学习与总结-HashMap
BrokenDreams
Collections
开发中常常会用到这样一种数据结构,根据一个关键字,找到所需的信息。这个过程有点像查字典,拿到一个key,去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类),基本上支持字典表的操作。后来引入了Map接口,更好的描述的这种数据结构。
&nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility
bylijinnan
java 设计模式
声明: 本文只为方便我个人查阅和理解,详细的分析以及源代码请移步 原作者的博客http://chjavach.iteye.com/
/**
* 业务逻辑:项目经理只能处理500以下的费用申请,部门经理是1000,总经理不设限。简单起见,只同意“Tom”的申请
* bylijinnan
*/
abstract class Handler {
/*
Android中启动外部程序
cherishLC
android
1、启动外部程序
引用自:
http://blog.csdn.net/linxcool/article/details/7692374
//方法一
Intent intent=new Intent();
//包名 包名+类名(全路径)
intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate
coollyj
SUM
BEGIN
/*DECLARE minDate varchar(20) ;
DECLARE maxDate varchar(20) ;*/
DECLARE stkDate varchar(20) ;
DECLARE done int default -1;
/* 游标中 注册服务器地址 */
DE
hadoop hdfs 添加数据目录出错
daizj
hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了,故准备修改配置文件增加数据目录,以便扩容,但由于疏忽,把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录,但未创建实际目录,重启datanode服务时,报如下错误:
2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找
dongwei_6688
grep
在Mac或者Linux下使用grep进行文件内容查找时,如果给定的目标搜索路径是当前目录,那么它默认只搜索当前目录下的文件,而不会搜索其下面子目录中的文件内容,如果想级联搜索下级目录,需要使用一个“-r”参数:
grep -n -r "GET" .
上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件
dcj3sjt126com
yii layouts
方法一:yii模块默认使用系统当前的主题布局文件,如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件; 如果未配置主题,那么 yii的模块就使用 protected/views/layouts 下的布局文件, 总之默认不是使用自身目录 pr
设计模式之单例模式
come_for_dream
设计模式 单例模式 懒汉式饿汉式 双重检验锁失败 无序写入
今天该来的面试还没来,这个店估计不会来电话了,安静下来写写博客也不错,没事翻了翻小易哥的博客甚至与大牛们之间的差距,基础知识不扎实建起来的楼再高也只能是危楼罢了,陈下心回归基础把以前学过的东西总结一下。
*********************************
8、数组
豆豆咖啡
二维数组 数组 一维数组
一、概念
数组是同一种类型数据的集合。其实数组就是一个容器。
二、好处
可以自动给数组中的元素从0开始编号,方便操作这些元素
三、格式
//一维数组
1,元素类型[] 变量名 = new 元素类型[元素的个数]
int[] arr =
Decode Ways
hcx2013
decode
A message containing letters from A-Z is being encoded to numbers using the following mapping:
'A' -> 1
'B' -> 2
...
'Z' -> 26
Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理
jinnianshilongnian
spring 4.1
目录
Spring4.1新特性——综述
Spring4.1新特性——Spring核心部分及其他
Spring4.1新特性——Spring缓存框架增强
Spring4.1新特性——异步调用和事件机制的异常处理
Spring4.1新特性——数据库集成测试脚本初始化
Spring4.1新特性——Spring MVC增强
Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置
liyonghui160com
系统:centos 5.x
需要的软件:squid-3.0.STABLE25.tar.gz
1.下载squid
wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz
tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践
pda158
java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法,而非未知对象。 总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的,调用a.equals(b)和调用b.equals(a)是完全相同的,这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针,这种调用可能导致一个空指针异常
Object unk
如何在Swift语言中创建http请求
shoothao
http swift
概述:本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。
如果你对Objective-C比较了解的话,对于如何创建http请求你一定驾轻就熟了,而新语言Swift与其相比只有语法上的区别。但是,对才接触到这个崭新平台的初学者来说,他们仍然想知道“如何在Swift语言中创建http请求?”。
在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式
uule
spring事务
传播方式:
新建事务
required
required_new - 挂起当前
非事务方式运行
supports
&nbs