Hadoop 发展过程是怎样的?

作者:禅与计算机程序设计艺术

1.简介

2003年,美国加州大学洛杉矶分校教授李彦宏博士发明了一种分布式文件系统——GFS(Google File System)。由于该文件系统设计得足够简单,可以适应大规模数据集存储需求,在此基础上演化出多种应用,包括MapReduce、BigTable、PageRank等,并成为当时互联网公司的标配技术之一。
2004年,Google发布了第一版Hadoop项目,定位是一个“框架”,并提供了计算集群管理、存储、数据处理和分析功能。到了2010年,Hadoop已经成为最流行的大数据开源技术之一。它既有优秀的性能,又具有稳健、可靠的数据存储能力。
2011年,微软提出Spark,宣称将基于内存的快速计算框架作为主要特性,打造出一个更具弹性的分布式数据处理平台。而Facebook、百度等互联网巨头也纷纷推出自己的分布式存储和分析系统。
2014年,Twitter开源自己的分布式日志收集系统Flume,其后被大量应用于各种大数据场景中。此外,Facebook最新发布的基于Hadoop的通用计算框架Pegasus也取得了惊喜之举。
2015年至今,Hadoop已经成为大数据领域里最重要的组件,目前仍然处于蓬勃发展的阶段。

本文要介绍的Hadoop的发展过程主要围绕三个方面:基础设施建设、生态系统构建和技术革新

你可能感兴趣的:(Python实战,自然语言处理,人工智能,语言模型,编程实践,开发语言,架构设计)