Hadoop真的要死了吗?

\u003cp\u003e10月3日,Hortonworks宣布将与其主要竞争对手Cloudera合作创建一家年收入约为7.3亿美元、拥有2,500名客户、市场估值达52亿美元的公司,这令很多人感到意外。\u003c/p\u003e\n\u003cp\u003e\u003cimg src=\"https://static.geekbang.org/infoq/5be95880656c1.png\" alt=\"image\" /\u003e\u003c/p\u003e\n\u003cp\u003eSplice Machine首席执行官Monte Zweben表示:“我认为对于我们来说,这是个好消息。我们已经看到了运营由这两家公司和其他公司部署的所有数据湖的巨大机会,而这样的机会在两年前可能连想都不敢想”。\u003c/p\u003e\n\u003cp\u003eConfluent的首席执行官兼Apache Kafka联合创始人Jay Kreps告诉ZDNet:“这是一个聪明的举动。过去,这两家公司在同一产品上展开竞争,但具有讽刺意味的是,这却让竞争变得更加激烈”。\u003c/p\u003e\n\u003cp\u003eUnravel Data首席执行官Kunal Agarwal说:“我认为这是件好事。我认为这两家公司在将他们的技术整合在一起,而不是试图相互攻击。他们现在可以专注于提供合适的机器学习工具、物联网平台和AI工具”。\u003c/p\u003e\n\u003cp\u003e\u003cstrong\u003e但并非所有的反应都是积极正向的。\u003c/strong\u003e 自由科技记者Virginia Backaitis在他的一片文章中写道:“我比较担心新的Cloudera(或者可能是单独的Cloudera和Hortonworks)是否会像管理团队和投资人所期望的那样快速增长”。\u003c/p\u003e\n\u003cp\u003eBloomberg Opinion专栏作家Shira Ovide同样不看好,他将这两家公司的合并说成是“两家水下公司的航海联盟”。\u003c/p\u003e\n\u003cp\u003eTeradata首席运营官Oliver Ratzesberger告诉Datanami:“这是一种Sears-K-Mart式的合并,这是他们唯一能够生存下来的方式。Hadoop本身就变得无关紧要了”。\u003c/p\u003e\n\u003cp\u003eAnaconda产品和营销高级副总裁Mathew Lodge在VentureBeat上发布的一篇文章中指出,\u003cstrong\u003e大数据的中心已经从Hadoop转移到了云端,在对象存储系统(如亚马逊S3、微软Azure Blob Storage和Google Cloud Storage)中存储数据比在HDFS中便宜了五倍。\u003c/strong\u003e\u003c/p\u003e\n\u003cp\u003e“领先的云计算公司并没有在Cloudera和Hortonworks上运行大型的Hadoop/Spark集群,相反,他们在容器基础设施上运行分布式云规模数据库和应用程序。现在是时候让Hadoop和Spark与时俱进了”。\u003c/p\u003e\n\u003ch2\u003e\u003cstrong\u003e让Hadoop更像云\u003c/strong\u003e\u003c/h2\u003e\n\u003cp\u003e事实上,Apache Hadoop社区一直都在积极应对来自公有云供应商的威胁,包括像Databricks和Snowflake这样的初创公司。它们通过采用对象存储和容器技术让云端的大数据分析变得更便宜和更容易,并在上周获得了来自风险资本的4.5亿投资,\u003c/p\u003e\n\u003cp\u003e在今年早些时候发布的Hadoop 3中,用户可以选择使用擦除编码(erasure coding),这是S3等对象存储系统使用的数据保护技术,可将存储效率提高50%。Hadoop 3.1将为YARN中的Docker带来更强劲的支持。\u003cstrong\u003e在宣布合并之前,Cloudera和Hortonworks都在努力让他们的Hadoop发行版支持Kubernetes。\u003c/strong\u003e\u003c/p\u003e\n\u003cp\u003e但是,对于Hadoop社区来说,他们还有很多工作要做。上个月,Cloudera首席战略官Mike Olson告诉Datanami,社区还需要12到24个月才能在开源的Apache Hadoop项目中提供Kubernetes支持。\u003c/p\u003e\n\u003cp\u003eOlson说:“YARN擅长长期运行的批次作业调度,但要作为通用的集群资源管理框架,它还需要精心的设计和改进。未来Kubernetes将会入驻,并接管其中的一大部分内容”。\u003c/p\u003e\n\u003cp\u003e\u003cstrong\u003e于是问题来了:当YARN被Kubernetes取代,并且HDFS被替换为任何兼容S3的对象存储系统时,Hadoop还会是原来的Hadoop吗?\u003c/strong\u003e 如果你认为Hadoop只是40个开源项目的集合——HBase、Spark、Hive、Impala、Kafka、Flink、MapReduce、Presto、Drill、Pig、Kudu,等等——那么也许这个问题就问得没有什么实际意义……\u003c/p\u003e\n\u003cp\u003e从实际角度来看,客户不可能因为两个最大的Hadoop发行商的整合而突然关闭多年来部署的数百万个Hadoop节点。对于已经建立了Hadoop数据湖的数千家公司而言,它们的重点将保持不变:从数据中获取价值。\u003c/p\u003e\n\u003cp\u003e尽管Hadoop可能已经变成了一项传统技术,但社区仍然有动力去调整它,以便支持新兴的需求,就像IBM对其大型机平台所做的那样。\u003cstrong\u003e问题是它是否能够以足够快的速度让已部署的基础设施不断增长。\u003c/strong\u003e\u003c/p\u003e\n\u003ch2\u003e\u003cstrong\u003e简化Hadoop\u003c/strong\u003e\u003c/h2\u003e\n\u003cp\u003e\u003cimg src=\"https://static.geekbang.org/infoq/5be95880c0a8b.png\" alt=\"image\" /\u003e\u003c/p\u003e\n\u003cp\u003e自从十多年前第一个MapReduce程序上线以来,开发人员一直对Hadoop的复杂性颇有微词。即使像Facebook这样大的公司在使用Hadoop时也感到不便,特别是当他们需要通过底层的Java编程技能从Hadoop中及时获取信息时。\u003c/p\u003e\n\u003cp\u003e\u003cstrong\u003e从那时起的一个发展趋势,就是消除这种复杂性,但Hadoop社区没能及时取得进展,因此未能阻止云供应商通过推出更简单的产品抢走市场份额。\u003c/strong\u003e\u003c/p\u003e\n\u003cp\u003eSplice Machine的Zweben表示:“我认为这是Hadoop的一次转型。软件供应商会使用越来越多的引擎,但从长远来看,不会有普通的企业会用它们……对于全球2000大企业来说,在背负Hadoop的重压之下很难做到这点”。\u003c/p\u003e\n\u003cp\u003eUnravel Data公司的Agarawal表示,现在Cloudera和Hortonworks的工程师将齐心协力,以更好地应对构建系统方面的挑战,这些系统可以以本地、云端和混合的方式运行。“这是一个巨大的项目,仍然需要大量的工程师投入时间,把它打造成Kubernetes之上的一个成功的平台。他们还有很多开发工作要做”。\u003c/p\u003e\n\u003cp\u003e\u003cstrong\u003e如果说在隧道尽头有一盏灯,那它就是:如果新Cloudera可以将Hadoop重新打造成一个混合的容器化平台,位于Kubernetes之上,并且可以将数据存储在任何与S3兼容的对象存储中,那么它就有可能实现部分目标,并占领一部分市场。\u003c/strong\u003e IDC认为这是一个价值650亿美元的机会。\u003c/p\u003e\n\u003cp\u003eAgarwal说:“我认为\u003cstrong\u003eCloudera手里握有一张云供应商所没有的王牌,那就是他们的混合策略。\u003c/strong\u003e 根据我们与这些财富1000强公司合作的经验来看,他们不会直接进入云端。他们想要的是这种混合策略。因此,我认为这将成为为这些客户创造价值的一条可行之路”。\u003c/p\u003e\n\u003ch2\u003e\u003cstrong\u003e从幻灭到生产力\u003c/strong\u003e\u003c/h2\u003e\n\u003cp\u003e\u003cimg src=\"https://static.geekbang.org/infoq/5be9588149f44.png\" alt=\"image\" /\u003e\u003c/p\u003e\n\u003cp\u003e从一开始,Hadoop基本上就是大数据的代名词。如果你遇到需要用大数据来解决的问题,那么答案肯定就是Hadoop。\u003c/p\u003e\n\u003cp\u003e这当然是不对的,很多人都这么说——但这却是Hadoop多年来的一个营销口号。\u003c/p\u003e\n\u003cp\u003eTeradata首席技术官史Steven Brobst说,为解决复杂问题而寻找银弹是人类的天性。“人们倾向于相信新技术将解决他们所有的问题,它会为你做所有的事情,甚至包括在早上给你端来一杯咖啡”。\u003c/p\u003e\n\u003cp\u003e\u003cstrong\u003eHadoop曾经是被过度热炒的一项技术,而到了今天,这个头衔被AI拿走了。\u003c/strong\u003e Brobst说:“当你的期望过度膨胀时,最终结果只会是失败。当技术被设置了不恰当的预期,就会跌落到幻灭的低谷”。\u003c/p\u003e\n\u003cp\u003eBrobst继续说道:“我们现在所看到的Hadoop就正在经历这样的一个过程。Hadoop正处于幻灭的低谷。‘放弃它吧,它已经不管用了!’其实它之所以不管用,是因为我们期望它能够完成所有的事情。对于这样不切实际的期望,除了失望之外,没有其他可能性”。\u003c/p\u003e\n\u003cp\u003eBrobst说,虽然人们一直在Hadoop上挣扎,但这并不意味着Hadoop没有价值。相反,它意味着组织和用户应该要重新设置他们的期望,并问问自己它应该用在什么地方会更好。\u003c/p\u003e\n\u003cp\u003e他说:“Hadoop和大数据终将走出Gartner炒作周期的幻灭低谷,然后进入生产力高原。这不是一个大数据战略,而是一个数据战略……\u003cstrong\u003e它将成为生态系统的一部分,但不会解决所有问题\u003c/strong\u003e”。\u003c/p\u003e\n\u003cp\u003e另外,InfoQ在两年前策划过“\u003ca href=\"https://www.infoq.cn/article/Hadoop-10-years\"\u003eHadoop十年\u003c/a\u003e”的迷你书,迷你书以Hadoop十年发展为主线,系统梳理了Hadoop这十年的变化以及技术圈的生态状况。\u003c/p\u003e\n\u003cp\u003e同时,如果你对大数据感兴趣,或者想进一步了解学习大数据,可以关注极客时间App出品的《\u003ca href=\"https://time.geekbang.org/column/intro/133?utm_term=zeusEQ1H3\u0026amp;utm_source=website\u0026amp;utm_medium=infoq\u0026amp;utm_campaign=133-onsell\u0026amp;utm_content=1113toutiao\"\u003e从0开始学大数据\u003c/a\u003e》专栏。\u003c/p\u003e\n\u003cp\u003e\u003cstrong\u003e英文原文:\u003c/strong\u003e\u003ca href=\"https://www.datanami.com/2018/10/18/is-hadoop-officially-dead/\"\u003ehttps://www.datanami.com/2018/10/18/is-hadoop-officially-dead/\u003c/a\u003e\u003c/p\u003e\n

你可能感兴趣的:(Hadoop真的要死了吗?)