行业动态
Industry News
热门课程
400电话

免费咨询热线
400-090-9964

行业动态

Hadoop之父介绍大数据应用新认知(一)

时间:2017-08-29 来源:

  Hadoop之父,Cloudera首席架构师Doug Cutting先生

  问:作为Hadoop创始人,请您回顾一下Hadoop历史和初衷?

  Doug Cutting:创建Hadoop的时候,当时我正在做一个项目,这个项目的代号叫Nutch。当时希望能够基于开源去创建出一种网络搜索的引擎,实现一种具有可扩展性、可收缩性的数据技术。

  同期我看到了来自于Google的几篇论文,我觉得他们的想法和我们的想法是完全一致的,所以我们把Google的想法放到了Nutch项目当中来实施了。当时我个人有这样的一个需要,就是要做好手上的项目,当时我确实是没有预想到一旦创建出来这个技术以后,它具有如此之广的用途,没有预见到它在制造、银行、电信等很多行业的价值。它让我感觉到非常惊喜。

  问:如今Hadoop的进展,有没有和最初设想不太一样的地方?

  Doug Cutting:当初也没有一个关于Hadoop将来如何发展的计划,Hadoop发展的演进范围、规模大大超出了我当初的预想。而且最让我惊喜的就是围绕着Hadoop以及基于Hadoop所有的项目和技术,并不是基于某一个单独的技术。而是基于多种技术组成的系列家族,整个技术系列是在不断发展和演进之中,也就是说围绕着Hadoop现在已经形成了非常强大的生态系统,Hadoop整体生态系统的演进和发展并不受制于其中的任何一种组成的技术。

  问: Hadoop常常和大数据联系在一起,和人工智能也有关联吗?

  Doug Cutting :我觉得Hadoop和AI之间是非常适合、非常匹配的一项技术,因为AI本身就是一种大数据的应用。

  特别对于AI系统进行训练的时候,使用的数据越多,AI系统就越先进。上周Google发表了一篇文章,主要讲的是基于AI的图像识别,也就是说,在用数以十亿计的图像识别的深度智能系统培训基础之上,图像越多,识别能力就越强。因此,从这个意义上来说,AI就是一种大数据应用。

  问:如何看待Hadoop和开源软件之间的演变关系?

  Doug Cutting: Hadoop作为一项基础仍然是在发挥着关键作用,与此同时spark对于像IoT和AI的应用,也在起到越来越重要的作用。

  除此之外,我们也会看到新的技术会涌现出来,这样能够使得开源的整个生态系统进一步得到发展和改进。这对于整个开源的生态系统来说是一件好事,比方说如果有了更好的存储技术或者是更好的分析技术,毫无疑问Cloudera会采用这些技术。因为在开源的世界当中,竞争的逻辑是不一样的,没有哪个公司是拥有开源的技术。每当开源的技术有了新的发明或进展,开源群体的每一分子都会受益于其中。比方说如果在有一些领域会出现新的技术,在某些方面会优于Hadoop,那Cloudera也会毫无疑问去采纳这样的技术放到我们的解决方案当中去交付给客户,例如kudu,它是一个非常强大的存储引擎,它既具备了像Hbase的随机访问能力,同时又具有HDFS快速查询能力,两者兼而有之。再例如Kafka,它有很强的实时应用支持能力和流处理能力,Cloudera已经把这两个技术采纳到平台当中,更好地满足需求。

  另外我们也在构建一些更多基于Spark机器学习的工具,与之相关的有一个项目叫Apache Spot,它帮助我们的客户保护他们的网络安全,免遭黑客的攻击,这是我们在Hadoop和Spark基础之上的进一步发展。

  问:对于Hadoop分布式存储来说,在处理速度、网络延时和成本几个要素之间如何取得比较好的平衡?

  Doug Cutting:在很多案例当中,我们看到处理器很多但也能够做到低延迟,关键在于对于要处理的问、处理任务怎样划分,比如通过Hbase或通过很多交互式的系统像Solr 搜索,在节点越多的情况下反而能降低延迟,这是因为任务处理有很好的并行性。可以说现在大部分情况下,节点的数量或处理器的数量和延迟之间的平衡是不难找到的。

  接下来就要讲成本,成本确实是一个考虑因素,首先我们的软件是开源的,而且我们所有解决方案能够使用普通的商用硬件,所以和上一代相比成本有大幅度降低。而且我们认为今天这种低成本的架构是可以去运行很多其他的应用,只不过有很多其他的应用暂时还没有用上低成本的架构,还有进一步降低成本的潜力。

  (以上内容摘于网络,如有侵权,请告之,将第一时间删除)

版权所有@北京神脑资讯技术有限公司(CUUG,中国UNIX用户协会) Copyright ALL Rights Reserved 京ICP备11008061号-1

CUUG旗下网站:www.cuug.com.cn www.cuug.com oracle.cuug.com bbs.cuug.com www.cuug.net

电话:010-59426307 010-59426319 邮政编码:100089

地址:北京市海淀区北清路164号28-38号院