行业动态
Industry News
热门课程
400电话

免费咨询热线
400-090-9964

行业动态

Hadoop之父介绍大数据应用新认知(二)

时间:2017-08-30 来源:

  问:Cloudera在Hadoop、Spark领域竞争的优势是什么?

  Doug Cutting :首先IBM、微软等几家ISV对于Hadoop也是大力支持的,比方说微软是Cloudera的合作伙伴,Oracle是Cloudera的分销商。而且我们看到在大数据领域,采用最多的还是开源的系统。

  尽管在亚马逊、微软和谷歌的云平台之上会有一些用户,他们的大数据应用使用的是专有的商用软件服务。但是我认为假以时日,这些客户会再次认识到在云中使用开源的大数据解决方案,具备成本更低、质量更高的优势,因为使用开源的解决方案使客户可以在不同的云环境之间自由迁移。将来如果有这样的必要性,可以选择把这个软件本地安装来使用。

  迄今为止,这些在大数据领域的商业或者专有软件对Cloudera来说,我认为并不构成威胁。

  问:如何看待Hadoop和云计算的关系?

  Doug Cutting:云计算或云模式使得客户在使用Hadoop的方式上具有了更大的灵活性,比方说他们可以在云环境中来使用Hadoop。如果他们把Hadoop用本地安装运行的形式来使用的话,他们往往是建一个单个很大的集群来支持各种不同的应用,并且拥有一个统一的数据拷贝。如果在云环境当中来运行Hadoop,他们的数据会在亚马逊存储之类的系统当中,云环境供应商已经帮助他们管理了数据的拷贝。

  在云环境当中使用Hadoop,客户可以针对不同的应用创建应用不同的集群,而这样的集群开关或者是规模的伸缩,都可以按需进行,这样对于客户来说,可以实现更好控制和灵活性。

  我们从整个IT长远的发展趋势来看,过去IT在一个企业当中往往是集中在一个部门的手中,但是现在我们看到很多的企业的数据和数字技术,是在整个企业当中得到了扩散和广泛使用,并不是所有IT的事项像过去一样要找IT部门解决,各个非IT的部门具有越来越大的能力,在IT方面进行自我管理、自我服务,也有越来越多的工具能够帮助他们做到这一点。而云计算是促进和推动了这一趋势的发展,由于有云计算使得一个公司当中非IT部门,例如运营、制造、市场营销部门都能够自行采购一些服务并且加以运行,他们的控制能力和灵活性都大大增加了。

  云计算本身也是促进了IT和数据的分散化、自助化,而不是像过去那种集中化的模式。

  问:有数据专家现在趋向于把Hadoop当作数据仓库架构的补充,请问您是怎么理解的?对于有一些数据量极小的应用, Hadoop会是杀鸡用牛刀吗?

  Doug Cutting:我们是可以把整个数据仓库都建立在Hadoop之上的。五年前我们和Ralph Kimball博士,他是数据仓库架构主要的创建人,一起搞清楚了,也是证实了可以完全基于Hadoop来建立数据仓库。而且也有很多用户确实是把他们的数据仓库完全建立在Hadoop的基础之上。

  当然就建立数据仓库的技术而言,有其他的一些技术或者是工具,和Hadoop相比,这些存在的年头更长,可能已经有了数十年的历史。而事实上对于这些时间更加长久的技术,Hadoop并没有能够具备其中所有的功能、所有的性能。但即使如此,很多用户选择把他们的数据仓库构建在Hadoop的架构之上,他们是为了能够实现更加优越的可扩展性、更高的性价比,以及更好的灵活性。

  就第二个问而言,是不是杀鸡用牛刀,这主要看用户完成任务当中需要使用什么样的工具。有的时候也许在规模上、在扩展性上是超出了需求,但是仍然能够带来灵活性的优势。比方说使用基于Spark的机器学习的工具。在这些情况下,用户仍然发现Hadoop的平台对于完成他们的任务非常有用,虽然他的规模可能是过大的。当然我们讲的也很清楚,我们并不认为Hadoop是一种通用的工具能够解决所有的问。

  在实际应用中,即使是规模很小的集群,比方说5个节点的集群,客户也发现使用Hadoop与其他技术选项相比能够产生更好的产出,带来更多的价值与竞争。

  (以上内容摘于网络,如有侵权,请告之,将第一时间删除)

版权所有@北京神脑资讯技术有限公司(CUUG,中国UNIX用户协会) Copyright ALL Rights Reserved 京ICP备11008061号-1

CUUG旗下网站:www.cuug.com.cn www.cuug.com oracle.cuug.com bbs.cuug.com www.cuug.net

电话:010-59426307 010-59426319 邮政编码:100089

地址:北京市海淀区北清路164号28-38号院