在gigaom部署structure: data的数据中心产品日程的时候,就意识到很有必要探讨在hadoop上运行sql查询,然而却未意识到hadoop上运行sql查询居然变的这么主要。本文是gigaom的资深编纂derrick
harris 撰写的一篇 数据中心优势,编译如下:
实在,对sql支撑并不是hadoop的终极目的,然而这一特征将会辅助hadoop找寻本人的生存方法,让hadoop在那些已经清楚下一代剖析的主要性但又不想迈向mapreduce专家之路的公司中获得一席之地。
当然,facebook发动了整场活动
在2009年发明了hive,它把相似数据库sql查询功效引向了hadoop
。hive当初已经是apache的一个开源名目,包括数据治理层以及类sql的构造化查询语言hiveql。在从前的数年里,hive确实是十分有用而且很风行,然而因为hive对mapreduce依附,查询速度有着先本性不足,由于在查询的进程中,mapreduce需要扫描全部数据集,而且在job的处理进程中还须要把大批的数据传输到网络。对主流用户而言,难以有很大的吸引力。
请记住,下一代的sql-on-hadoop工具并不仅仅只是贸易智能,也不是仅仅只能读取存储在hadoop上数据的数据库产品,
emc greenplum, hp vertica, ibm netezza, paraccel, microsoft sql
server以及teradata/aster
data全体都容许某些方式的hadoop数据查问。而且这些是利用,框架以及能够让用户从内部进行hadoop数据查问的统一接入引擎,有时候也会重构底层盘算以及数据基本设施。这种方法的长处在于:能够应用已有存储情势的数据,从实践上讲,对数据的分析运用就不须要再拜访两个独破的数据存储。
数据仓库和bi:the
structure: data set
apache drill:
drill是由mapr主导、基于hadoop之上的类似于谷歌的demel交互式查询引擎。首次颁布在8月份,不外该项目正处在开发阶段,也是apache的孵化器打算,依据其网站所言:明白的目的就是扩大到10000台服务器,而且可以在多少秒钟之内处理pb级的数据和数万亿条的记载。
mapr的产品治理总监tomer
shiran表现:drill与mapreduce相辅相成。在谷歌,数以千计的工程师天天都在dremel跟mapreduce,将来也将有着hadapt:hadapt实际上在2011年的structure:
data大会上宣布,它云基础架构也是第一批sql-on-hadoop的厂商之一,其奇特之处在于,在市场上已经有了真正的产品,而且已经培养了本人的客户群。其举世无双的架构包含进步的sql剖析工具,为mapreduce以及相干义务打造的split-execution引擎,也包括hdfs跟相干的存储。