在hadoop上运行sql：程序员需知晓的13种数据工具--侦探网

最新公告

侦探网欢迎你

热点推荐

联系我们

地址：湖北武汉三环科技园
电话：159116031100
传真：027-68834628
邮箱：mmheng@foxmail.com

当前所在位置：首页 - 新闻中心

在hadoop上运行sql：程序员需知晓的13种数据工具

在gigaom部署structure: data的数据中心产品日程的时候，就意识到很有必要探讨在hadoop上运行sql查询，然而却未意识到hadoop上运行sql查询居然变的这么主要。本文是gigaom的资深编纂derrick harris 撰写的一篇数据中心优势，编译如下：
实在，对sql支撑并不是hadoop的终极目的，然而这一特征将会辅助hadoop找寻本人的生存方法，让hadoop在那些已经清楚下一代剖析的主要性但又不想迈向mapreduce专家之路的公司中获得一席之地。
当然，facebook发动了整场活动在2009年发明了hive，它把相似数据库sql查询功效引向了hadoop 。hive当初已经是apache的一个开源名目，包括数据治理层以及类sql的构造化查询语言hiveql。在从前的数年里，hive确实是十分有用而且很风行，然而因为hive对mapreduce依附，查询速度有着先本性不足，由于在查询的进程中，mapreduce需要扫描全部数据集，而且在job的处理进程中还须要把大批的数据传输到网络。对主流用户而言，难以有很大的吸引力。
请记住，下一代的sql-on-hadoop工具并不仅仅只是贸易智能，也不是仅仅只能读取存储在hadoop上数据的数据库产品， emc greenplum, hp vertica, ibm netezza, paraccel, microsoft sql server以及teradata/aster data全体都容许某些方式的hadoop数据查问。而且这些是利用，框架以及能够让用户从内部进行hadoop数据查问的统一接入引擎，有时候也会重构底层盘算以及数据基本设施。这种方法的长处在于：能够应用已有存储情势的数据，从实践上讲，对数据的分析运用就不须要再拜访两个独破的数据存储。
数据仓库和bi：the structure: data set
apache drill： drill是由mapr主导、基于hadoop之上的类似于谷歌的demel交互式查询引擎。首次颁布在8月份，不外该项目正处在开发阶段，也是apache的孵化器打算，依据其网站所言：明白的目的就是扩大到10000台服务器，而且可以在多少秒钟之内处理pb级的数据和数万亿条的记载。
mapr的产品治理总监tomer shiran表现：drill与mapreduce相辅相成。在谷歌，数以千计的工程师天天都在dremel跟mapreduce，将来也将有着hadapt：hadapt实际上在2011年的structure: data大会上宣布，它云基础架构也是第一批sql-on-hadoop的厂商之一，其奇特之处在于，在市场上已经有了真正的产品，而且已经培养了本人的客户群。其举世无双的架构包含进步的sql剖析工具，为mapreduce以及相干义务打造的split-execution引擎，也包括hdfs跟相干的存储。
hadapt供给了一体化的分析环境，旨在对hadoop里面的数据履行分析操作，还能对sql环境中传统的构造化数据进行分析。而hadapt的平台设计成了可以在私有云或公共云环境上运行，供给了从一个环境就能拜访所有数据的长处，所以除了mapreduce流程和大数据分析工具外，现有的基于sql的工具也可以使用。hadapt可以在hadoop层和关联数据库层之间主动划分查询履行义务，提供了hadapt所谓的优化环境，这种环境可以充足应用hadoop的可扩展性和关联数据库的疾速度。
platfora：从技巧来讲，这并不是一个sql产品，platfora当初是红的发紫，而且用意打造大数据贸易智能的新蓝图。大家都晓得，如何可能把繁杂的数据进行有效处理、视觉化，让它变成一般的用户都能看得懂的货色，数据才干真正变得有价值。但是hadpoop只有一小局部开发者在使用，而platfora却想把它变成一个任开放式网络何人都可以懂得、应用的工具。固然也有其余的创业者在做相似的事件，但是platfora在数据处理速度上有显明的上风，同时无比直观，并且他们在用html5的canvas来做解决计划，既可以保障操作简便又能兼容不同装备上的数据，公司在10月份进行的产品宣布。
qubole：qubole是一个建设云平台进行数据分析和处置的创业公司。结合开创人兼ceo是ashishi thusoo，在开办qubole之前，ashishi负责facebook数据基本设施团队。在他的引导下，团队发明了世界上最大的数据分析与处置平台。他也是apache hive名目的开创人，并作为该项目标apache软件基金会的创始副总裁。qubole宣称存在主动扩大才能，并且对hadoop代码做过优化，高速的列数据缓存可以让其服务比独自运行hive时要快良多。qubole运行在aws上，绝对而言，这比保护一个物理集群要轻易得多。

赞助合作：

地址:北京侦探网
本网站由侦探网保留所有权利

当前所在位置：首页 - 新闻中心