• 最新公告
  • 联系我们
  • 地址:湖北武汉三环科技园
  • 电话:159116031100
  • 传真:027-68834628
  • 邮箱:mmheng@foxmail.com
  • 当前所在位置:首页 - 新闻中心
  • 在hadoop上运行sql:程序员需知晓的13种数据工具
  • 在gigaom部署structure: data的数据中心产品日程的时候,就意识到很有必要探讨在hadoop上运行sql查询,然而却未意识到hadoop上运行sql查询居然变的这么主要。本文是gigaom的资深编纂derrick harris 撰写的一篇 数据中心优势,编译如下:
    实在,对sql支撑并不是hadoop的终极目的,然而这一特征将会辅助hadoop找寻本人的生存方法,让hadoop在那些已经清楚下一代剖析的主要性但又不想迈向mapreduce专家之路的公司中获得一席之地。
    当然,facebook发动了整场活动 在2009年发明了hive,它把相似数据库sql查询功效引向了hadoop 。hive当初已经是apache的一个开源名目,包括数据治理层以及类sql的构造化查询语言hiveql。在从前的数年里,hive确实是十分有用而且很风行,然而因为hive对mapreduce依附,查询速度有着先本性不足,由于在查询的进程中,mapreduce需要扫描全部数据集,而且在job的处理进程中还须要把大批的数据传输到网络。对主流用户而言,难以有很大的吸引力。
    请记住,下一代的sql-on-hadoop工具并不仅仅只是贸易智能,也不是仅仅只能读取存储在hadoop上数据的数据库产品, emc greenplum, hp vertica, ibm netezza, paraccel, microsoft sql server以及teradata/aster data全体都容许某些方式的hadoop数据查问。而且这些是利用,框架以及能够让用户从内部进行hadoop数据查问的统一接入引擎,有时候也会重构底层盘算以及数据基本设施。这种方法的长处在于:能够应用已有存储情势的数据,从实践上讲,对数据的分析运用就不须要再拜访两个独破的数据存储。
    数据仓库和bi:the structure: data set
    apache drill: drill是由mapr主导、基于hadoop之上的类似于谷歌的demel交互式查询引擎。首次颁布在8月份,不外该项目正处在开发阶段,也是apache的孵化器打算,依据其网站所言:明白的目的就是扩大到10000台服务器,而且可以在多少秒钟之内处理pb级的数据和数万亿条的记载。
    mapr的产品治理总监tomer shiran表现:drill与mapreduce相辅相成。在谷歌,数以千计的工程师天天都在dremel跟mapreduce,将来也将有着hadapt:hadapt实际上在2011年的structure: data大会上宣布,它云基础架构也是第一批sql-on-hadoop的厂商之一,其奇特之处在于,在市场上已经有了真正的产品,而且已经培养了本人的客户群。其举世无双的架构包含进步的sql剖析工具,为mapreduce以及相干义务打造的split-execution引擎,也包括hdfs跟相干的存储。

    hadapt供给了一体化的分析环境,旨在对hadoop里面的数据履行分析操作,还能对sql环境中传统的构造化数据进行分析。而hadapt的平台设计成了可以在私有云或公共云环境上运行,供给了从一个环境就能拜访所有数据的长处,所以除了mapreduce流程和大数据分析工具外,现有的基于sql的工具也可以使用。hadapt可以在hadoop层和关联数据库层之间主动划分查询履行义务,提供了hadapt所谓的优化环境,这种环境可以充足应用hadoop的可扩展性和关联数据库的疾速度。
    platfora:从技巧来讲,这并不是一个sql产品,platfora当初是红的发紫,而且用意打造大数据贸易智能的新蓝图。大家都晓得,如何可能把繁杂的数据进行有效处理、视觉化,让它变成一般的用户都能看得懂的货色,数据才干真正变得有价值。但是hadpoop只有一小局部开发者在使用,而platfora却想把它变成一个任开放式网络何人都可以懂得、应用的工具。固然也有其余的创业者在做相似的事件,但是platfora在数据处理速度上有显明的上风,同时无比直观,并且他们在用html5的canvas来做解决计划,既可以保障操作简便又能兼容不同装备上的数据,公司在10月份进行的产品宣布。
    qubole:qubole是一个建设云平台进行数据分析和处置的创业公司。结合开创人兼ceo是ashishi thusoo,在开办qubole之前,ashishi负责facebook数据基本设施团队。在他的引导下,团队发明了世界上最大的数据分析与处置平台。他也是apache hive名目的开创人,并作为该项目标apache软件基金会的创始副总裁。qubole宣称存在主动扩大才能,并且对hadoop代码做过优化,高速的列数据缓存可以让其服务比独自运行hive时要快良多。qubole运行在aws上,绝对而言,这比保护一个物理集群要轻易得多。
币安app官网下载