博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
开源大数据周刊-第53期
阅读量:6486 次
发布时间:2019-06-23

本文共 1183 字,大约阅读时间需要 3 分钟。

摘要:
HBase Phoenix助力海量数据实时分析、HBaseCon West 2017 大会、Spark在ETL中的应用、HBase在阿里搜索团队的应用实践、开源大数据查询分析引擎及Kudu

阿里云E-Mapreduce动态

  • 云HBase支持超过300g的容量,请提工单申请
  • 云HBase支持phoenix,phoenix支持海量数据的实时分析

资讯

  • 云计算技术大会在北京召开,阿里巴巴技术专家宋军分享了题为《SparkSQL在ETL中的应用》的演讲。宋军表示,ETL主要有三个步骤:抽取、转换、加载。首先读取数据源,做清洗加工,整合处理,最终把这些数据存储到目标存储里,对ETL要求满足简单易用、支持多种数据源、支持容错处理、丰富的算子、复杂数据类型、计算快等多个因素。如何实现以上目标,宋军从DataSource、丰富的算子 、Hive兼容、性能、云上ETL 五个方面作出解读。
  • Apache HBase 是基于 Hadoop 框架和谷歌 Bigtable 技术建立起来的一款分布式、可拓展的开源数据库实现。谷歌在博客中表示,得益于阿里巴巴、苹果、Facebook 和 Visa 等企业用户的大力支持,目前 HBase 开源社区已经取得了显著的发展,并正在建立起一套完善的大数据“生态系统”,其中的关键组件包括:Apache Phoenix、OpenTSDB、Apache Trafodion 以及 Apache Kylin 等。

技术

  • phoenix满足海量数据实时分析需求,通过建立索引在海量数据上查询少量数据,并且基本实时返回; 支持做一些复杂的SQL操作,包括join,sub-query等;不适合于ETL,比如10T数据变为10T的数据。
  • 当前云HBase正在公测中,不少客户在使用,在使用的过程中,一般开发同学在自己的电脑研发,需要在自己的电脑连接云HBase服务,对于性能等需求要求不高。本文主要讲述怎么通过VPN、VPC等方式构建一个测试环境,以满足开发的需求。
  • HBase作为淘宝全网索引构建以及在线机器学习平台的核心存储系统,是阿里搜索基础架构的重要组成部分。本文我们将介绍HBase在阿里搜索的历史、规模,应用的场景以及在实际应用当中遇到的问题和优化。
  • 本文将会对Hive、Impala、Shark、Stinger和Presto这五类主流的开源大数据查询分析引擎进行简要介绍以及性能比较,最后进 行总结与展望。Hive、Impala、Shark、Stinger和Presto的进化图谱如图1所示。姑且一看。
  • Kudu 是一个基于 Raft 的分布式存储系统,它致力于融合低延迟写入和高性能分析这两种场景,并且能很好的嵌入到 Hadoop 生态系统里面,跟其他系统譬如 Cloudera Impala,Apache Spark 等对接。

转载地址:http://sfpuo.baihongyu.com/

你可能感兴趣的文章
配置管理小报100330:为什么配置库中代码和文档分开放?
查看>>
JSP指令元素:page指令,include指令,taglib指令
查看>>
java 自动装箱和拆箱
查看>>
NTFS的五大热点问题解答
查看>>
下丁字符号用MathType怎么编辑出来
查看>>
Java Web对mysql数据库的几种操作
查看>>
Android Studio插件
查看>>
java中的访问权限
查看>>
CallableAndFuture
查看>>
Nginx配置文件详细说明
查看>>
开源爬虫larbin分析
查看>>
C# Linq获取两个List或数组的差集交集
查看>>
YUV422转RGB24
查看>>
数据库:mongodb与关系型数据库相比的优缺点zz
查看>>
webclinet downstring 搜狐 为什么是个?号
查看>>
new的三种形态
查看>>
记录发现的一个hiredis的bug
查看>>
WPF整理-使用ResourceDictionary管理Logical Resources
查看>>
广告banner:手动滑动切换,自动切换,点击跳转,异步加载网络图片
查看>>
Java中4大基本加密算法解析
查看>>