开源大数据周刊-第53期-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

开源大数据周刊-第53期

阅读量：6486 次

发布时间：2019-06-23

本文共 1183 字，大约阅读时间需要 3 分钟。

摘要：

HBase Phoenix助力海量数据实时分析、HBaseCon West 2017 大会、Spark在ETL中的应用、HBase在阿里搜索团队的应用实践、开源大数据查询分析引擎及Kudu

阿里云E-Mapreduce动态

云HBase支持超过300g的容量，请提工单申请

云HBase支持phoenix,phoenix支持海量数据的实时分析

资讯

云计算技术大会在北京召开，阿里巴巴技术专家宋军分享了题为《SparkSQL在ETL中的应用》的演讲。宋军表示，ETL主要有三个步骤：抽取、转换、加载。首先读取数据源，做清洗加工，整合处理，最终把这些数据存储到目标存储里，对ETL要求满足简单易用、支持多种数据源、支持容错处理、丰富的算子、复杂数据类型、计算快等多个因素。如何实现以上目标，宋军从DataSource、丰富的算子、Hive兼容、性能、云上ETL 五个方面作出解读。

Apache HBase 是基于 Hadoop 框架和谷歌 Bigtable 技术建立起来的一款分布式、可拓展的开源数据库实现。谷歌在博客中表示，得益于阿里巴巴、苹果、Facebook 和 Visa 等企业用户的大力支持，目前 HBase 开源社区已经取得了显著的发展，并正在建立起一套完善的大数据“生态系统”，其中的关键组件包括：Apache Phoenix、OpenTSDB、Apache Trafodion 以及 Apache Kylin 等。

技术

phoenix满足海量数据实时分析需求，通过建立索引在海量数据上查询少量数据，并且基本实时返回；支持做一些复杂的SQL操作，包括join，sub-query等；不适合于ETL，比如10T数据变为10T的数据。

当前云HBase正在公测中，不少客户在使用，在使用的过程中，一般开发同学在自己的电脑研发，需要在自己的电脑连接云HBase服务，对于性能等需求要求不高。本文主要讲述怎么通过VPN、VPC等方式构建一个测试环境，以满足开发的需求。

HBase作为淘宝全网索引构建以及在线机器学习平台的核心存储系统，是阿里搜索基础架构的重要组成部分。本文我们将介绍HBase在阿里搜索的历史、规模，应用的场景以及在实际应用当中遇到的问题和优化。

本文将会对Hive、Impala、Shark、Stinger和Presto这五类主流的开源大数据查询分析引擎进行简要介绍以及性能比较，最后进行总结与展望。Hive、Impala、Shark、Stinger和Presto的进化图谱如图1所示。姑且一看。

Kudu 是一个基于 Raft 的分布式存储系统，它致力于融合低延迟写入和高性能分析这两种场景，并且能很好的嵌入到 Hadoop 生态系统里面，跟其他系统譬如 Cloudera Impala，Apache Spark 等对接。

转载地址：http://sfpuo.baihongyu.com/

你可能感兴趣的文章

配置管理小报100330:为什么配置库中代码和文档分开放？

JSP指令元素：page指令，include指令，taglib指令

java 自动装箱和拆箱

NTFS的五大热点问题解答

下丁字符号用MathType怎么编辑出来

Java Web对mysql数据库的几种操作

Android　Studio插件

java中的访问权限

CallableAndFuture

Nginx配置文件详细说明

开源爬虫larbin分析

C# Linq获取两个List或数组的差集交集

数据库:mongodb与关系型数据库相比的优缺点zz

webclinet downstring 搜狐为什么是个？号

new的三种形态

记录发现的一个hiredis的bug

WPF整理-使用ResourceDictionary管理Logical Resources

广告banner：手动滑动切换，自动切换，点击跳转，异步加载网络图片

Java中4大基本加密算法解析

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-01-18 20:14:44 当前IP: 3.12.123.71 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我