备案 控制台
开发者社区 大数据与机器学习 开源大数据平台 E-MapReduce 文章 正文

官宣!阿里云重磅发布云原生数据湖体系

简介: 介绍如何基于阿里云 OSS 、JindoFS 和数据湖构建(Data Lake Formation,DLF)等基础服务,同时结合阿里云上丰富的计算引擎,打造一个全新云原生数据湖体系。

背景

“ 数据湖 ”正在被越来越多人提起,尽管定义并不统一,但企业们都已纷纷下水实践,无论是AWS还是阿里云、华为。我们认为:数据湖是大数据和AI时代融合存储和计算的全新体系。

为什么这么说?还要从它的发展说起。

数据量爆发式增长的今天,数字化转型成为IT行业的热点,数据需要更深度的价值挖掘,因此需要确保数据中保留的原始信息不丢失,应对未来不断变化的需求。当前以Oracle为代表的数据库中间件已经逐渐无法适应这样的需求,于是业界也不断地产生新的计算引擎,以便应对大数据时代的到来。企业开始纷纷自建开源Hadoop数据湖架构,原始数据统一存放在HDFS系统上,引擎以Hadoop和Spark开源生态为主,存储和计算一体。缺点是需要企业自己运维和管理整套集群,成本高且集群稳定性较差。

在这种情况下,云上托管Hadoop数据湖架构(即EMR开源数据湖)应运而生。底层物理服务器和开源软件版本由云厂商提供和管理,数据仍统一存放在HDFS系统上,引擎以Hadoop和Spark开源生态为主。这个架构通过云上IaaS 层提升了机器层面的弹性和稳定性,使企业的整体运维成本有所下降,但企业仍然需要对HDFS系统以及服务运行状态进行管理和治理,即应用层的运维工作。

因为存储和计算耦合在一起,稳定性不是最优,两种资源无法独立扩展,使用成本也不是最优。同时,受到开源软件本身能力的限制,传统数据湖技术无法满足企业用户在数据规模、存储成本、查询性能以及弹性计算架构升级等方面的需求,也无法达到数据湖架构的理想目标。企业在这个时期需要更低廉的数据存储成本、更精细的数据资产管理、可共享的数据湖元数据、更实时的数据更新频率以及更强大的数据接入工具。

云原生时代到来,我们可以有效利用公有云的基础设施,数据湖平台也有了更多的技术选择。比如云上纯托管的存储系统逐步取代HDFS,成为数据湖的存储基础设施,并且引擎丰富度也不断扩展。

除了Hadoop和Spark的生态引擎之外,各云厂商还发展出面向数据湖的引擎产品。如分析类的数据湖引擎有AWS Athena和华为DLI,AI类的有AWS Sagemaker。这个架构仍然保持了一个存储和多个引擎的特性,所以统一元数据服务至关重要。

云原生数据湖体系

基于此,阿里云正式发布了云原生数据湖体系,由对象存储OSS、数据湖构建Data Lake Formation、E-MapReduce产品强强组合,提供存储与计算分离架构下,湖存储、湖加速、湖管理、湖计算的企业级数据湖解决方案。

  • 数据湖存储用云上的对象存储OSS加上 JindoFS 取代HDFS,提升数据规模、降低存储成本、实现计算和存储分离架构;
  • 数据湖构建(DLF)服务提供统一元数据和统一的权限管理,支持多套引擎接入;
  • EMR上Spark等计算引擎的云原生化,可以更好的利用弹性计算资源;
  • 云上的数据开发治理平台 Dataworks解决了数据湖元数据治理、数据集成、数据开发等问题。

数据是最好的佐证:阿里云云原生数据湖体系可支持EB级别的数据湖,存储超过10万Database、1亿Table以及10亿级别的Partition,每天支持超过30亿次的元数据服务请求,支持超过10个开源计算引擎以及MaxCompute和Hologres等云原生数仓引擎。

同时,阿里云数据湖存储成本相对于高效云盘下降10倍以上,查询性能相对于传统对象存储提速3倍以上,并且查询引擎有着极高的弹性,能在30秒内启动超过1000个Spark Executor。由此可见,阿里云强大的存储和计算能力共同打造了业界领先的数据湖体系。这些背后都在告诉我们:想在大数据时代占据先机,你需要有一套系统,能够在保留数据的原始信息情况下,又能快速对接多种不同的计算平台。

在此之际,我们推出云原生数据湖技术系列专题,将告诉大家如何基于阿里云OSS、JindoFS和数据湖构建(DataLakeFormation,DLF)等基础服务,结合阿里云上丰富的计算引擎,打造一个全新云原生数据湖体系。

1.png

数据湖存储 OSS

阿里云对象存储 OSS 是数据湖的统一存储层,它基于12个9的可靠性设计,可存储任意规模的数据,可对接业务应用、各类计算分析平台,非常适合企业基于OSS构建数据湖。相对于HDFS来说,OSS可以存储海量小文件,并且通过冷热分层、高密度存储、高压缩率算法等先进技术极大降低单位存储成本。同时 OSS 对Hadoop生态友好,且无缝对接阿里云各计算平台。针对数据分析场景,OSS推出 OSS Select、Shallow Copy和多版本等功能,加速数据处理速度,增强数据一致性能力。

更多阅读:
• 【数据湖存储篇】——基于 OSS 的 EB 级数据湖

数据湖加速

对象存储系统在架构设计上和 HDFS 等分布式文件系统存在一定差异,同时存储和计算分离架构中 OSS 是远端的存储服务,在大数据计算层面缺少对数据本地化的支持。因此,在 OSS 对象存储服务的基础上,阿里云定制了自研的大数据存储服务 —— JindoFS,极大的提升数据湖上的引擎分析性能,在TPC-DS、Terasort等常见的benchmark测试中,采用计算存储分离架构的 JindoFS 性能已经达到或超过了本地部署的HDFS。同时JindoFS 完全兼容 Hadoop 文件系统接口,给客户带来更加灵活、高效的计算存储方案,目前已验证支持Hadoop开源生态中最主流的计算服务和引擎:Spark、Flink、Hive、MapReduce、Presto、Impala 等。当前 JindoFS 存储服务包含在阿里云 EMR 产品中,未来 JindoFS 会有更多的产品形态服务于数据湖加速场景。

更多阅读:
• 【数据湖加速篇】 —— 基于 JindoFS 构建高效数据湖
• 【数据湖加速篇】 —— 如何利用缓存加速服务来提升数据湖上机器学习训练速度
• 【数据湖加速篇】 —— 数据湖结构化数据优化与查询加速方案
• 【数据湖加速篇】 —— JindoDistCp:数据湖离线数据迁移最佳实践

数据湖构建(DLF)

传统的数据湖架构非常强调数据的统一存储,但对数据的Schema管理缺乏必要的手段和工具,需要上层分析和计算引擎各自维护元数据,并且对数据的访问没有统一的权限管理,无法满足企业级用户的需求。数据湖构建(DLF)服务是阿里云在2020年9月推出的针对数据湖场景的核心产品,主要为了解决构建数据湖过程中用户对数据资产的管理需求。DLF 对 OSS 中存储的数据提供统一的元数据视图和统一的权限管理,并提供实时数据入湖和清洗模板,为上层的数据分析引擎提供生产级别的元数据服务。

更多阅读:
• 【数据湖构建篇】 —— 数据湖元数据服务的实现和挑战
• 【数据湖构建篇】 —— 多引擎集成挖掘湖上数据价值
• 【数据湖构建篇】 —— 多数据源一站式入湖
• 【数据湖构建篇】 —— 数据湖构建服务搭配Delta Lake玩转CDC实时入湖

云原生计算引擎

当前阿里云上众多云原生计算引擎已经接入或准备接入数据湖构建服务,包括阿里云EMR上的开源计算引擎Spark、Hive、Presto、Flink 以及大数据计算服务 MaxCompute、数据洞察 Databricks 引擎和数据湖分析(DLA)等。以最常用的开源引擎 Spark 为例,阿里云 Spark 可以直接对接数据湖构建的元数据服务,运行在多集群或多平台上的 Spark 任务共享同一个数据湖元数据视图。并且 EMR 为 Spark 推出了Shuffle Service服务,Spark 引擎因此获得云原生平台上的弹性扩缩容能力。云原生计算引擎结合数据湖架构可以获得更高的灵活度并极大的降低数据分析成本。

另外,云原生数据仓库 MaxCompute 和实时 HSAP 分析引擎 Hologres 也准备接入数据湖构建服务,未来数仓和数据湖将会发生什么样的化学反应呢?敬请期待。

更多阅读:
• 【数据湖计算篇】 —— 云原生计算引擎挑战与解决方案
• 【数据湖计算篇】 —— Serverless Spark的弹性利器 - EMR Shuffle Service

数据湖治理

DataWorks数据综合治理可为阿里云客户提供统一的数据视图,用于掌握数据资产的现状、助力数据质量的提升、提高获取数据的效率、保障数据安全的合规并提升数据查询的分析效率。可以有效支撑离线大数据仓库的构建、数据联邦的查询和分析处理、海量数据的低频交互式查询和智能报表的构建,以及数据湖方案的实现。

更多阅读:
• 【数据湖治理篇】 —— 数据开发治理平台DataWorks

综上所述,利用阿里云的基础组件和整体解决方案,用户可以方便的构建一个数据湖平台,完成企业大数据架构转型。


云栖大会数据湖专场

点击下方链接预约线上直播,了解阿里云云原生数据湖技术最新进展

https://yunqi.aliyun.com/2020/session137?liveId=44835

截屏2020-09-15 下午7.54.06.png


数据湖构建·Data Lake Formation是阿里巴巴数据湖团队带来的最新一站式入湖解决方案,了解更多信息请加入产品钉钉交流群
数据湖钉群.JPG

相关实践学习
数据湖构建DLF快速入门
本教程通过使⽤数据湖构建DLF产品对于淘宝用户行为样例数据的分析,介绍数据湖构建DLF产品的数据发现和数据探索功能。
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
阿里云E-MapReduce团队
目录
相关文章
兮叶William
|
2天前
|
消息中间件 Cloud Native 开发者
电子好书发您分享《阿里云云原生开源开发者沙龙北京站 PPT 合集 》
**阿里云开源沙龙PPT合集:北京站聚焦云原生技术** 探索云原生领域的深度与广度,[阿里云](https://developer.aliyun.com/ebook/8334/116563?spm=a2c6h.26392459.ebook-detail.5.da096cf6t38G15)分享了北京开发者沙龙的精彩内容,涵盖微服务、消息队列等主题,助力开发者洞悉行业趋势。![image](https://ucc.alicdn.com/pic/developer-ecology/cok6a6su42rzm_67b12f6cad6e4b2786859b3a668b3351.png)
兮叶William
46 3
WIFI码密
|
2天前
|
Cloud Native Serverless 开发者
阿里云助力开发者创新:探索云原生技术的新境界
阿里云开发者社区推动云原生技术发展,提供丰富产品(如容器服务、Serverless、微服务架构、服务网格)与学习平台,助力企业数字化转型。开发者在此探索实践,共享资源,参与技术活动,共同创新,共创云原生技术新篇章。一起加入,开启精彩旅程!
WIFI码密
250 2
三分钟热度的鱼
|
2天前
|
Cloud Native 关系型数据库 OLAP
云原生数据仓库产品使用合集之阿里云云原生数据仓库AnalyticDB PostgreSQL版的重分布时间主要取决的是什么
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
三分钟热度的鱼
593 1
vohelon
|
2天前
|
Cloud Native 关系型数据库 分布式数据库
PolarDB是阿里云自主研发的关系型云原生数据库
【5月更文挑战第14天】PolarDB是阿里云自主研发的关系型云原生数据库
vohelon
33 3
阿里云云原生
|
2天前
|
消息中间件 人工智能 监控
AI 001 号员工通义灵码入职阿里云丨阿里云云原生 4 月产品月报
阿里云云原生2024年4月月报。
阿里云云原生
219 2
阿里云瑶池数据库
|
2天前
|
存储 Cloud Native 大数据
国内独家|阿里云瑶池发布ClickHouse企业版:云原生Serverless新体验
全面升级为云原生架构,支持云原生按需弹性Serverless能力,解决了长期困扰用户的集群扩展效率和平滑性问题。
阿里云瑶池数据库
827 0
国内独家|阿里云瑶池发布ClickHouse企业版:云原生Serverless新体验
兮叶William
|
2天前
|
Kubernetes Cloud Native 安全
电子好书发您分享《阿里云云原生开源开发者沙龙北京站 PPT 合集》
📚 阿里云开源开发者沙龙北京站精彩回顾!获取PPT合集,深入云原生安全与微服务实践:[北京站PPT](https://developer.aliyun.com/ebook/8334/116563?spm=a2c6h.26392459.ebook-detail.5.4dc56cf6htj2uT) 🚀 图文并茂探讨微服务安全与K8s监控解决方案。不容错过的云原生学习资源!👇
兮叶William
43 2
xleesf
|
2天前
|
SQL 分布式计算 数据处理
Uber基于Apache Hudi增量 ETL 构建大规模数据湖
Uber基于Apache Hudi增量 ETL 构建大规模数据湖
xleesf
71 2
xleesf
|
2天前
|
存储 SQL 分布式计算
基于Apache Hudi + MinIO 构建流式数据湖
基于Apache Hudi + MinIO 构建流式数据湖
xleesf
119 1
ybbf7fwncy2w2
|
8月前
|
存储 人工智能 数据库
企业级数据湖的构建之道(一)
企业级数据湖的构建之道(一)
ybbf7fwncy2w2
105 1
大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

  • 1
    阿里封神谈hadoop生态学习之路
  • 2
    现代流式计算的基石:Google DataFlow
  • 3
    Spark in action on Kubernetes - Playground搭建与架构浅析
  • 4
    JindoFS解析 - 云上大数据高性能数据湖存储方案
  • 5
    如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue
  • 6
    HIVE MapJoin异常问题处理总结
  • 7
    JindoFS概述:云原生的大数据计算存储分离方案
  • 8
    Apache Spark 3.0 将内置支持 GPU 调度
  • 9
    【译】用SQL统一所有:一种有效的、语法惯用的流和表管理方法
  • 10
    HAS-插件式Kerberos认证框架
  • 1
    基于阿里云向量检索 Milvus 版和 LangChain 快速构建 LLM 问答系统
    131
  • 2
    通过阿里云向量检索 Milvus 版和通义千问快速构建基于专属知识库的问答系统
    377
  • 3
    Apache Hadoop入门指南:搭建分布式大数据处理平台
    228
  • 4
    Paimon 与 Spark 的集成(二):查询优化
    117576
  • 5
    1688API接口推荐:1688口令转换真实链接接口
    44
  • 6
    实用工具推荐:适用于 TypeScript 网络爬取的常用爬虫框架与库
    237
  • 7
    1688API接口推荐:1688按图搜索拍立淘数据接口
    339
  • 8
    基于阿里云向量检索 Milvus 版与 PAI 搭建高效的检索增强生成(RAG)系统
    180
  • 9
    EMR Notebook 开启公测,提供交互式数据分析平台
    190
  • 10
    阿里云向量检索 Milvus 版开启公测,助力企业打造高质量 AI 服务
    427
  • 相关课程

    更多
  • 5分钟玩转阿里云容器服务
  • 阿里云认证系列精品课程 - 云计算ACP
  • 相关电子书

    更多
  • DLA 一站式数据湖管理-如何高效构建安全的数据湖?
  • 阿里云云原生数据湖体系全解读
  • 数据湖存储解决方案蓝皮书
  • 相关实验场景

    更多
  • 容器服务Serverless版ACK Serverless 快速入门:在线魔方应用部署和监控
  • 重温童年的“五子棋”,赢取专属阿里云Serverless证书
  • EMR数据湖开发治理之用户画像分析
  • 基于AT模组连接阿里云物联网平台
  • 基于阿里云短信服务的防机器人验证
  • 下一篇
    2024年阿里云免费云服务器及学生云服务器申请教程参考

    深圳SEO优化公司九江设计公司网站哪家好文山关键词按天扣费价格潜江网站优化按天扣费报价德州网络营销公司龙岩网站优化按天扣费哪家好深圳建网站推荐大丰seo网站优化报价龙岩SEO按天扣费公司邵阳网站推广系统吉安百度标王价格张北网站制作报价保定百度爱采购价格嘉兴百姓网标王推广推荐吉林网站优化排名公司湘潭网站seo优化哪家好通化百度标王多少钱九江设计公司网站推荐梧州网站改版报价铜川网站开发多少钱六安网站设计模板哪家好同乐网站搜索优化定西百度竞价海南营销型网站建设多少钱临汾seo优化深圳阿里店铺托管价格南京百度爱采购价格揭阳网站推广推荐坪地阿里店铺托管价格沈阳百度seo多少钱来宾seo哪家好歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

    深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化