备案 控制台
开发者社区 大数据与机器学习 大数据开发治理DataWorks 文章 正文

治理企业“数据悬河”,阿里云DataWorks全链路数据治理新品发布

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
推荐场景:
Github实时数据分析与可视化
简介: 10月19日,在2021年云栖大会上,阿里云重磅发布DataWorks全链路数据治理产品体系,基于数据仓库,数据湖、湖仓一体等多种大数据架构,DataWorks帮助企业治理内部不断上涨的“数据悬河”,释放企业的数据生产力。

10月19日,在2021年云栖大会上,阿里云重磅发布DataWorks全链路数据治理产品体系,基于数据仓库,数据湖、湖仓一体等多种大数据架构,DataWorks帮助企业治理内部不断上涨的数据悬河,释放企业的数据生产力。

b4c9779b358f8c59923ae2802aa9d8b7.jpeg

阿里巴巴集团副总裁 阿里云智能计算平台事业部高级研究员贾扬清现场分享


“当数据量变得越来越大,单位数据的价值会变得越来越小,全链路数据治理让数据从低质低效向高质高效流动。”

阿里巴巴集团副总裁,阿里云智能计算平台事业部高级研究员贾扬清在现场表示。黄河泥沙的淤积使河床不断抬高,形成了河高于地平面的“地上悬河”,在河南开封,最高的悬河达到10米,并且河床每年都会以10厘米的速度增高,而随之而来的,两边的堤坝也在不断地增高。在企业的数字化转型中,数据量变得越来越大,机器变得越来越多,团队变得越来越大,数字化转型真的变得越来越好吗?对于企业来说,表象的繁荣不代表未来不会发生一场“洪水”。在阿里巴巴,双11已经成为了日常,2021年大数据计算服务MaxCompute的日常数据处理的水位线已经超过2020年双11的峰值,不断增长的数据量已经造成了极大的成本与效率的压力。

机器的效率+人的效率=数据的效率

面对每年如此膨胀的数据,阿里巴巴的解法是通过大数据+AI一体化平台的能力,让数据效率成为企业的核心指标。在机器的效率层面,MaxCompute作为离线数仓,单日数据处理量已经达到1.7EB,但是除了数据量,更应该关注的是MaxCompute仅用10%的机器增长,就支撑了75%的数据量增长。这里面是MaxCompute在底层的存储和性能不断地追求极致的优化,并且连续5年打破TPCx-BigBench 100TB规模性能世界记录。同时Hologres作为实时数仓,峰值每秒写入5.96亿条,单表存储高达2.5PB,基于万亿级数据对外提供多维分析和服务,99.99%的查询可以在80ms以内返回结果。HologresMaxCompute组成离线、实时、分析、服务一体化的数据仓库,从底层就极大地简化了大数据架构的复杂度。机器层面的效率往往容易被衡量,但是人的效率却很难被量化。DataWorks2009年开始成为阿里巴巴集团统一的大数据开发治理平台完成阿里巴巴数据中台的搭建。对一个平台的完善性与易用性,用户往往会用脚投票。目前在DataWorks上构建的大规模协同数据中台的每日活跃用户数已经超过5万,平均每3个阿里巴巴员工就有1个在使用DataWorks,服务阿里巴巴内部几乎所有部门,沉淀的全链路数据治理核心能力超过数百项。FY2020,阿里巴巴通过数据治理的综合收益超过10亿元,可以说大数据开发治理平台DataWorks与计算引擎MaxComputeHologres组成了大数据架构下的“Wintel联盟”,共同提高企业数据的效率。

image.png

建设经验:从小作坊到大平台到敏捷制造

数据治理也好、数据中台也好,从来也不是一个从象牙塔里想出来的产品,而是经过很多年磨出来的。阿里巴巴的数字化转型也经历过刀耕火种的年代,每个业务团队维护多套Hadoop集群,像一个个小作坊:有什么用什么,需要什么加什么,各种技术组件像搭积木一样逐渐堆砌起来。而在这个过程中,经常会非常痛苦,平台发布了一个新的功能,不知道什么原因把另一个组件搞挂了,然后技术人员花很长时间去排查另一个组件有什么问题,修复了一个组件,发布了一下,又把另一个搞挂了,问题不断冒出就像“按下葫芦浮起瓢”,好像永远没有尽头。于是,阿里巴巴开始轰轰烈烈的平台统一计划,搭建起了大平台,把开源的架构改成自研的架构,数据逐渐都迁移到MaxCompute。这个时候数据中台的概念也开始在集团内推广,逐渐将3ONE数据中台方法论落地到DataWorks,完成了阿里巴巴整个数据中台的搭建。至此,从核心的电商天猫淘宝,到饿了么、优酷、盒马等各个业务团队都在同一套大平台上进行一站式的协同数据开发。但是随着大平台的普及,使用的人数越来越多,数据的治理也会越变得更加复杂。在不断产生成千上万张表中,企业无法知道有多少条不规范的语句像白蚁一样正在消耗大量的计算资源;有多少张表正在重复地被复制,制造表象的“数据繁荣”;有多少脏数据在不断生产污染数据的质量;有多少张表正在被不断申请权限使用,面临数据安全的风险。这些问题都对大平台提出了严峻的挑战。于是,大平台逐渐往敏捷制造不断演进,通过全链路的数据治理能力,以全局的视角进行管控,并同时实现数据的决策的下放。

image.png

DataWorks全链路数据治理新品发布

2021云栖大会全链路数据治理峰会,DataWorks在十二年积累的数百项数据开发治理能力之上,重磅发布全链路数据治理系列新品。

数据治理中心

数据治理对于企业的大数据团队,不单是一个技术问题,更是组织和管理问题。对于整个组织来说,如何来衡量数据治理最终的效果?如何更好地发挥组织的主动性?在一些企业当中,会成立了专门的数据委员会,制定一些数据治理的规范,但是发现平台并不能很好地支持这些规范,又或者说企业购买了一个数据平台,但是却不知道如何通过平台来完成数据治理的工作。在阿里巴巴内部经常会参考一个健康分的概念,从组织设计上,数据委员会下面有平台团队,业务团队,以及风控、财务等协同团队。那对于某个业务团队来说,会制定一个今年的目标比如说把健康分从80分提升为90分,从计算、存储等方面入手,不单从业务侧、生产侧开展治理优化工作,有需求也会提给数据平台团队,对引擎和数据平台产品进行优化演进,大家一起朝这个目标努力。组织有了可测量的方式,这些部门就可以把这些数字放到自己的目标里去。同时各类的数据治理战役,各个团队的比武等等长效的运营工作,也可以通过健康分做不断地延展,达到组织数据协同的目的,发挥数据治理组织的主动性。

image.png

DataWorks全新发布的数据治理中心,针对企业计算、存储、研发、质量、安全五个方面形成企业数据治理健康分,以问题驱动的理念,覆盖事前、事中、事后的全链路主动式数据治理数据治理健康度评估企业的数据治理不再一个 “阶段性项目”,而是一个“可持续的运营项目”。

image.png

智能数据建模

企业建了一个平台,做了很多规范治理,对于业务人员的价值到底是什么?省了多少成本,治理了多少问题,对于业务人员相对是无感的。业务方只希望更快地拿到想要的数据,于是原先的数据仓库建设方式更多的是自底向上小步快跑,快速满足需求为先。而如今的全链路数据治理,让数据仓库的建设向规范化,可持续发展方向演进,强调面向业务视角自顶向下进行规范建模与面向开发视角自底向上构建数仓双管齐下。

image.png

DataWorks全新发布智能数据建模,沉淀阿里巴巴数据中台建设方法论,从数仓规划、数据标准、维度建模、数据指标四个方面,以业务视角对业务的数据业务进行诠释。智能数据建模支持快速数据建模,包含正向建模与逆向建模,提供分钟级的模型创建能力。同时打通数据开发,可以直接将数据模型发布到多个引擎,一键生成质量规则,直接发布表并自动生成ETL简代码。企业的业务人员可以方便地了解数据全貌,快速获取所需的数据指标以及基于数据模型进行数据分析和探查,企业内所有的员⼯可以实现“数同⽂”的快速理解与流通,让数据决策可以实现真正有效的下放!

image.png

盒马鲜生通过DataWorks智能数据建模落地新零售行业数据模型Rex-LDM

同时,现场还发布了DataWorks数据集成实时同步能力、智能数据查询、隐私安全计算、DataWorks开放平台、数据作业迁云工具与迁云专家服务等多项功能。

image.png


中国信通院在20219月发布的《全球数字经济白皮书》报道,去年我国的数字经济规模已经达到5.4万亿美元,占比GDP1/3。在数字经济时代,数据已经成为关键生产要素,就像在农业经济时代和工业经济时代中,土地、劳动力是关键的生产要素。DataWorks通过智能数据建模、全域数据集成、高效数据生产、主动数据管理、全面数据安全、快速数据服务六大全链路数据治理的能力,承载千行百业数字化转型的可能。目前,DataWorks已经在数字政府、新金融、新零售、能源、工业、交通、游戏、教育、数字营销等行业落地数千家客户。

国家电网大数据中心通过DataWorks实现总部+27家省(市)公司PB级数据的统一管理,通过全链路数据中台的治理与监测运营体系,加快电网整体数字化转型升级。

创梦天地基于开源的EMR引擎,用DataWorks替换自研调度系统,企业内部的技术人员可以更加专注业务,助力游戏行业的数据化运营。

亿滋中国通过DataWorks智能数据建模进行全链路的数据模型治理,极大提升数据中台的自服务能⼒,让企业数据决策实现下放,释放新零售的数字化力量。

image.png

企业数字化转型正在进入的深水区,“数据悬河”将逐渐成为企业的“达摩克斯之剑”,阿里云正在与各行各业的客户与合作伙伴一起,通过全链路数据治理,管得好数据、用得好数据,让数据向先进生产力集聚!


DataWorks产品官网: https://www.aliyun.com/product/bigdata/ide

DataWorks钉钉交流群:

image.png


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
dataworks_demo21
目录
相关文章
扬流
|
2天前
|
人工智能 分布式计算 DataWorks
首批!阿里云完成中国信通院数据智能平台专项测试
2024年5月31日,在中国信通院组织的首批数据智能平台专项测试中,阿里云数据智能平台解决方案(MaxCompute、DataWorks、PAI)顺利完成测试。
扬流
42 1
首批!阿里云完成中国信通院数据智能平台专项测试
真的很搞笑
|
12天前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之如何将CSV文件从阿里云OSS同步到ODPS表,并且使用列作为表分区
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
真的很搞笑
32 1
DataWorks产品使用合集之如何将CSV文件从阿里云OSS同步到ODPS表,并且使用列作为表分区
云安全专家
|
16天前
|
数据安全/隐私保护
首个数字水印国标规范即将实施!阿里云「数字身份证」助力企业合规
构建数据的「信任印记」
云安全专家
571 1
首个数字水印国标规范即将实施!阿里云「数字身份证」助力企业合规
aliyun4381607004
|
6天前
|
分布式计算 DataWorks 调度
阿里云DataWorks-部署自定义python项目问题
阿里云DataWorks-多种方式部署自定义python项目并进行调度
aliyun4381607004
108 2
宇宙超级无敌霸王龙
|
5天前
|
SQL 弹性计算 API
云服务器 ECS产品使用问题之如何通过API调用阿里云服务器上SQL Server数据库中的数据
云服务器ECS(Elastic Compute Service)是各大云服务商阿里云提供的一种基础云计算服务,它允许用户租用云端计算资源来部署和运行各种应用程序。以下是一个关于如何使用ECS产品的综合指南。
宇宙超级无敌霸王龙
266 1
sunrr
|
9天前
|
弹性计算 安全 持续交付
深度评测:阿里云“高效构建企业门户网站”解决方案
阿里云的“高效构建企业门户网站”解决方案在操作便捷性、系统稳定性、扩展性以及成本控制等方面都表现出色,为企业用户提供了一站式的网站建设和托管服务。
sunrr
23 2
芯动大师
|
17天前
|
存储 负载均衡 安全
使用阿里云解决云上数据保存的挑战
在数字化时代,数据成为企业重要资产,但快速增长的数据管理变得复杂。为此,作者选择了阿里云作为云上数据存储解决方案。阿里云凭借其高性能、高可靠和高安全的云存储服务,如对象存储OSS、文件存储NAS等,解决了数据保存问题。此外,阿里云的多副本和多机房策略确保了数据的可靠性和安全性,同时,丰富的存储产品线满足了不同场景的需求,帮助企业降低存储成本并提高数据访问效率。通过实施数据迁移、访问和备份恢复,作者成功优化了数据管理并期待未来与阿里云的更多合作。
芯动大师
47 8
夹心789
|
14天前
|
JSON DataWorks 监控
DataWorks产品使用合集之如何实现数据迁移(从阿里云一个账号迁移到另一个账号)
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
夹心789
27 1
云浠Cherry
|
25天前
|
SQL 运维 关系型数据库
阿里云DTS踩坑经验分享系列|数据不一致修复大法
阿里云数据传输服务DTS在帮助用户迁移数据、同步数据时,在某些复杂场景下会出现源库与目标库数据不一致的问题,造成数据错误,给用户带来困扰。由于数据不一致的问题很难完全避免,为了及时修复不一致的数据,DTS产品推出数据订正功能,保障用户在同步\迁移数据时的数据一致性。本文介绍了产生数据不一致的一些典型场景,并重点阐述了如何使用DTS数据订正功能来修复不一致的数据。
云浠Cherry
259 4
真的很搞笑
|
12天前
|
数据采集 SQL DataWorks
DataWorks产品使用合集之如何进行数据治理
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
真的很搞笑
19 0
大数据与机器学习

大数据开发治理DataWorks

热门文章

最新文章

  • 1
    DataWorks重磅推出全新资源组2.0,实现低成本灵活付费和动态平滑扩缩容
  • 2
    DataWorks产品使用合集之如何判断资源组的数据源是否已经打通内网
  • 3
    DataWorks产品使用合集之对于ECS数据源的数据集成,是否需要使用独享调度资源和独享集成资源
  • 4
    大数据公共数据集上线,免费试用TB级数据分析
  • 5
    数据中台的智能进化—阿里巴巴十二年数据平台发展历程
  • 6
    DataWorks产品使用合集之标准代码如何导入模板下载
  • 7
    DataWorks操作报错合集之数据集成使用公共数据集成资源组写入到redis数据源(使用的是VPC连接),提示以下错误:request action:[InnerVpcGrantVpcInstanceAccessToApp], message:[InvalidInstanceId.怎么解决
  • 8
    2万字揭秘阿里巴巴数据治理平台DataWorks建设实践
  • 9
    DataWorks常见问题之如何将数据集成到oss链路
  • 10
    DataWorks产品使用合集之独享资源组ossutil配置文件路径是什么
  • 1
    阿里云DataWorks-部署自定义python项目问题
    108
  • 2
    DataWorks重磅推出全新资源组2.0,实现低成本灵活付费和动态平滑扩缩容
    53552
  • 3
    DataWorks操作报错合集之调用ListInstances API时报错:ServiceUnavailable The request has failed due to a temporary failure of the server.是什么导致的
    81
  • 4
    DataWorks操作报错合集之实时同步能启动,但是不能同数据,错误提示"Thereplicaidentityoftablesyouselectedisnotfull,pleasealtertablefirst.need alter table"表示什么意思
    87
  • 5
    DataWorks操作报错合集之出现报错数据质量校验不通过,但任务没有设置DQC校验,是什么导致的
    87
  • 6
    DataWorks操作报错合集之遇到错误信息提示:"ErrorMessage: ClickHouse exception, code: 210, host: cc-,是什么导致的
    102
  • 7
    DataWorks操作报错合集之在点击DQC监控时,跳转到DQC页面出现报错,是什么导致的
    76
  • 8
    DataWorks操作报错合集之当 Flink 垃圾管理器(Garbage Collector)发生错误时,是什么原因导致的
    116
  • 9
    DataWorks操作报错合集之同步脚本报错This error often occurs when a lot dirty data exists in the source data. 是什么原因
    113
  • 10
    DataWorks操作报错合集之同步任务同步到OSS,报错:Caused by: com.aliyun.oss.ClientException: The target server failed to respond,如何解决
    95
  • 相关产品

  • 大数据开发治理平台 DataWorks
    文档详情 产品详情
  • 相关课程

    更多
  • 阿里云DevOps助理工程师认证(ACA)课程
  • 阿里云云原生助理工程师认证(ACA)课程
  • 阿里云RPA(机器人流程自动化)- 初级入门(可视化)
  • 带您快速了解阿里云消息队列RocketMQ 5.0版
  • 相关电子书

    更多
  • 阿里云产品十一月刊来啦!
  • 阿里云产品安全基线白皮书
  • 云原生产业大会:阿里云精彩内容集锦
  • 相关实验场景

    更多
  • Alibaba Cloud Linux 2实践之管理阿里云资源
  • 阿里云数据库产品实验室
  • 阿里云上云入门
  • 容器服务Serverless版ACK Serverless 快速入门:在线魔方应用部署和监控
  • 使用阿里云Elasticsearch体验信息检索加速
  • 使用阿里云Elasticsearch快速搭建可观测系统
  • 下一篇
    2024年阿里云免费云服务器及学生云服务器申请教程参考

    深圳SEO优化公司大鹏设计公司网站大芬网站优化推广深圳企业网站制作福田网站关键词优化南山seo网站推广塘坑网站优化推广深圳企业网站制作广州SEO按效果付费大鹏网站定制塘坑网站改版观澜百度竞价包年推广福永百姓网标王东莞seo排名塘坑网站建设设计大芬网站设计丹竹头优化惠州标王木棉湾网站制作设计东莞网站定制大运网络推广布吉外贸网站制作丹竹头网站改版塘坑外贸网站建设大芬百度爱采购南联网站定制松岗关键词排名福田百搜标王东莞SEO按效果付费松岗SEO按天计费石岩关键词按天收费歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

    深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化