数据目录是什么?为何需要它?

数据目录是什么?为何需要它?

简而言之,数据目录就是关于企业数据资产的一个有序清单。它可以使用元数据来帮助企业管理数据,帮助数据专业人员收集、组织、访问和充实元数据,从而为数据发现和治理提供支持。


—01—数据目录的定义和类比

在上文我们简单介绍数据目录的定义,也就是使用元数据来帮助企业管理数据。接下来,我们使用图书馆作类比,带您详细了解数据目录。


当您前往图书馆查找某一图书时,您可以使用图书目录来查找该图书是否存在,了解它的版本、位置以及相关描述。您可以使用所有这些信息来决定是否真的需要这本书,了解如何找到它。


当今的许多对象存储、数据库和数据仓库就相当于一座座图书馆。


我们再回到图书馆和图书目录。现在,我们对图书目录进行扩展,涵盖整个国家的所有图书馆。想象一下,这样您就可以在一个界面中查找整个国家中储藏了您所需图书的所有图书馆,查找关于您所需的每一本图书的所有详细信息。


企业数据目录之于数据,正如图书目录之于图书。它可以为您提供一个整体视图,提供关于您所有数据的深度可见性,而不仅仅是一次只查看某一项数据。


您为什么需要这样一个视图呢?


—02—数据目录可以解决哪些问题?

与过去相比,想从如今前所未有的数据海洋中找到正确的数据更加困难。同时,关于数据的监管条例和法规(例如 GDPR)也比过去更多、更严格。在这一背景下,除了数据访问之外,数据治理也成为了一个严峻的挑战。您不仅要了解当前您所拥有数据的类型、哪些人在移动数据、数据的用途以及如何保护数据,还必须避免过多的数据层和封装,避免数据因太难使用而毫无用处。遗憾的是,很多企业和用户在查找和访问数据上面临着很多问题,包括:



—03—哪些用户应使用数据目录?

数据工程师、数据科学家、数据管理员和首席数据官等用户无不受到以上数据管理问题的困扰,无不希望能够轻松访问可靠的数据。他们面临的一些常见的挑战包括:

数据工程师想知道任意更改将对整个系统产生哪些影响,他们可能会问:

数据科学家希望能够轻松访问数据并进一步了解数据质量,他们想了解以下信息:

数据管理员负责管理数据流程,关注概念、利益相关者间协议以及数据生命周期管理。他们希望了解:


首席数据官关心哪些人在组织中做了哪些事,一般不使用数据目录。但是,他们仍然希望了解:


有了数据目录,这些问题就能迎刃而解。


—04—数据目录使用场景

在过去几年中,随着需要管理和访问的数据的数量日益增长,数据目录这一概念开始流行起来。在这一切的背后,是云、大数据分析、人工智能和机器学习正逐渐改变人们查看、管理和使用数据的方式 — 不仅要管理数据,还要访问和充分利用数据。

数仓治理:数据地图长什么样?

使用数据目录,您可以更好地使用数据,获得以下优势:


这些只是数据目录的一部分使用场景。实际上,数据目录的使用方式多种多样。从根本上说,它的宗旨就是提供更广泛的数据可见性和更深入的数据访问支持。


1.自助分析

许多用户难以找到正确的数据,同时,除了查找数据外,他们还难以判断数据是否有用。例如,您可能会发现一个名为 customer_info.csv 的文件,而又恰好需要一个关于客户的文件。但这并不意味着它就是您需要的,它可能只是 50 个类似文件中的一个。同时,该文件可能包含许多字段,您可能并不了解所有这些数据元素代表什么。对此,您需要通过一种更简单的方法来查看数据的业务上下文,例如它是否是来自正确的数据存储的托管资源以及它与其他数据工件之间的关系。

数据发现还包括通过各种方式来理解数据的形态和特征,例如简单的值分布和统计信息,或者重要且复杂的个人身份信息 (PII) 或个人健康信息 (PHI)。


2.审计、合规和变更管理

随着关于数据的政府监管法规数量不断增长,企业经常需要证明数据的来源,例如特定数据工件的来源,或在实现最终目标之前进行了哪些数据转换;在查看表格、报告或文件时,数据用户通常也希望理解数据的具体来源以及数据通过各种方式在整个组织中的移动过程。同时,对于变更管理来说,一项重要任务就是查看数据管道中某部分的变更将如何影响系统的其他部分。这就是为什么客户希望详细了解数据沿袭的原因。


3.使用业务术语表增强数据治理

如今大多数企业都建立了一个所有人都认可的术语表,就业务概念达成了一致。通常,业务术语表记录在 Excel 工作簿中。其实,数据目录比 Excel 工作簿更适合存储和管理这一重要业务信息。


此外,数据目录还支持在业务术语之间建立链接,从而创建分类;可以记录业务术语与实物资产(例如表和列)之间的关系;可以帮助用户理解哪些业务概念与哪些技术工件相关;可以帮助用户按业务概念线对数据资产分类,随后直接使用业务概念(而不是技术名称)来进行数据搜索和发现。数据目录让用户可以看到与数据相关的所有内容,增强对所查看内容的信任度,为数据治理奠定一个绝佳的起点。


—05—如何充分利用数据目录中的数据?


许多人可能不熟悉元数据,我们有必要先介绍一些简单的概念。元数据是什么?元数据分为 3 类:

面试,数据仓库的元数据包含哪些?

在过去几年里,这些宝贵的元数据的使用方式发生了一次细微的变革。曾经,元数据仅用于审计、来历追溯和报告。如今,无服务器处理、图形数据库等技术创新,尤其是全新、更加便捷的 AI 和机器学习技术正在突破元数据的界限,带来新的可能。

在今天,元数据可增强数据管理。从自助数据准备到角色和数据内容库访问控制,自动化数据打通,异常监视和警报,自动化资源供应和扩展等等,元数据可以全面增强所有这些功能。

数据目录可以使用元数据帮助您实现比数据管理更强大的功能。


—06—数据目录应当具备哪些功能?

一个优秀的数据目录应当具备以下功能:


①数据搜索和发现:数据目录应当具备灵活的搜索和过滤选项,从而赋能用户快速找到相关数据集,以实施数据科学、分析或数据工程;按照数据资产的技术层级来浏览元数据。此外,如支持用户输入技术信息、自定义标签或业务术语,数据目录可以进一步改善搜索功能。


②从各种数据源收集元数据:请确保您的数据目录可以从各种互联数据资产中收集技术元数据,包括对象存储、自治驾驶数据库、本地部署系统等等。


③元数据管理:数据目录应支持主题专家通过企业业务术语表、标签、关联、用户自定义注释、分类、评级等形式来贡献业务知识。


④自动化和数据智能:对于大规模数据,人工智能和机器学习通常必不可少。因此,数据目录应利用 AI 和机器学习技术来处理所收集的元数据,让所有可以自动化的手动任务都实现自动化。此外,人工智能和机器学习还可以切实增强数据功能,例如为数据目录用户以及现代化数据平台上其他服务的用户提供数据建议。


⑤企业级功能:您需要利用强大的企业级功能来正确使用您至关重要的数据资产,例如身份与访问管理功能以及基于 REST API 的重要功能。同时,这还意味着客户和合作伙伴可以贡献元数据(例如自定义收集器),通过 REST 公开其应用中的数据目录功能。


除此之外,您的数据目录还应当成为事实上的系统目录,从而为所有持久层(例如对象存储、Hadoop、数据库和数据仓库)以及跨所有数据存储运行的查询服务提供抽象。


正是因为如此,数据目录已不再仅仅是锦上添花,而是成为了一项必不可少的工具。


深圳SEO优化公司吴忠网站排名优化公司思茅网页设计价格广州百姓网标王推广价格梧州百度seo报价楚雄seo推荐内江seo排名价格拉萨SEO按天计费多少钱眉山设计网站甘孜设计网站报价黄冈网站设计价格安康关键词按天计费公司泉州关键词排名公司潮州SEO按天计费公司包头网站推广工具哪家好郴州网站设计模板报价大理百姓网标王推广推荐深圳外贸网站制作哪家好光明优化多少钱盐田网站设计模板价格拉萨百度爱采购报价坂田网站优化推广价格滁州网站优化排名哪家好丹竹头网站改版价格秦皇岛网站优化排名多少钱潮州网站改版价格三明seo多少钱大丰SEO按效果付费哪家好哈密网站优化软件报价绥化企业网站改版徐州推广网站推荐歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化