一种数据质量闭环控制方法与流程

文档序号:20700636发布日期:2020-05-12 15:38阅读:1371来源:国知局
导航: X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术
一种数据质量闭环控制方法与流程

本发明涉及数据质量控制技术领域,更具体地,涉及一种数据质量闭环控制方法。



背景技术:

政府部门、互联网企业、大型集团企业积累沉淀了大量的数据资源。我国已成为产生和积累数据量最大、数据类型最丰富的国家之一,从国家战略和城市战略来看数据已成为第一资源。但由于在信息化的建设过程中,企业和政府都面临着同一个问题,数据的浪费,造成数据浪费。数据的重复、数据不准确、数据不可信、数据缺失、数据无法关联、数据不一致、数据更新缓慢甚至中断等数据质量问题随着信息化的发展暴露的越来越多,质量低下成为了政府和企业数据的核心问题。数据存在的质量问题,包括技术问题、信息问题、流程问题、管理问题等,无法满足数据的一致性和规范性等问题,没有有效的质量管理方法。



技术实现要素:

鉴于上述问题,本发明提出了一种数据质量闭环控制方法,针对数据存在的质量问题,包括技术问题、信息问题、流程问题、管理问题等,无法满足数据的一致性和规范性等问题,建立数据质量闭环治理,持续提升数据质量。

为了达到上述目的,本发明实施例提供了一种数据质量闭环控制方法,包括:

步骤1:制定数据质量监控检核方案,对数据质量监控检核;

步骤2:制定数据质量规则库;

步骤3:按照数据质量规则库定时执行数据质量管控,得到数据质量问题;

步骤4:对数据质量问题管理;

步骤5:对数据质量评估,返回步骤1。

进一步的,在步骤1之前还包括定义数据质量,具体包括定义数据质量检核关键数据项,定义检核规则,定义数据质量测量指标,定义数据质量控制和监测方式和定义数据质量评价模型。

进一步的,定义数据质量检核关键数据项包括空值校验、重复校验、格式校验、参照校验、值域校验、一致性校验、逻辑校验和关系校验;

定义数据质量检核规则包括定义规则名称、关联表、规则类型、问题等级、规则权重、规则状态、规则描述和创建时间;

定义数据质量测量指标,包括定义数据的完整性、一致性、重复性、正确性、合规性、关联性和时效性;

定义数据质量控制模型和数据质量监测方式,所述数据质量控制模型控制数据稽查对象、数据稽查频度、数据稽查时间和数据稽查方式;所述数据质量监测方式包括自动方式数据质量监测或手动方式数据质量监测;

以及定义数据质量评价模型,对数据质量量化诊断和评价。

进一步的,步骤1中制定数据质量监控检核方案包括在业务流程中的数据质量控制和在信息系统中的数据质量控制;

所述在业务流程中的数据质量控制包括在数据产生环节数据质量控制、在数据集成环节数据质量控制和在数据使用环节数据质量控制;

所述在信息系统中的数据质量控制包括对信息系统中的人员、流程、业务系统前端、业务系统数据库、抽取过程和加载过程产生的数据质量问题控制。

进一步的,步骤3中,所述制定数据质量规则库包括:

数据质量需求收集,对数据质量需求进行收集,通过发现质量问题、数据使用质量问题、数据过程质量问题和数据总体质量问题进行收集和整理,发现数据质量总体要求,对质量总体要求进行整合,确认数据质量总体目标;

数据质量检核数据梳理,确认数据质量检核对象、检核数据范围以及指标构成,对检核数据范围进行梳理,发现检核数据范围内核心对象,根据对象标准定义和业务场景,初步得出出数据质量检核指标、检核规则、检核方式、检核周期、检核目标、评分标准以及数据质量责任人等信息并形成文档,根据文档内容,进行内容确认和修订;

数据质量检核规则制定,根据所述数据质量测量指标制定数据质量检核规则;

数据质量检核规则管理,包括对公共规则库管理,通过sql规则、正则规则、值域规则、算法包实现公共规则复用;

规则配置管理,根据数据检测指标指标,内置规则引擎实现质量检测;

以及对数据质量检核规则变更。

进一步的,步骤3中,所述按照数据质量规则库定时执行数据质量管控包括数据质量规则分析、数据质量检核频率、数据质量监测范围制定、生成数据质量监测报告、生成数据质量评估报告和生成数据质量综合报告。

进一步的,步骤4中,对数据质量问题管理包括数据质量循环管理,数据质量问题反馈,数据质量问题原因分析,数据质量问题修正,数据质量问题修正,数据质量问题整改。

进一步的,步骤5中对数据质量评估包括从数据质量评估的核心指标、数据质量评估模式和数据质量评估管理流程进行评估。

本发明实施例提供了一种数据质量闭环管理方法,包括制定数据质量监控检核方案,对数据质量监控检核;制定数据质量规则库;按照数据质量规则库定时执行数据质量管控,得到数据质量问题;对数据质量问题管理;对数据质量评估。在此闭环管理的驱动下,对数据质量不断生成新的治理需求,不断解决质量问题,从而持续的提升数据质量。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了一种数据质量闭环控制方法原理图;

图2示出了数据质量评估管理流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

结合图1,一种数据质量闭环控制方法,包括:

步骤1:制定数据质量监控检核方案,对数据质量监控检核;包括在业务流程中的数据质量控制和在信息系统中的数据质量控制;

所述在业务流程中的数据质量控制包括在数据产生环节数据质量控制、在数据集成环节数据质量控制和在数据使用环节数据质量控制;

所述在信息系统中的数据质量控制包括对信息系统中的人员、流程、业务系统前端、业务系统数据库、抽取过程和加载过程产生的数据质量问题控制。

步骤2:制定数据质量规则库;包括:

数据质量需求收集,对数据质量需求进行收集,通过发现质量问题、数据使用质量问题、数据过程质量问题和数据总体质量问题进行收集和整理,发现数据质量总体要求,对质量总体要求进行整合,确认数据质量总体目标;

数据质量检核数据梳理,确认数据质量检核对象、检核数据范围以及指标构成,对检核数据范围进行梳理,发现检核数据范围内核心对象,根据对象标准定义和业务场景,初步得出出数据质量检核指标、检核规则、检核方式、检核周期、检核目标、评分标准以及数据质量责任人等信息并形成文档,根据文档内容,进行内容确认和修订;

数据质量检核规则制定,根据所述数据质量测量指标制定数据质量检核规则;

数据质量检核规则管理,包括对公共规则库管理,通过sql规则、正则规则、值域规则、算法包实现公共规则复用;

规则配置管理,根据数据检测指标,内置规则引擎实现质量检测;

以及对数据质量检核规则变更。

步骤3:按照数据质量规则库定时执行数据质量管控,得到数据质量问题;所述按照数据质量规则库定时执行数据质量管控包括数据质量规则分析、数据质量检核频率、数据质量监测范围制定、生成数据质量监测报告、生成数据质量评估报告和生成数据质量综合报告。

步骤4:对数据质量问题管理;对数据质量问题管理包括数据质量循环管理,数据质量问题反馈,数据质量问题原因分析,数据质量问题修正,数据质量问题修正,数据质量问题整改。

步骤5:对数据质量评估,返回步骤1。步骤5中对数据质量评估包括从数据质量评估的核心指标、数据质量评估模式和数据质量评估管理流程进行评估。

在步骤1之前还包括定义数据质量,具体包括定义数据质量检核关键数据项,定义检核规则,定义数据质量测量指标,定义数据质量控制和监测方式和定义数据质量评价模型。

定义数据质量检核关键数据项包括空值校验、重复校验、格式校验、参照校验、值域校验、一致性校验、逻辑校验和关系校验;

空值校验:指校验数据列是否存在空数据项。

重复校验:指校验同一实体属性是否存在两个同一值。

格式校验:指校验数据格式是否符合标准。

参照校验:指校验某个数据值是否在该数据中存在。

值域校验:指校验数据值是否符合标准所规定的值域内容。

一致性校验:指校验同一实体在两表内值是否保持一致。

逻辑校验:指校验数据值是否符合业务逻辑要求以及常识逻辑要求。

关系校验:指校验数据主外键关联关系是否存在。

数据质量检核规则包括但不限于sql规则、函数依赖、字典规则、正则规则、值域规则、包含依赖、算法包、元规则、结构规则。

定义数据质量检核规则包括定义规则名称、关联表、规则类型、问题等级、规则权重、规则状态、规则描述和创建时间。

定义数据质量测量指标,包括定义数据的完整性、一致性、重复性、正确性、合规性和关联性;

根据质量指标含义制定相关质量检测规则,如完整性是检测实体缺失、属性缺失、记录缺失和字段值缺失四个方面内容,对于不符合规则的数据,即认为此数据具有完整性问题,并把此部分数据归入数据质量问题数据。

完整性:指数据仓库中数据之间的参照完整性是否存在或一致,完整性是检测实体缺失、属性缺失、记录缺失和字段值缺失四个方面内容。

重复性:指度量哪些数据是重复数据或者数据的哪些属性是重复的。

一致性:指代表数据(语义)的正确性。其目的是检测数据中的不一致或冲突。

规范性:指数据是否按统一格式存储。

正确性:指数据是否正确体现在可证实的数据源上。

关联性:指度量哪些关联的数据缺失或者未建立索引。

时效性:指数据在需要的时间是否有效。

定义数据质量控制模型和数据质量监测方式,所述数据质量控制模型控制数据稽查对象、数据稽查频度、数据稽查时间和数据稽查方式;所述数据质量监测方式包括自动方式数据质量监测或手动方式数据质量监测;

定义数据质量控制和监测方式以数据质量定义模型为基础,按照定义的检核范围和时间以自动或手工方式完成对数据质量的监测工作。在质量控制过程中违反了数据质量定义的,视为数据质量问题,数据质量问题直接通过数据质量的关键特性和指标反映出来。数据质量控制模型的控制内容表现在:对数据稽查对象、数据稽查频度、数据稽查时间、数据稽查方式等方面进行控制。

(1)数据稽查对象:是指根据采集计划设定需要检查的用户、专业数据表、数据库实体。

(2)数据稽查频度:是指根据数据表的采集计划和实际发生的频度,设定存储过程的检查执行频率。

(3)数据稽查时间:是指根据每日生产应用的密集时间以及数据发生到采集入库的密集时间,综合设定一个检查开始执行的时刻。

(4)数据稽查方式:是指执行稽查过程的方式可以由后台过程自动控制,每稽查间隔2小时自动稽查一次;也可以由人工干预手动稽查,任意时刻都可以执行稽查(尽量选择数据库流量比较低的时候)。

以及定义数据质量评价模型,对数据质量量化诊断和评价。定义数据质量评价模型,是以数据质量定义模型为依据,由数据质量控制模型操控执行,根据反馈的质量检查结果表,评议出数据质量的关键指标,实现对数据质量的量化诊断和评价。

数据质量分析评价模型功能核心是,通过对基础模型中的采集计划和质量定义模型中的约束规则的处理,由控制模型调用可以实现检查分析的后台存储过程在实体库中执行检查,形成查询结果,再由分析程序进行分析、计算、分类、汇总,生成反映采集计划完成情况和数据质量量化指标的结果,存储到分析结果表中,从前台调用这个分析结果表,就可以生成一份详尽的反映数据质量问题各类量化指标的数据质量分析评估报告,展现所评估实体库的数据入库的及时率、数据上报的完整性、数据采集的一致性、数据入库的准确率等。

步骤1中,数据质量过程监控是指根据数据质量规则,在业务流程和业务系统中设置的数据质量校验或控制措施,以保证关键数据项在创建、加工、流转和存储等环节的数据质量。

数据质量过程监控主要包括在业务流程中的数据质量控制和在信息系统中的数据质量控制两大部分。

在业务流程中的数据质量控制:

数据流转过程一般分为三个阶段:

第一阶段,数据产生环节。政府内部的原始数据,绝大部分都产生自业务源系统,很少量的增值数据产生于分析型系统。

第二阶段,数据集成环节。在基础数据平台类系统(ods/数据仓库和数据集市)中,集成来自不同源系统的数据,并按照数据模型整合。

第三阶段,数据使用环节。由各类分析型应用组成,也包括随机业务查询、数据分析、数据挖掘等信息访问手段。

数据质量问题主要在数据产生环节,其次在数据集成环节的数据加工过程,数据使用环节由于原则上不对数据做修改,基本不产生数据质量问题。

数据质量问题的发现基本呈相反特征,业务源系统虽然是数据的主要产生环节,但通常只能发现业务流程相关的数据质量问题,而且仅限于系统内部;数据集成环节由于是政府内部数据的一个最主要汇聚点,因此通常也是数据质量问题暴露最多的环节;数据使用环节是数据质量问题频繁暴露的另一个环节,因为对数据的使用决定了数据质量问题的定义,很多质量问题都在使用时首次发现。

基于数据质量管理的关键环节和质量问题特性,并结合业界实施数据质量管理的最佳实践,在业务流程中的数据质量控制建议从不同流转环节侧重完成的功能点如下:

数据产生环节:修正:数据质量问题必须在源头得到修正,这是数据质量的一项基本原则。

预防:相对于修正,预防的意义更大,因为可以防止产生新的数据质量问题。

定义:根据数据质量问题的定义主要取决于使用目的原则,数据质量问题主要应当结合数据使用环节发起定义,但通常都会基于源系统的数据结构进行定义。

数据集成环节:

检查:基础数据平台类系统作为全部数据的主要汇聚点,在这里进行数据质量问题的稽查,效用最高。

报告:对于数据质量检查结果,应当以报告形式展现,并通过一定的机制(工作流程或人工流程)通知到相关的数据质量问题责任人,例如业务源系统项目组、业务部门、数据仓库或应用项目组等。

跟踪:由于来自业务源系统的数据每天都会加载到基础数据平台类系统,因此,应当利用基础数据平台类系统对数据质量问题的解决情况进行跟踪,作为数据质量问题治理成效的一个依据。

数据使用环节:

定义:如前所述,在数据使用环节根据对数据的使用目标定义数据应当满足的质量标准,作为日后上下游系统之间服务水平协议(servicelevelagreement,sla)的输入。

评估:作为数据的最终使用者,在使用环节应当评估数据质量治理的成效,并作为设定下一阶段数据质量管理目标的依据之一。

在信息系统中的数据质量控制:

导致数据质量问题的根本原因最常见的有:人员、流程、业务系统前端、业务系统数据库、抽取和加载过程,这些方面都可能产生数据质量问题,对于前三项(人员、流程、业务系统前端)重点在于预防,后三项(业务系统数据库、抽取、加载过程)则通常通过修复的手段来解决。

每类数据质量问题的预防/修复都有有利和不利方面,比如:由于人员产生的质量问题,有利方面是可以在源头预防,不利方面在于人员往往会疏于管理、容易遗忘、不同人员的差异性和专注点不同,这些都会不可避免地产生一定的数据质量问题。

涉及数据量:数据质量问题需要修复的数据量有大致规律,比如人员、流程、前端应用产生的质量问题需要修复的数据量往往不大,而数据库、抽取、加载等后台环节导致的数据质量问题通常涉及数据量较大。对于已经发生的数据质量问题,只能通过修复措施解决,但是从长远看,重视预防措施,在源头控制错误的产生更为重要。

趋势监控:一个已知的数据质量问题被修复后并不意味着这个特定问题被永远解决了。如果没有有效的预防措施,错误仍有可能再现。因此,对重要数据质量问题应当做持续监控。

步骤2中,数据质量规则库:根据信息资源目录、数据元标准和数据质量问题定义,制定数据质量核查规则,开发相应的数据质量检核脚本,并在业务系统、数据中心、数据应用中执行数据质量核查。

数据质量需求收集:对省各部门数据质量需求进行收集,通过发现质量问题、数据使用质量问题、数据过程质量问题、数据总体质量问题等情况进行收集和整理,发现数据质量总体要求,数据中心对此质量需求进行整合,确认数据质量总体目标。

数据质量检核数据梳理:确认数据质量检核对象、检核数据范围以及指标构成,对检核数据范围进行梳理,发现检核数据范围内核心对象,根据对象标准定义和业务场景,初步得出出数据质量检核指标、检核规则、检核方式、检核周期、检核目标、评分标准以及数据质量责任人等信息并形成文档,根据文档内容,邀约数据质量相关干系人进行内容确认和修订。

数据质量检核规则制定:在省级信息化主管部门和省级业务部门的指导下,结合政务信息资源目录,根据数据元标准,制定对应的数据质量检核规则。数据质量检核规则内容主要包括完整性、规范性、一致性、准确性、唯一性、时效性。

数据质量检核规则是数据质量检核基础,数据质量检核规则的制定一定要所有数据质量干系部门都参与进来,协商制定,共同执行。

数据质量检核规则包含但不限于:数据源、数据对象、列、检核指标、检核规则、检核方式、检核周期、检核目标、评分标准、责任部门、责任人、备注。

数据质量检核指标包含:完备性/一致性/唯一性/有效性/精确性/真实性/时效性。

检核规则:检核规则数目平均每个部门不少于65个。

数据质量检核规则管理:

公共规则库是为了解决规则复用的问题,在大量的数据中,其实也存在非常多的重复实体属性字段,这些字段没有必要去反复去进行规则编写。通过规则主要通过sql规则、正则规则、值域规则、算法包(标准包)来实现公共规则复用。

规则配置管理:数据质量检测指标包括:规范性、完整性、重复性、一致性、正确性、关联性、时效性等指标;数据质量规则配置根据上述指标,内置多种规则引擎帮助实现相关的质量检测如表1所示。

表1

数据质量检核规则变更(规则变更管理):数据质量检核规则变更管理,由数据管理部统筹,各业务部门负责修编归口管理信息系统(或数据域)数据质量和评价细则,质量规则自生效之日起即严格执行,原则上不做变更。以下三种可申请调整规则:

1.总体要求:数据质量项目推进,现有规则不满足工作需要;

2.业务调整:业务管理制度、流程、规则发生变更导致规则不适用;

3.系统调整:业务系统出现升级、改造导致规则不适用。

数据质量检核规则变更流程如下:

1.变更申请

在出现上述三种原因时,部门应在当月5日前,向数据质量负责人提出变更申请。

2.变更业务审核

管理部门数据质量负责人评审变更需求,明确业务规则调整内容,提交数据中心。

3.变更技术审核

数据中心数据质量负责人评审业务规则调整内容,明确技术规则。

4.变更发布

数据中心会同业务部门负责人共同评审业务规则和技术规则,在每月10日前公布变更内容。

步骤3中,数据质量规则分析:

1)日常数据校验

数据质量校验要求必须采用以下三类方法中的至少一种来进行判断:记录数检查法;关键指标总量验证法;值域判断法。

2)定时数据抽查

定期抽查必须采用数据质量评估方法中定义的所有方法。

3)全面数据检查

全面检查必须采用数据质量评估方法中定义的所有方法。

数据质量检核频率:

1)日常数据校验

每天etl加载任务比较多,如果全部执行数据校验需要的时间过长,因此根据每个主题数据的可信等级确定校验频率。

可信等级与校验频率的对应关系如下:

一级:每次加载都必须执行数据校验

二级:每三次加载执行一次数据校验

三级:每六次加载执行一次数据校验

对于需要特别保障的主题数据,可调整校验频率并额外增加经验审核法。

2)定时数据抽查

数据质量管理小组必须每季度组织一次数据的定期抽查。

3)全面数据检查

数据质量管理小组必须每年组织一次数据仓库的全面检查。

数据质量监测范围制定:

1)日常数据校验

数据质量管理人员每天要对加载的数据执行情况进行检查。

2)定时数据抽查

定期抽查的范围必须包括可信等级为一级的所有主题数据,可信等级为二级的二个主题的数据,可信等级为三级的一个主题的数据。

3)全面数据检查

全面检查的范围包括数据中心平台所有主题的数据。

数据质量监测报告:

(1)数据质量检查报告是对数据质量检查任务发现的数据质量问题进行展示,展示会把每一个规则所对应的详细问题数据进行展现。

(2)数据质量管理人员根据数据质量监测报告所发现的数据差错应及时核对核实,根据核对核实情况填写数据问题处理单,描述数据质量问题的现状、原因和改正、预防措施。

(3)数据质量管理小组组长审批后,报数据中心主管部门批准后执行数据修正任务。

数据质量评估报告,数据质量评估报告是利用数据质量评分模型以及数据质量和元数据关系,发现数据质量根源和影响分析。

数据质量综合报告,综合报告是对部门和月度数据进行归总,生成相关报告,报告展示该部门每月的资源情况、质量情况、评分情况、排名情况等。

步骤4中,数据质量问题管理中,数据质量循环管理是集以上各项服务的实现的基础上,建立一个完整资源库对于数据质量不断提升数据质量保障机制与体系,通过不断的正向数据质量循环体系,不断的提供资源库数据的正确性与权威性。

数据质量循环管理服务体系的架构流程:利用有关技术如数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据,在一次数据梳理与清洗之后,把发现问题的数据通过系统自动修复或是返回业务单位人工修复,然后返回进行第二次清洗,通过不断的稽查、清洗、修复的循环,把数据的质量不断的提高,最后形成最接近真实的高质量数据。

循环体系实现包括:问题数据工单循环和应用数据反馈循环两大循环体系。

问题数据工单循环体系,基于数据质量提升的问题数据工单流程体系,从问题数据集中分离各项数据,根据数来源形成各种问题数据工单,返回各个业务委办局,通过各委办局进行修复后,再一次通过数据交换平台的前置机进入城市基础信息资源库,进行第二次数据循环,以此类推,进行循序渐进,不断提升数据质量。

应用数据反馈循环体系:指通过人口资源的基础数据,进行数据挖掘与分析,通过各种服务接口进入到各个应用系统中的数据,在各个应用业务的使用过程中,形成了新的数据,以及数据值的改变等,这些新的数据,改变的数据等再一次通过各个委办局的业务系统,数据交换平台前置机,进入资源库后,再一次经历数据的梳理清洗,对系统无法自动修复的新的问题数据,同样形成问题工单,由武汉市信息中心发起任务工单,再由各委办局处理和修复数据,之后返回武汉市信息中心审核,汇聚到人口资源库,高质量数据再次服务于应用。以此类推,通过应用工单的循环,不断的提升数据质量,保障数据服务和应用服务的完善。

同时,两大循环体系是相互依托、相互补充,交叉运行,灵活互补的体系,从而构成一个完整人口库资源的数据质量循环服务与质量保障体系。

数据质量问题反馈:数据管理部门对各项信息数据进行检测,对出现的问题数据,由数据管理部门进行通报,同时相关数据责任部门对问题数据修改进行具体指导或协商修正策略报数据管理部门修正,对下发的数据质量监控报告进行跟踪管理,监督各数据责任部门的落实情况,各部门按照意见对问题数据进行有针对性的落实,对各项数据落实情况层层进行反馈,最终由数据管理中心对各部门落实反馈汇总情况进行整理和评定。

数据质量问题原因分析,对数据质量问题实施分析,根据对数据质量问题清单内的数据进行分析,对数据质量问题解决期限、问题原因等进行分析,便于业务人员对问题数据进行修正。

数据质量问题按照问题的来源和具体原因,可以分为信息、技术、流程、管理四个问题域。信息类问题是由于对数据本身的描述理解及其度量标准的偏差而造成的数据质量问题。产生这部分数据质量问题的原因主要有:元数据描述及理解错误、数据度量的各种性质得不到保证和变化频度不恰当等。

元数据描述及理解错误中的相关元数据主要包括:

业务元数据——主要包括业务描述、业务规则、业务术语、业务指标口径等。

技术元数据——主要包括接口规范、执行顺序、依赖关系、etl转换、数据建模和工具等方面的内容。

数据度量和变化频度提供了衡量数据质量好坏的手段。数据度量主要包括完整性、重复性、一致性、正确性、合规性。变化频度主要包括业务系统数据的变化周期和实体数据的刷新周期。

技术问题域:技术类问题是指由于具体数据处理的各技术环节的异常造成的数据质量问题,它产生的直接原因是技术实现上的某种缺陷。数据质量问题的产生环节主要包括数据创建、数据获取、数据传递、数据装载、数据使用、数据维护等方面的内容:

1、数据创建质量问题主要包括业务系统话单延迟入库、创建数据默认值使用不当和数据录入的校验规则不当,导致指标统计结果不一致、数据无效、记录重复等。

2、数据获取质量问题主要包括采集点不正确、取数时点不正确以及接口数据在获取过程中失真。如,编码转换处理错误以及精度不够,导致指标统计结果不一致、数据无效等。

3、数据传递质量问题主要包括接口数据及时率低,接口数据漏传,网络传输过程不可靠,如包丢失,文件传输方式错误,传输技术问题,协议使用不当导致的数据不完整等。

4、数据装载质量问题主要包括数据清洗算法、数据转换算法、数据加载算法错误。

5、数据使用质量问题主要包括展示工具使用错误、展示方式不合理和展示周期不合理。

6、数据维护质量问题主要包括数据备份/恢复错误、数据的存储能力有限、维护过程缺乏验证机制和人为后台调整数据。

流程问题域:流程类问题是指由于系统作业流程和人工操作流程设置不当造成的数据质量问题,主要来源于经营分析系统数据的创建流程、传递流程、装载流程、使用流程、维护流程和稽核流程等各环节:

1、创建流程质量问题主要指操作员数据录入时缺乏审核流程;

2、传递流程质量问题主要指通信流程沟通不畅;

3、装载流程质量问题主要指清洗流程缺乏/不当、调度流程逻辑错误、数据加载流程逻辑错误及数据转换流程逻辑错误;

4、使用流程质量问题主要指数据使用流程缺乏流程管理;

5、维护流程质量问题主要指缺乏变更维护流程、缺乏错误数据维护流程、缺乏数据测试流程以及对人工后台调整数据没有严格的流程监控;

6、稽核流程质量问题主要指缺乏数据错误反馈流程。

管理问题域:管理类问题是指由于人员素质及管理机制方面的原因造成的数据质量问题,如人员管理、培训和奖励等方面的措施不当导致的管理缺失。

人员管理所产生的质量问题主要指:

(1)针对数据质量问题,没有建立管理数据质量的专门机构,出现数据质量问题后无专人负责;

(2)没有明确的数据质量目标;

(3)数据质量问题的优先级不够;

(4)组织缺少管理数据质量的管理办法等;

人员培训所产生的质量问题主要指对数据质量相关人员缺少长期培训计划。

数据质量问题修正:利用工作流技术,对数据质量问题进行工单流程和问题处理。包括:数据质量问题跟踪,对数据质量问题修正的过程进行跟踪和管理;

数据质量问题统计分析:对数据质量问题修正过程进行统计分析,让用户可以全面了解自己所处理的工单的全貌,统计分析使用可视化技术进行展现。

数据质量问题整改:数据质量问题整改方案大致可以通过两种方案进行整改,数据质量‘慢’循环和数据质量‘快’循环,两个循环形成数据质量的闭环管理,持续不断的提升数据质量。这两个方案分别包含如下内容:

数据质量‘慢’循环是通过多源数据的冲突检测监测机制,一旦检测到数据冲突,能够自动生成数据问题详单和问题汇总报告,形成数据冲突工单,触发数据循环机制,针对数据提供单位、数据使用单位和一数一源数据权威责任单位进行工单分发,通过数据提供单位和数据权威责任单位的在线工单答复,对异议涉及的信息内容进行确认或更正,如果确认或更正的数据仍然与法人库已有数据存在数据冲突,需要针对新的冲突数据生成第二轮数据冲突工单,进行第二轮工单分发,如此反复,直到冲突解决为止,最后对数据冲突处理过程和结果进行存档备案。‘慢’循环内的数据质量问题整改可以通过线下多种方式来进行,如:业务流程优化、源系统改造、数据管理机制、数据质量管控等。

数据质量‘快’循环主要是通过技术化手段,通过制定数据质量清洗补录方案,自动化对问题数据进行修复、补全、转换、归并等操作。

步骤5中数据质量评估:整改结果评估是指根据数据质量问题整改范围,对整改后的数据质量进行评估,以评价整改的效果。为掌握数据质量问题整改效果,要求结合数据质量整改的目标和范围,制定相应的评估方案,并生成评估报告。

对于整改后数据质量评估结果不能满足业务要求的,则需进一步分析问题根因,制定和实施新的数据质量整改方案。

数据质量评估将从数据质量评估核心指标、数据质量评估模式、数据质量评估管理流程三个方面介绍数据质量评估方法。

数据质量评估的核心指标:

数据质量评分

指标定义:数据质量评分=(数据质量问题数据总量/存储的总数据量*100)指标单位:分

数据质量评估模式:

根据数据质量评估指标将各数据仓库中的主数据及其历史行为划分为三个等级如表2:

表2

通过对数据质量问题频率的考评和等级划分,就可以从众多的数据中解放出来,集中精力把有限的资源投入到需要重点关注的主题数据。因此数据质量可信等级是数据质量提高的有效途径。

数据质量评估管理流程:

数据质量评估过程是将数据质量评估工具应用于目标数据或数据集并最终获取评估对象质量状态的一系列步骤。

科学数据质量评估包括以下一般流程如图2所示,包括数据质量需求分析,确定评价对象及范围,选取数据质量维度及评价指标,确定质量测度及其评价方法,运用方法进行评价,结果分析及评价,质量结果及报告。数据质量评测过程是一个迭代过程,各个过程的先后顺序仅表达阶段活跃的大致顺序,根据实际执行情况的好坏决定,一些过程可能需要重复执行。

数据质量评测过程是一个迭代过程,各个过程的先后顺序仅表达阶段活跃的大致顺序,根据实际执行情况的好坏决定,一些过程可能需要重复执行。

数据质量需求分析,数据需求是人们在各项实践活动过程中,为解决所遇到的问题而产生的对数据的不足感和求足感。数据资源不同于实体产品,具有用途个性化、多样化、不稳定等特点,因此,必须首先了解用户针对特定数据资源的需求特征才能建立针对性的评估指标体系。

确定评价对象及范围,确定评估对象及其范围,评估对象既可以是数据项也可以是数据集;

选取数据质量维度及评价指标,数据质量维度是进行质量活动中客体的具体质量反映,如正确性、准确性等,它是控制和评估数据质量的主要内容,因此,首先,要确定影响质量维度的因素有哪些,如人员素质、设备、设施等,必要时要将这些质量影响因素在评估报告中进行分别说明。对于有些影响多个质量维度的因素,应在具体情况下根据需要进一步细化其影响因素,或针对进一步细化目标环节在确定质量行为中的影响因素。另外,要选取可测、可用的质量维度作为评估指标准则项,在不同的数据类型和不同的数据生产阶段,同一质量维度有不同的具体含义和内容,应该根据实际需要和生命阶段确定质量维度。

在此阶段要注意指标之间避免冲突,同时也要注意新增评估指标的层次、权重问题,以及与其它同层次指标的冲突问题。对三级评估指标的选择可根据评估对象的类别、评估要求进行量化处理,必要时可进行计量评估法。以当前技术条件无法量化的质量维度可适当使用具有相关性的替代指标。

确定质量测度及其评价方法,数据质量评估在确定其对象范围后,应该根据每个评估对象的特点,确定其测度及实现方法,对于不同的评估对象一般是存在不同的测度的,以及需要不同的实现方法支持,所以应该根据质量对象的特点确定其测度和实现方法。常用定性方法和定量方法,前者采用权重打分等方法进行,后者依据信息生产各阶段的质量规范一级缺陷判据进行。

运用方法进行评价,根据前面四步确定的质量对象、质量范围、测量及其实现方法实现质量评测的活动过程。评估对象的质量应当由多个质量维度和三级评估指标的评测来反映,单个数据质量测量是不能充分、客观评估由某一数据质量范围所限定的信息的质量状况,也不能为数据集的所有可能的应用提供全面的参考。多个质量维度和三级评估指标的组合能提供更加丰富的信息,故对某数据质量范围限定的信息,应提供多个质量维度和三级评估指标的综合测量。

数据质量评测过程中应保证所采用的方法的正确和客观,尽量避免增加质量评估的干扰因素,最大程度的借助计算机及网络技术的自动化处理实现,追求全面客观的反映数据质量的真实情况。特别对于定量的质量维度,要确定科学的定量测量的指标和方法,质量测量应当保证其所涉及的数据边界范围、系统参数等的正确和完备性。

结果分析及评价,评测后要对评测结果进行分析:

对评估目标与结果进行对比分析,确定是否达到评估指标;

对评估的方案的有效性进行分析,确认是不是合适等。之后,根据评估结果确定对象的质量评估,如需要可根据评估结果鉴定质量级别。确定评估对象的质量级别是建立在相应的质量分级方案基础上的,该分级方案是根据相应的质量规范或用户的需求确定的,也是判断数据质量成熟度的重要依据。

质量结果及报告,质量评估结果和评测报告是所有科学数据质量评估项目及其评测结果的合集。

在完整的数据质量评估结果和报告中,应该包括全部上述内容。此外,在数据质量评估报告中还应该把据此进行的评估过程的操作做出完整的记录,包括存在的质量级别的内容确定等。

数据质量评估的具体方法:

对于具体数据的质量检查模式采用记录数检查法、关键指标总量验证法、历史数据对比法、值域判断法、经验审核法及匹配判断法。通过这些方法方法,可以对单个数据点的数据准确性进行检查,及时发现数据质量问题。

(1)记录数检查法

通过比较记录条数,对数据情况进行概括性验证。主要是检查数据表的记录数是否为确定的数值或在确定的范围内。

适用范围:

对于数据表中按日期进行增量加载的数据,每个加载周期递增的记录数为常数值或可以确定的范围时,必须进行记录条数检验。

(2)关键指标总量验证法

对于关键指标,对比数据总量是否一致。主要是指具有相同业务含义,从不同维度统计的汇总逻辑的检查。

适用范围:

同表内对同个字段从不同的维度进行统计,存在汇总关系时,必须进行总量检验。

本表的字段与其它表中的字段具有相同的业务含义,从不同的维度统计,存在汇总关系,且两张表的数据不是经同一数据源加工得到。满足此条件时必须进行总量检验。

(3)历史数据对比法

通过历史数据观察数据变化规律,从而验证数据质量。通常以同比发展速度进行判断。评估时应根据各种指标发展特点,重点对同比发展速度增幅(或降幅)较大的数据进行审核。历史数据对比法包括同比和环比两种方式。

适用范围:

不能进行记录数检查法、关键指标总量验证法,且事实表的记录数小于1000万条时必须进行历史数据对比法。

(4)值域判断法

确定一定时期内指标数据合理的变动区间,对区间外的数据进行重点审核。其中数据的合理变动区间范围是直接根据业务经验来确定的。

适用范围:

事实表中的字段可以确定取值范围,同时可以判定不在此范围内的数据必定是错误的。满足此条件必须进行值域判断法。

(5)经验审核法

针对报表中指标间逻辑关系仅靠计算机程序审核无法确认、量化,或有些审核虽设定数量界限,但界限较宽不好判定的情况,需要增加人工经验审核。

适用范围:

以上方法都不适用的情况下,可以使用经验审核法。

(6)匹配判断法

与相关部门提供或发布的有关数据进行对比验证。

适用范围:

与有相关部门提供或发布的有关数据口径一致的,可以使用匹配判断法。

本发明提供了一种数据质量闭环管理方法,包括制定数据质量监控检核方案,对数据质量监控检核;制定数据质量规则库;按照数据质量规则库定时执行数据质量管控,得到数据质量问题;对数据质量问题管理;对数据质量评估。在此闭环管理的驱动下,对数据质量不断生成新的治理需求,不断解决质量问题,从而持续的提升数据质量。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(rom,readonlymemory)、随机存取存储器(ram,randomaccessmemory)、磁盘或光盘等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上对本发明所提供的一种数据分析方法和系统进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载
当前第1页 1  2 
相关技术
  • 标注数据处理方法、装置、设备...
  • 一种数据交换系统的制作方法
  • 数据迁移方法、装置及计算机存...
  • 一种多模态数据库解析引擎的实...
  • 一种数据处理方法及装置与流程
  • 一种敏捷商业智能数据构建方法...
  • 一种数据处理方法及装置与流程
  • 减少数据库操作的方法、装置、...
  • 一种数据采集的监测方法、监测...
  • 一种kudu的基于大小的数据...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
数据质量控制相关技术
  • 一种改进随机森林气温数据质量控制方法与流程
  • 一种地面气温数据质量控制方法与流程
  • 一种飞机双人控制机制自动驾驶仪系统及其控制方法与流程
  • 对诊断分析仪执行质量控制的方法和系统与流程
  • 一种区域自动气象站小时雨量数据质量控制方法与流程
  • 一种协同工作与质量控制方法与系统与流程
  • 一种对外劳务输出质量控制系统的制造方法与工艺
  • 一种北斗高精度物探野外测量信息化集成系统和方法与流程
  • 一种质量控制与可靠性分析的制造系统预防性维修方法与流程
  • 一种磁共振质量控制系统的制造方法与工艺
形成闭环相关技术
  • 一种栅-源控制限流型led调光模块的制作方法
  • 一种采用闭环恒流高温超导线圈实现磁悬浮状态的方法
  • 电梯钢丝绳防摇摆机构的制作方法
  • 一种可控恒温运输箱体及控温方法
  • 一种考虑时滞的电力系统附加广域阻尼控制器设计方法
  • 一种智能锁及其监控实现方法
  • 一种利用再生铅制备的负板栅合金的制作方法
  • 一种带有限位装置的传送带的制作方法
  • 立式钢球加工设备上的下拉式加压机构的制作方法
  • 一种转筒烘干机用自动上料系统的制作方法

深圳SEO优化公司新余百度网站优化排名多少钱桐城网站排名优化廊坊优秀网站设计多少钱天津seo网站推广价格黄石百度竞价报价运城seo排名报价崇左百度竞价推荐罗湖网络推广公司南宁企业网站制作公司淄博百度标王推荐衡阳英文网站建设多少钱汕头模板制作价格海北网站推广推荐临猗关键词按天收费舟山网站设计模板价格白城SEO按天计费报价网站设计模板多少钱内江网站改版多少钱揭阳百度竞价公司南京推广网站哪家好辽源品牌网站设计价格成都网站优化按天扣费多少钱衡水SEO按天计费价格徐州外贸网站设计价格长治高端网站设计温州企业网站建设哪家好丽水SEO按天计费公司武威SEO按效果付费推荐萍乡高端网站设计公司亳州网站推广多少钱歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化