数据治理的知识整理
1 数据治理概述
企业数据治理非常必要,它是企业实现数字化转型的基础,是企业的一个顶层策略,一个管理体系,也是一个技术体系,涵盖战略、组 织、文化、方法、制度、流程、技术和工具等多个层面的内容。
数据治理相关术语和名词
对数据元的定义为:“用一组属性描述定义、标识、表示和允许值的数据单元。”
- 元数据是描述数据的数据或关于数据的结构化数据。
- 主数据(也称“基准数据”)是企业内需要在多个部门、多个信息系统之间共享的数据
- 业务数据是业务活动过程或系统自动产生的既定事实的数据,也称交易数据。
- 主题数据是根据数据分析的需要,按照业务主题对数据所做的一种组织和管理方式,其本质是为了进行面向主题的分析或加速主题应用的数据。
- 数据仓库(Data Warehouse,DW)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
- 数据湖是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无须事先对数据进行结构化处理。数据 湖可以存储结构化数据(如关系型数据库中的表)、半结构化数据(如 CSV、日志、XML、JSON)、非结构化数据(如电子邮件、文档、 PDF)和二进制数据(如图形、音频、视频)。
数据治理的 5 类问题
- 黑暗数据 黑暗数据也叫睡眠数据,是指被收集和处理但又不用于任何用途的数据。有数据而不用,甚至业务部门和领导都不知道其存在,这些数据 可能永远被埋没。
- 数据孤岛 很多企业在信息化建设的早期,由于缺乏信息化的整体规划,业务系统都是基于业务部门需求建设的,各业务部门都有自己的信息系统, 这些系统都是各自定义、各自存储的,彼此间相互独立,数据之间没有 关联,而形成了一个个数据孤岛。
- 数据“巴别塔” 在很多企业中存在着数据“巴别塔”。不同部门、不同员工之间因为数据定义不清、口径不同、缺乏规范而无法顺畅交流和沟通。
- 糟糕的数据质量 数据对企业来说是一个“福音”,然而,糟糕的数据质量可能是一个大问题。数据的可信性是影响数据分析和管理决策的重要因素,然而企 业数据普遍存在着不一致、不完整、不准确、不正确、不及时等问题。 数据质量问题得不到有效解决,数据价值化、数据业务化就无从谈起 了。
- 数据的安全风险 数据缺乏有效管理,一定会产生数据安全问题。比如缺少数据的采集、存储、访问和传输的规 范制度,没有设定必要的数据使用权限,这就必然会导致数据遗失、篡 改与泄密。
要充分认识
- 数据治理的业务价值。企业数据治理的业务价值主要体现在降低成本、提升效率、提高质量、控制风险、增强安全和赋能决策。
- 有效的数据治理策略是实现数据驱动业务、业务融入 IT 的重要举措
怎么做
- 要培养数据治理组织和专业的人才。
- 要根据企业的组织、管理现状而定;没有最好的组织模型,只有更合适企业的组织模式。
- IT 和业务更应当紧密融合在一起,朝着共同的目标努力。
2 数据治理框架和标准
国际数据治理框架
国际上,主流的数据治理框架主要有 ISO 数据治理标准、GDI 数据 治理框架、DAMA 数据管理框架等。对国际主流数据治理框架的理解有 助于我们建立符合企业自身业务需求的数据治理体系。
国内数据治理框架
在数据治理框架和标准体系的研究方面,国内起步相对较晚,目前 主要有GB/T 34960 和 DCMM 两个标准。
DCMM 按照组织、制度、流程、技术对数据管理能力进行了分析和 总结,提炼出组织数据管理的8个过程域,即数据战略、数据治理、数据架构、数据应用、数据安全、数据质量、数据标准、数据生存周期。这8个过程域共包含 28 个过程项。
我的数据治理的方案构建
先行知识:了解数据质量的一些维度:
准确性(Accuracy)
定义:数据的准确性是指数据能够真实、准确地反映所描述事物的客观实际情况,与现实世界的事实相符。
例如,在公共资源交易中心,项目的招标金额在系统中记录为 1000 万元,而实际该招标项目的预算金额确为 1000 万元,那么这条数据在准确性维度上是合格的。
完整性(Completeness)
定义 :指数据记录的完整程度,即数据是否包含了所描述事物或业务活动的所有必要信息。在公共资源交易中,对于一个完整的交易项目信息,应包括项目名称、项目编号、招标人、投标人、招标金额、中标金额、开标时间、中标时间等一系列关键信息。如果某条项目记录缺少投标人信息或中标金额等重要字段,则其完整性就存在问题。
一致性(Consistency)
定义 :数据的一致性是指数据在多个不同的数据源、系统或数据副本之间保持一致,不存在矛盾或冲突的情况。例如,公共资源交易中心的招投标系统中记录的企业名称为 “XX 建筑工程有限公司”,而在企业信息管理系统中该企业的名称记录为 “XX 建筑有限公司”,这就导致了数据的一致性问题。
时效性(Timeliness)
定义 :指数据能够及时反映所描述事物的最新状态或变化情况,以满足用户对数据及时性的需求。在公共资源交易领域,比如中标结果数据应在规定的公示期内及时更新发布,让投标人和其他相关方能够及时了解项目的中标情况。如果中标结果在交易完成后很长时间才在系统中更新,那么这些数据的时效性就较差。
可用性(Availability)
定义:数据的可用性主要是指数据能够被用户在需要时及时获取和使用,即数据的可访问性。这涉及到系统的稳定性、数据存储的可靠性以及数据访问的便捷性等方面。例如,公共资源交易中心的数据系统如果经常出现故障,导致用户无法正常访问和使用数据,那么数据的可用性就得不到保障。
合理性(Reasonableness)
定义 :合理性主要是指数据符合逻辑规则、业务规律和相关规范要求。例如,在工程建设项目招投标中,招标控制价一般不应低于成本价,如果系统中某项目的招标控制价明显低于市场成本价,那么这条数据在合理性维度上就存在问题。
目的:为提升数据治理质量
手段:
- 明确现在错误类型,读透规范标准,分析解决一个问题,由此解决一类问题;
- 遵从上报流程规范,各部门各司其职。
- 技术科:优化系统漏洞,保证数据上报畅通
- 业务科室:清洗历史数据,科学建立数据校验规则
- 技术运维单位:按照国家规范 2.0 标准进行数据传输;对历史数据和省中心反馈的错误数据进行修正上传
- 相关人员要认识到数据上报的重要性,必要时进行培训。
正常数据上报要经过哪些部门、公司。各个角色的职责是什么?
省中心反馈的错误数据要求进行修正上传,是怎么一个修正流程,应该通知谁?
我这几天一直在进行数据治理的理论知识学习,包括了数据治理的概念和框架、数据质量管理理论(特别是数据质量的维度:准确性、完整性、一致性、可用性、合理性、时效性)、数据安全和隐私保护。
通过系统的学习,有助我后续工作,从整体把握数据治理的方向和要点。
cdggzy:数据只见算是实时的,单一 oracle 的关系型数据库,对方去抽取