1. 首页
  2. 综合类文章

细说数据中台之数据治理

摘要:数据治理到底有多重要?它在数据中台起着怎样的决定性因素?我告诉你:如果企业不做数据治理,那么就相当于你有了一个亿的钞票但都是假钞,一文不值。现在你觉得有必要重视起来了吗?本文将从以下几个方面带你揭开数据治理的神秘面纱:

一、数据治理的定义

二、探秘数据资产

三、数据资产管理(包括元数据管理、数据生命周期、数据规范、数据血缘、数据质量、数据安全等)

数据治理的定义

数据治理是什么?我们先来看一下国际数据管理协会给出的定义:数据治理是对数据资产管理行使权力和控制的活动集合。似乎有点抽象,没关系,我们按照语文老师常说的字词拆解来理解这句话吧。
首先是”对数据资产”,这说明数据治理的前提和对象,是数据资产。其次数据治理是对数据资产”进行控制、管理、行使权力”,说明有了数据资产还不够,如何有效的经营它、管理它、控制它也是要解决的关键点。那么我们就从这两点:1、数据资产 2、管理控制 入手,揭开数据治理的神秘面纱吧。

探秘数据资产

数据资产是什么呢?我们类比一下个人的资产,你自己的资产就是你所有的钱或者说值钱的东西的一个集合,但是这个钱肯定要是真钱,不能是假钞。
那么数据资产,也就是企业的所有数据的集合,而且这个数据是有价值的,不能是垃圾数据,它是会给企业带来经济利润的资源。
从上一段文字我们不难得出,数据资产=数据+有价值。那么如何获得数据就成为我们数据治理的第一步工作了。如何筛选数据、经营数据、让数据变的有价值,就成为我们数据治理的第二步工作了。

如何获得数据?

如何获得数据,我觉得可以用这两个词概括:数据采集(数据接入)+数据存储。
数据采集决定了数据治理的基础,也是数据中台的接入口,因为数据中台本身是不产生数据的,数据汇聚使各种异构网络、异构数据源的数据采集到数据中台进行集中存储,为后续加工建模做准备。
关于数据采集,我们在大数据采集和抽取怎么做?这篇文章终于说明白了!已经与大家分享了,包括数据汇聚的概念和作用、数据来源、采集工具以及生产落地分享。
数据汇聚之后还要进行存储,比如MYSQL、Oracle、Hive、Hbase、Mongo、ElasticSearch都可以作为存储层。
数据汇聚和存储并不是数据中台才能做的事情,数据平台也可以,其实很多企业都已经在数据平台把这个事给完成了。所以回到我们大白话 六问数据中台!那篇文章,数据中台和数据平台是既有区别又有联系的。

如何让数据变得有价值

上一步我们获取了数据,但我们强调过,数据资产需要的是有价值的数据。那么怎么让数据变得有价值呢?首先一点,也是大家最好理解的,那就是过滤垃圾数据。但绝不仅仅是过滤垃圾数据这么简单。
数据生命周期、数据质量、数据安全都是必须考虑的问题。这些都是数据控制、管理数据资产的范畴!

数据资产管理

管理数据资产的方式繁多,每一个点都是数据治理涉及的一个技术主题,都是用一篇文章也说不完的。在此只能做一个大体阐述,后续文章将会对每一个点做详细说明。请持续关注公众号【胖滚猪学编程】。

数据清洗

数据清洗:它会对数据进行审查和校验,从而过滤不合规数据、删除重复数据、纠正错误数据、完成格式转换。
这是我们最熟悉的了,比如过滤空值、过滤非法字符等等,我相信每一个人都有接触,无形之间你已经做了很多数据清洗的工作。

元数据管理

元数据是什么?元数据是数据的户口本。户口本都知道,是个人的信息全面描述:姓名,年龄,性别、身份证号码,住址、原籍、何时从何地迁入等等,除了这些基本的描述信息之外,还有这个人和家人的血缘关系,比如说父子,兄妹等等。那么所有的这些信息,我们都可以称之为这个人的元数据。
同样的,如果我们要描述清楚一个实际的数据,以某张表为例,我们需要知道表名、表别名、表的所有者、数据存储的物理位置、主键、索引、表中有哪些字段、这张表与其他表之间的关系等等。所有的这些信息加起来,就是这张表的元数据。
元数据管理就是汇总了各种数据的户口本,并且通过计划、实施和控制活动,以实现轻松访问高质量的整合的元数据。比如基于名称、基本属性、元数据间关系,全文搜索等多种组合条件的模糊查询,即可在整个元数据环境中随时检索所需元数据。

数据生命周期

数据生命周期和人的生老病死一样,数据也有生老病死,这是生命周期。
数据生命周期包括设计、创建、处理、部署、应用、监控、存档、销毁这几个阶段不断循环。为什么要管理生命周期?举例:人去世了要进行火化、埋葬,数据也会去世,它对于企业没有价值了,已经过期了,那就等同于死亡。我们也要对它进行埋葬,不然就是浪费磁盘空间。
这个例子的实质是,在不同的阶段,其性能、可用性、保存等要求是不一样的,所以才要进行管理。
通常情况下,在其生命周期初期,数据的使用频率较高,需要使用高速存储,确保数据的高可用性。随着时间的推移,数据重要性会逐渐降低,使用频率会随之下降,应将数据进行不同级别的存储,为其提供适当的可用,性、存储空间,以降低管理成本和资源开销。最终大部分数据将不再会被使用,可以将数据清理后归档保存,以备临时需要时使用。

数据标准

数据标准:即数据规范,必要时进行主题划分和数据关联。比如一般会将数仓的数据划分为ods层、dwd层等,这样制定一个统一标准、方便进行数据管理和应用。

数据血缘

实际应用中,我们难免要对原始数据进行各种加工组合、转换,又会产生新的数据,这些数据之间就存在着天然的联系,我们把这些联系称为数据血缘关系。
直白点说,数据血缘就是指数据产生的链路关系,就是这个数据是怎么来的,经过了哪些过程和阶段。有了数据血缘,才能更好的帮助我们理解和分析数据,也方便在出问题的时候快速定位。

数据质量

数据质量是支持多种异构数据源的质量校验、通知、管理服务的一站式平台,围绕真实性、完整性、准确性、一致性、唯一性、及时性监控分析数据质量问题、提升企业数据质量。
这个很好理解,比如你同步数据,从Mysql到Hive,万一同步过程有问题,漏了数据怎么办?万一资源不足,任务卡顿,数据没有及时同步过来,影响业务人员的分析怎么办?
数据质量就是要解决类似这种数据完整性、准确性、一致性、及时性等问题。

数据安全

数据安全是企业非常重要的一部分,倘若没有做好数据安全,比如用户信息泄露,那么很可能直接面临倒闭的风险。
数据安全包括数据自身安全、比如敏感字段(手机号、身份证号)要进行脱敏、加密。
还包括数据访问安全、数据流动安全、数据运维安全。比如数据访问设计黑/白名单,设可访问数据的IP段,若不在此IP段中将无法接触到数据资产。比如对个人用户的数据权限做好管控,只允许申请有关表的查询权限。

总结

最后依然想强调那句话:数据资产指的是有价值的数据。只有真正理解了这句话,你才可以做好数据治理。

所有为提高数据质量、数据价值而展开的业务、技术、和管理活动都可以称之为数据治理。

数据治理涉及的IT技术主题包括数据集成、数据存储、元数据管理、数据标准、数据交换、数据生命周期、数据质量、数据安全等等多产品组成的一整套解决方案。种类繁多,个个精品,我们将于后续文章对每一个模块进行分析和生产落地分享。

原创声明:本文为公众号【胖滚猪学编程】原创博文,转载请注明出处!

wchat1

BDStar原创文章。发布者:Liuyanling,转载请注明出处:http://bigdata-star.com/archives/2340

发表评论

登录后才能评论

联系我们

562373081

在线咨询:点击这里给我发消息

邮件:562373081@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code