关于数据质量管理,可能与大部分人没有太大的关系。虽然,市面上有很多的公司在进行数据的挖掘、分析方面业务的工作,但是关于数据质量管理方面的公司真的是屈指可数。
由于本人所在的公司主要是为了解决发改委遇到的一些问题,而开展的1个项目。比如检验地市注册资金是否存在异常这么1个简单的例子。
而对于数据感知技术,大部分没有了解过。为了说明,大数据时代下,数据感知在数据质量管理系统中的应用,这里我们需要先解决几个问题:
一、什么是数据质量管理系统?
二、什么是数据感知技术?
三、数据感知技术的用途?
四、下面我们分别来进行介绍。
什么是数据质量管理系统
我们知道,数据是企业数据中心的重要资产,获取并维护高质量的数据,对业务及运营至关重要。而数据量越大,有价值的信息获取的难度就越大。如果获取不到有用的信息,就不能很好的进行数据挖掘和数据分析。
但是在这个过程中,有许多因素会导致这些数据资产贬值,比如数据的冗余和重复会导致信息的不可识别、不可信及精确度不够等情况的发生。
而数据质量管理系统就是对数据进行处理后能够提供高质量的数据,最终的目的是挖掘数据价值,推动业务发展,实现盈利。
而数据质量管理系统主要由如下一些部分组成:
数据清洗与去重
数据可视化
数据评估
数据治理
数据挖掘
数据分析
而当前系统主要采用纯Python来实现。对于发改委动不动就千万级别的数据还是可以很好的进行驾驭的。
什么是数据感知技术?
对于感知的定义是客观事件通过感觉器官在人脑中的直接反映。而所谓数据感知,就是通过对数据的一些特征信息来对数据进行描述。比如,我们看到远处有1个人,长头发穿着红色衣服高跟鞋,那么我们就可以推测那个人是女的。当然,这个过程也可能会出现不准确的问题,比如那个人是个男的,就这样打扮。
而数据感知技术可以实现给我们1组样本数据,我们可以知道它是哪种类型。比如,给我们如下的100条记录1组数据:
通过我们的感知技术我们可以识别它为手机号码和电话号码,其中手机占据的比例假设为60.82%,而电话号码占据的比例为32.22%,而剩下还有6.96%的数据无法被识别出来,因此我们可以推断当前数据为联系方式为主。
需要注意的是,这100条记录需要满足随机性,不然感知出来的结果可能会差强人意。
当然,这是比较简单的1个例子。当然我们还可以识别中文姓名、地址信息、企业名称、工商注册范围、工商注册资金等类型,这里就涉及到概率论及统计学的一些内容了。
当然,还会涉及到一些线性代数的内容,比如贝叶斯网络转移矩阵的使用,会用到矩阵的相关知识。
数据感知技术的用途
一般情况下,数据质量管理系统都是基于规则库进行开展工作的,而对每组数据进行规则的配置是1个繁琐且耗时的工作,基本上没有人愿意进行这种工作。
而此时,通过数据感知技术,我们可以自动的感知规则,并为每组数据推荐最适合的规则,从而简化人员的工作量,提高效率。
另外通过数据感知技术,还可以找到数据库其他类似的类型的数据,进行数据关联性的关联,弥补一些认知上的缺陷。
总结
实际上,数据感知只是数据质量管理中的1个很小的环节,通过这种自动化的技术,可以节省人工的成本及提高效率。