- · 《治理研究》刊物宗旨[08/03]
- · 《治理研究》征稿要求[08/03]
- · 《治理研究》投稿方式[08/03]
- · 《治理研究》数据库收录[08/03]
- · 《治理研究》栏目设置[08/03]
数据治理第1期(3)
作者:网站采编关键词:
摘要:具体实施:如上图所示,数据治理流程保障规划的具体实施细则上,会重点依托易龙的“数据治理五大项目模块”,然后每个模块都按照“规范建设-质检
具体实施:如上图所示,数据治理流程保障规划的具体实施细则上,会重点依托易龙的“数据治理五大项目模块”,然后每个模块都按照“规范建设-质检审查-发现问题-评估问题-解决问题-验收问题”的闭环流程进行梳理和规划。
(1)定义理想态
① 发现问题
指标释义:
召回率(覆盖率):召回率又叫覆盖率,是指所有真实存在的问题中,系统或者人工检测出的问题占比。例如一共100条数据,其中20条存在异常,系统报警显示有30条存在问题,事后被验证30条报警中真实存在问题的有10条,则召回率(覆盖率)=10/20*100%=50%
准确率:是指所有被系统或者人工检测出的问题中,真实存在问题的占比。例如一共100条数据,其中20条存在异常,系统报警显示有30条存在问题,事后被验证30条报警中真实存在问题的有10条,则准确率=10/30*100%=33.3%。
注意:理论上最理想的状态就是一次监控任务中,所有问题都被发现,且所有报警的数据中没有掺杂虚报情况,也就是召回率达到100%,准确率为100%。
但是实际场景中,这样的理想情况几乎是不存在的!过度追求高召回率,监控规则一定会设置的异常简单,那往往会有很多正常的波动会被系统判定为“异常”。
同理,过度追求高准确率,监控规则一定会设置的异常苛刻,那自然被报警的数据都是存在异常的,准确率100%,但是这样往往很多异常数据会被监控系统给漏掉,漏报率就会异常的高!
因此,优秀的监控系统都是根据实际场景一直在找寻召回率和准确率间的平衡点。
② 解决问题
- 响应时长:24小时内响应问题
- 定位问题:3天内完成问题的定位
- 解决问题:2周内彻底解决问题
③ 数据通道质量
(2)规范建设
① 唯一性
- 指标、纬度、模型、库表、数据、报表的唯一
- ID唯一
- 名称唯一
- 定义唯一
- 加工逻辑唯一
- 产出渠道唯一
- 相似的指标、纬度、模型、库表、报表做减法,减少冗余
② 规范性
- 流程规范
- 需求→评估→处理→测试→上线→验收环节严格执行
- 数据和流程double check
- 测试、试验验证数据质量和流程执行情况
- 日志、库表、模型、报表、代码有统一的设计和输出规范,信息齐全、分层合理、资源使用合理
③ 完整性
- 日志、库表的元信息完善,灰度测试阶段只有空值率、异常值占比、分区缺失等指标合格后方可上线发布
(3)发现问题:监控体系建设
如图2和图3所示,对于重要级别的日志、指标、库表数据,除了粗粒度的质检外,还需要每天进行更加严格和科学的监控,以提前发现问题并推动解决:

图2:数据埋点质量监控报表

图3:数据指标准确性监控报表
① 完整性(是否缺失或不可用)
- 日志
- 丢失率
- 库表
- 丢失率
- 分区缺失
- 信息缺失(0、空值、NULL)
② 准确性
- 业务侧
- 相同指标不同报表间建立交叉验证
- 相同报表不同指标间建立逻辑验证
- 相同报表相同指标建立波动验证
- 技术侧
- 埋点间的交叉验证
- 多层库表间相同指标交叉验证
- 明细层和统计层建立数据量、行数、计算结果的比对验证
③ 及时性
- 日志上报
- 有效上传率
- 延迟率
- 资源使用
- 当前占用占比
- 剩余资源占比
- 任务调度
- 完成率
- 失败率
- 延迟率
(4)问题分级
① 监控分级
- 对业务的影响度
- 模型、库表、报表使用热度
- 作业耗时热度
- 故障分级
② 预警分级
③ 报警方式
(5)事后处理
① 问题跟踪处理
- 问题分发(按业务、主题、部门等划分问题归属)
- 问题跟踪
- 问题原因追溯
- 问题解决排期
- 问题解决反馈
② 问题验收
③ 定责存档
2. 组织保障策略
图4:数据治理组织保障规划示意图
责任划分:以“规范建设-质检审查-发现问题-评估问题-解决问题-验收问题”的闭环流程为切入点,将“需求规划组、模型工程组、质检监控组、审计评估组、数仓工程组、应急响应组”分别配属到对应的环节中去,以提供流程执行的组织人力保障。
文章来源:《治理研究》 网址: http://www.zlyjzz.cn/zonghexinwen/2021/0720/2144.html
上一篇:如何协同治理校外在线教育
下一篇:数字化转型背景下的数字风险治理