投稿指南
来稿应自觉遵守国家有关著作权法律法规,不得侵犯他人版权或其他权利,如果出现问题作者文责自负,而且本刊将依法追究侵权行为给本刊造成的损失责任。本刊对录用稿有修改、删节权。经本刊通知进行修改的稿件或被采用的稿件,作者必须保证本刊的独立发表权。 一、投稿方式: 1、 请从 我刊官网 直接投稿 。 2、 请 从我编辑部编辑的推广链接进入我刊投审稿系统进行投稿。 二、稿件著作权: 1、 投稿人保证其向我刊所投之作品是其本人或与他人合作创作之成果,或对所投作品拥有合法的著作权,无第三人对其作品提出可成立之权利主张。 2、 投稿人保证向我刊所投之稿件,尚未在任何媒体上发表。 3、 投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、 投稿人向我刊所投之作品不得同时向第三方投送,即不允许一稿多投。 5、 投稿人授予我刊享有作品专有使用权的方式包括但不限于:通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑,以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、 第5条所述之网络是指通过我刊官网。 7、 投稿人委托我刊声明,未经我方许可,任何网站、媒体、组织不得转载、摘编其作品。

数据治理第1期(3)

来源:治理研究 【在线投稿】 栏目:综合新闻 时间:2021-07-20 15:55
作者:网站采编
关键词:
摘要:具体实施:如上图所示,数据治理流程保障规划的具体实施细则上,会重点依托易龙的“数据治理五大项目模块”,然后每个模块都按照“规范建设-质检

具体实施:如上图所示,数据治理流程保障规划的具体实施细则上,会重点依托易龙的“数据治理五大项目模块”,然后每个模块都按照“规范建设-质检审查-发现问题-评估问题-解决问题-验收问题”的闭环流程进行梳理和规划。

(1)定义理想态

① 发现问题

指标释义:

召回率(覆盖率):召回率又叫覆盖率,是指所有真实存在的问题中,系统或者人工检测出的问题占比。例如一共100条数据,其中20条存在异常,系统报警显示有30条存在问题,事后被验证30条报警中真实存在问题的有10条,则召回率(覆盖率)=10/20*100%=50%

准确率:是指所有被系统或者人工检测出的问题中,真实存在问题的占比。例如一共100条数据,其中20条存在异常,系统报警显示有30条存在问题,事后被验证30条报警中真实存在问题的有10条,则准确率=10/30*100%=33.3%。

注意:理论上最理想的状态就是一次监控任务中,所有问题都被发现,且所有报警的数据中没有掺杂虚报情况,也就是召回率达到100%,准确率为100%。

但是实际场景中,这样的理想情况几乎是不存在的!过度追求高召回率,监控规则一定会设置的异常简单,那往往会有很多正常的波动会被系统判定为“异常”。

同理,过度追求高准确率,监控规则一定会设置的异常苛刻,那自然被报警的数据都是存在异常的,准确率100%,但是这样往往很多异常数据会被监控系统给漏掉,漏报率就会异常的高!

因此,优秀的监控系统都是根据实际场景一直在找寻召回率和准确率间的平衡点。

② 解决问题

  • 响应时长:24小时内响应问题
  • 定位问题:3天内完成问题的定位
  • 解决问题:2周内彻底解决问题

③ 数据通道质量

(2)规范建设

① 唯一性

  • 指标、纬度、模型、库表、数据、报表的唯一
  • ID唯一
  • 名称唯一
  • 定义唯一
  • 加工逻辑唯一
  • 产出渠道唯一
  • 相似的指标、纬度、模型、库表、报表做减法,减少冗余

② 规范性

  • 流程规范
  • 需求→评估→处理→测试→上线→验收环节严格执行
  • 数据和流程double check
  • 测试、试验验证数据质量和流程执行情况
  • 日志、库表、模型、报表、代码有统一的设计和输出规范,信息齐全、分层合理、资源使用合理

③ 完整性

  • 日志、库表的元信息完善,灰度测试阶段只有空值率、异常值占比、分区缺失等指标合格后方可上线发布

(3)发现问题:监控体系建设

如图2和图3所示,对于重要级别的日志、指标、库表数据,除了粗粒度的质检外,还需要每天进行更加严格和科学的监控,以提前发现问题并推动解决:

图2:数据埋点质量监控报表

图3:数据指标准确性监控报表

① 完整性(是否缺失或不可用)

  • 日志
  • 丢失率
  • 库表
  • 丢失率
  • 分区缺失
  • 信息缺失(0、空值、NULL)

② 准确性

  • 业务侧
  • 相同指标不同报表间建立交叉验证
  • 相同报表不同指标间建立逻辑验证
  • 相同报表相同指标建立波动验证
  • 技术侧
  • 埋点间的交叉验证
  • 多层库表间相同指标交叉验证
  • 明细层和统计层建立数据量、行数、计算结果的比对验证

③ 及时性

  • 日志上报
  • 有效上传率
  • 延迟率
  • 资源使用
  • 当前占用占比
  • 剩余资源占比
  • 任务调度
  • 完成率
  • 失败率
  • 延迟率

(4)问题分级

① 监控分级

  • 对业务的影响度
  • 模型、库表、报表使用热度
  • 作业耗时热度
  • 故障分级

② 预警分级

③ 报警方式

(5)事后处理

① 问题跟踪处理

  • 问题分发(按业务、主题、部门等划分问题归属)
  • 问题跟踪
  • 问题原因追溯
  • 问题解决排期
  • 问题解决反馈

② 问题验收

③ 定责存档

2. 组织保障策略

图4:数据治理组织保障规划示意图

责任划分:以“规范建设-质检审查-发现问题-评估问题-解决问题-验收问题”的闭环流程为切入点,将“需求规划组、模型工程组、质检监控组、审计评估组、数仓工程组、应急响应组”分别配属到对应的环节中去,以提供流程执行的组织人力保障。

文章来源:《治理研究》 网址: http://www.zlyjzz.cn/zonghexinwen/2021/0720/2144.html



上一篇:如何协同治理校外在线教育
下一篇:数字化转型背景下的数字风险治理

治理研究投稿 | 治理研究编辑部| 治理研究版面费 | 治理研究论文发表 | 治理研究最新目录
Copyright © 2021 《治理研究》杂志社 版权所有 Power by DedeCms
投稿电话: 投稿邮箱: