ACM
BLOG@CACM

对组合数据和分析治理的需求


BLOG@CACM帖子”数据治理与紧张管理心理学“描述了数据治理的内在冲突,即数据需要保持安全,但数据也需要用于提供价值,并且数据治理也需要注入到解决方案中以获得最有效的效果。通常情况下,数据治理的传奇在获得数据访问权时就结束了,但故事并没有结束——特别是对于受监管环境中的分析来说,在这些环境中,外部发布数字会产生后果。

分析治理的现状

让我们假设一位无畏的分析师请求并被授予访问数据集的权限。快乐的日子,对吧?也许。所有组织都需要用于内部管理的度量标准,许多组织喜欢在外部发布数字,甚至只是出于促销目的,无论是市场度量标准(如客户数量)还是吞吐量度量标准(如订单数量)。这些数字从何而来提出了重要的问题。

第一个问题是技术性的。在过去的几十年里,基于web的事务系统已经成熟了,源代码管理、自动化单元测试、构建管理和持续集成模式已经在大多数行业中得到了很好的建立。相比之下,如果一个人在网站上看到“X万客户”或“Y百万订单”,这些数字究竟是从哪里来的?它们可能是在滚动了几十个或数百个仪表板后获得的。或者可能有人运行了一个自定义脚本,其中的查询希望与支持仪表板的查询相似(如果不准确的话)。不管怎样,任何分析代码都已检入,与其他分析人员一起检查,具有单元测试,并具有自动构建,这是一个令人钦佩的,但可能是无可救药的乐观假设。

接下来的问题是监管。美国的上市公司是这样的法律义务公布某些数字,如果这些数字不准确,可能会受到惩罚(包括刑事指控)。萨班斯-奥克斯利法案(SOX)要求:“加强财务交易的报告要求,包括表外交易、形式数字和公司管理人员的股票交易。它要求内部控制以确保财务报告和披露的准确性,并要求对这些控制进行审计和报告。”如果一家上市公司发布了一个数字,而不考虑任何其他行业特定的法规,SOX很有可能会对此发表意见。2002年安然和世通会计丑闻之后,SOX法案成为法律。即使是出于最好的意图,简陋的报告和仪表盘也可能开始变得简陋证据如果实施和管理不当。

分析型治理的挑战

金融部门

美国的金融部门有大量的监管。这些机构包括但不限于联邦金融机构审查委员会(FFIEC)、联邦储备系统理事会(FRB)、联邦存款保险公司(FDIC)、国家信用合作社管理局(NCUA)、货币监理署(OCC)和消费者金融保护局(CFPB)。FFIEC制定了许多标准,包括数据管理和数据治理标准。银行还必须遵守支付卡行业(PCI)标准,以帮助确保支付行业信用卡交易的安全性。还有美国证券交易委员会(SEC)。和每个人都想要的报告。

仔细阅读就一个FFIEC文件(下面是FFIEC 009)是需要报告工作的一个小演示,因为所有这些小白框都需要年复一年地填写(有时是月复一月)。

来源:https://www.ffiec.gov/PDF/FFIEC_forms/FFIEC009_202212_f.pdf

请注意,附表C,第II部分:基于担保人的申索及备忘录项目不同于附表C,第一部分:基于直接交易对手的申索附表L:外交部负债"附表O:表外项目,附表D:衍生品合约中的头寸索赔等。毕竟这是一份34页的文件。

这些分析和报告的例子只是来自金融行业的监管要求。用于改善内部运营和/或金融产品交叉销售的分析将是一个完全不同的类别,但仍然属于数据和分析治理的范畴。

医疗行业

《安全和隐私规则》(Security and Privacy Rules)理所当然地显得很重要,以至于人们实际上可以识别出使用医疗保健数据的开发人员,因为他们会像神经质一样在句子中随机插入“HIPAA”。然而,本节将超越诸如处理PHI和静态/动态加密之类的主题,讨论前面提到的“客户计数”主题:什么是患者?视情况而定。多个分析师可以查看相同的数据库,并以不同的方式回答这个问题,尽管每个答案都是“技术上准确的”,但都是不同的。

通过人口统计记录获得患者数量可以说是最简单的分析,但即使这样也存在挑战,因为有时患者是在“存根”或部分记录下注册的,这些记录可能在以后被合并到其他患者记录中。因此,伯爵所有人口统计记录可能只与活动人口统计记录不同,即使这两个数字在各自的上下文中都是有效的。

计算特定情况下的患者是医疗保健分析中长期存在的复杂性,在多种情况下都会出现。例如,糖尿病患者的计数似乎应该是相当明显的,但可能不仅需要评估原始诊断(例如,ICD代码),还需要评估映射到其他本体论的诊断(例如,SNOMED),表明糖尿病的药物(可能需要包含药物的长列表,可能需要交叉到其他药理学分类),以及表明糖尿病的观察或实验室测试。计算数字有技术方面的问题,但同样复杂和重要的是确保人们能够解释这些标准。

这些例子与临床目的无关的原因是,这些患者计数指标可以在网站上发布,用于营销目的或在年度报告中陈述,就像本文顶部的假设业务一样。此外,营利性公共医疗保健公司将与其他工业部门一样,受到SOX和其他法规的约束。

总之

自助式商业智能工具已经取得了成功,在一些组织中产生了数百甚至数千个仪表板和报告。但是这种扩散本身也会产生问题,因为对输出的治理在确定给定情况下哪些分析是正确的方面变得更加困难。

解决分析治理的一种方法是根据风险进行分类,例如:

  1. 监管报告-最重要的。这些信息将提交给监管机构。
  2. 外部报告-关键。这些报告是发布给投资者或董事会的。
  3. 战略报告-必不可少。提交给高级业务领导做决策的报告。
  4. Operational和Ad Hoc—支持日常操作和工作流的报告。

让我们回到《张力管理》的主题,一旦分析得到了风险评级,就可以适当地应用不同级别的治理和控制,在顶层投入最多的注意力和控制,同时在底层仍然允许灵活性和探索。

最后,需要像对待其他软件开发工作一样严格地对待高风险分析背后的源代码管理和测试,这不仅是为了产生所需报告的内部效率,也是为了可跟踪性。如果人们不理解或不信任数字背后的计算,数字就没有任何意义。

参考文献

BLOG@CACM

HIPAA

FFIEC

道格·梅尔是医疗保健数据管理和分析方面的软件架构师。他还在2010年创立了克利夫兰大数据Meetup。他BLOG@CACM的更多帖子可以在https://www.linkedin.com/pulse/publications-doug-meil迈克尔出席他是KeyBank的执行副总裁兼首席数据官。


没有找到条目

登录全面存取
忘记密码? »创建ACM Web帐户
Baidu
map