ISACA Journal | 数据管理百年的三个教训
数据管理作为一个概念始于20世纪60年代,至今已有60年的历史,据研究,全球只有3%的组织数据符合基本质量标准,四分之三的员工不信任这些高成本低质量的数据。此外,超过70%的员工可以访问不应该访问的数据,这意味着可能会发生灾难性的安全泄露事件。在许多情况下,没有人会检查数据是否符合预期目的,从而造成基于数据的虚假陈述,这可能损害企业做出正确决策或实现其目标的能力,或者可能导致企业因使用没有合法权利使用的数据而受到监管处罚。
公众对数据实践的信任度低是一种全球性现象,部分原因是在保护个人数据不受滥用方面的失败,引发了变革数据驱动系统及其结构的呼声。私营部门滥用隐私的一个例子是Facebook-Cambridge Analytica丑闻,其中数千万用户的数据被滥用。Facebook同意解决随后的诉讼,从而避免了回答有关其涉嫌掩盖数据泄露的问题。
公共部门也未能幸免于对数据驱动的不信任。只有49%的英国人相信政府会存储他们的数据。澳大利亚和美国也发现了类似程度的不信任,原因是头条新闻报道了个人数据的丢失(安全问题)、滥用(隐私问题)和不准确(数据质量问题)。日本的一项调查发现,在公布错误的工资数据后,80%的人对政府的经济指标失去了信任。由于2018年人口普查的回复率较低,新西兰人的信任受到了侵蚀。这些问题在公共部门更加严重,因为公民和国家之间的信任比客户和零售商之间的信任更复杂。大多数美国人认为,政府隐瞒了可以安全地向公众发布的重要信息。此外,当公共资助的机构不向公众提供数据时,就会引发不信任。如果向公众提供信息是为了重建信任,那么重要的是这些信息对公民有用,对公民可用,就像巴西、斯里兰卡和乌拉圭的情况一样。
错误信息、虚假信息和阴谋论是不信任的产物,而行为不端的机构增强了这些产品对那些感觉自己没有被代表的人群的吸引力。民粹主义的增加也是对公共部门信任度下降的结果。93%的企业认为,数据的收集、管理、存储和分析必须改进,这证实了需要做出重大努力解决全球数据管理状况。
最近的数据管理历史
要知道数据管理应该走向何方,了解其过去是很重要的。人类首次使用数据发生在2万年前,但这里的重点是从19世纪末开始的几代数据环境和数据问题(图1)。
1890年至1960年间,数据库的作用基本保持稳定。然而,随着时间的推移,越来越复杂的数据管理挑战没有得到很好的解决,导致数据管理与数据技术之间的差距越来越大。每一代数据管理是数据技术和数据管理范式转变的结合。尽管信任是能力(能力和可靠性)和意图(人性和透明度)的函数,但这里只考虑数据管理能力。
第一代:纸质记录
在计算机出现之前,表格和分类账等纸质记录用作数据库(数据存储)。通过纸质记录进行数据管理是成功的。例如,在20世纪初,大都会人寿保险公司(Metropolitan Life Insurance Company)用档案卡和纸质表格准确可靠地管理了1000万份保单。
这一成功归功于定义了术语,并让人们执行精确的模拟程序——算法。计算机编程的先驱、海军准将格雷斯·霍珀(Grace Hopper)随后在几十年后将算法的动词“perform”和名词“procedure”纳入通用面向业务语言(COBOL)编程语言,使其可供业务用户访问。她还以与纸质时代程序相同的方式构建了COBOL的算术指令。
纸质数据库管理有效性的另一个例子发生在1936年1月,当时美国国会投票决定支付承诺给第一次世界大战退伍军人的奖金。尽管必须在纸张上进行复杂的计算,但17亿美元的拨款中有一半以上在1936年底之前已经支付。相比之下,美国最近推出的医疗保健IT效率较低。
前计算机时代较慢的数据管理可以说比今天的数据管理更有效。事实上,18%的会计师仍然使用纸质账本,延续了始于13世纪的精确模拟记录传统。
第二代:穿孔卡片
1880年的美国人口普查人工统计5000万人,历时七年时间才公布结果。即使在那时,许多回应仍未统计在内。赫尔曼·霍勒里斯(Herman Hollerith,他的企业后来成为了IBM)寻找一种更好的方法为1890年美国人口普查汇编统计信息,于是决定使用穿孔卡片。穿孔卡片起源于1801年纺织业的一项技术,是一种矩形的纸制品,通过在预定义的位置穿孔表示数据,允许使用多个穿孔卡片表示完整的数据集。赫尔曼的企业使用穿孔卡片技术,仅用了三年时间就公布了人口普查结果,证明了在人工统计方面的进步。
穿孔卡片将数据从人类可读的形式转换为计算机可读的形式。在1890年的人口普查中,每张卡片上都印有与姓氏对应的数字,并在其他地方保存索引。如果索引丢失,将无法搜索数据;因此,灾难恢复和业务连续性是薄弱环节。与纸质时代一样,准则和组织是穿孔卡片时代至关重要的数据管理属性。
穿孔卡片是数据以物理形式出现的最后一代,在1967年达到使用顶峰,每年达到2000亿张。但到了20世纪80年代中期,穿孔卡片在技术上已经过时,然而,直到2000年仍用于美国总统选举投票。
第三代:磁带
磁带从1928年开始在录音中发挥作用。磁带在计算机中的首次使用是在1951年。硬盘驱动器(磁盘)在六年后出现,但直到20世纪70年代才普及。
今天,对磁带的需求比以往任何时候都要强劲。亚马逊、谷歌和微软都将新一代磁带技术作为其存储架构的一部分。IBM和索尼在过去五年中都发布了新的磁带存储设备。甚至云也依赖于磁带备份。尽管记录的数据量每年增长30%至40%,但硬盘的容量增长速度还不到这个速度的一半。今天,磁带存储比硬盘更节能、更可靠,而且更安全,因为如果磁带没有挂载,那么空气隔离机制(Air Gap)意味着磁带上的数据不能被访问或修改。磁带存储的成本仅为硬盘存储的六分之一,而且越来越便宜。
磁带的主要缺点是专用设备的初始成本高、易受物理和环境损害,以及顺序(与随机存取相比)搜索机制。磁带时代的主要数据管理挑战是存储组织、存储成本、数据验证,以及需要平衡提高数据准确性和为追求准确性而延迟的成本。
对个人数据收集在隐私方面的后果的探索始于数据管理的磁带生成过程。例如,一堂计算机入门课的课程计划对学生提问如下:
你想让班上的其他成员看到你的回答吗?…应该怎么处理[这些答案]?如果老师把答案锁起来,你会感觉好些吗?或者你宁愿看到答案被焚烧?如果(答案)被销毁了,我们后来决定交叉列出一些结果,或者把两到三个类别的结果加在一起,获得更好的总体平均值,我们就无法做到。那么该怎么办呢?
45年后,教育技术中的隐私问题依然存在。
第四代:数据仓库和数据孤岛
通用关系数据库在20世纪70年代开发,当时数据是以人为创建的兆字节而不是今天机器生成的艾字节流测量的。这是一项有用的技术,但不能同时满足操作和分析需求。反过来,结构化查询语言(SQL),即数据库的数据定义、查询、操作和控制语言,直到1986年才标准化。
美国计算机科学家、数据仓库之父Bill Inmon在20世纪80年代提倡自上而下、企业范围、规范实体和关系(避免冗余),而美国创新者、作家、教育家、数据仓库的原始架构师Ralph Kimball则主张自下而上、业务单元范围,以及20世纪90年代的非规范化事实和维度表(减少联接)。这些先驱创建的学科在特定的技术范围内流行至今。
有人提出,通用关系数据库“虽然试图成为‘一刀切’的解决方案,但事实上什么都不擅长45。”同样,这种技术很少能实现所谓的单一的事实视图,因为最近的民意调查显示,30%的企业有六个或更多版本的事实(数据仓库),重复数据、成本和努力。未能建立单一的事实视图带来了数据驱动的运营风险,导致数据孤岛问题继续困扰着数据管理。
冗余和重复是数据仓库成本失控的两个主要原因:
数据仓库架构的纯粹设计——数据仓库固有的ETL(提取、转换、加载)过程,从事务系统到数据仓库的整个数据复制,为优化数据仓库报告而创建的在线分析处理(OLAP)多维数据集,以及创建的个性化和优化的数据副本的几层——负责在数据仓库的不同层创建多个数据副本。上述工作造成了不必要的冗余和数据和工作的重复,并随着时间的推移成倍地增加了基础设施和维护成本。
这一代发现了一个主要问题:数据通常是脏的(即不准确)。脏数据可能是丢失的数据、不正确的数据和同一数据的非标准表示。此外,重复的数据往往由不同的事务产生,从而引发信任问题。
学术界对数据质量问题(定义数据质量及其维度)的兴趣高峰出现在20世纪90年代和21世纪初。直到最近,干净数据的价值才受到更多的关注。
第五代:数据湖
数据湖技术起源于2010年,促进了大数据、机器生成数据、云、分析优化和最终用户自助服务的趋势。数据湖技术仍在逐渐走向成熟。随着大数据和数据湖技术的发展,模式的实施、非结构化数据的无法管理以及关系数据库中数据存储的扩展挑战都消失了。具有讽刺意味的是,关系功能被改造到数据湖技术上,服务于该技术无法帮助的数据的各种用例。数据湖被认为是上一代数据孤岛问题的终结。
然而,任何数据都可以存储在数据湖中,从而带来了一些问题。例如,是否需要所有存储的数据。无论数据来源(第三方数据)如何54,拥有过多的数据会造成不必要的复杂性,并引入组织和监管风险因素。这个问题导致数据湖从数据收集区迁移到更具目标导向的存储区,从而推动向数据湖仓的演变。
IT研究分析师已经开始宣布数据湖的失败。许多报道称,由于执行失败,导致数据湖变成了数据沼泽——“充满了原始的、未经管理的、孤立的数据的大型数据湖57。”数据管理已成为这一代的头条新闻,因为有人断言“如果数据湖从概念上没有得到适当的管理,将变成一个‘数据沼泽’,或者一个低质量的、分类不佳的数据湖,无法轻易访问。”数据湖对数据治理、数据沿袭和操作元数据管理的不足以及隐私、安全、访问控制甚至存储成本相关的问题提出了重大挑战。
这一代的出现使曾经相对稳定的数据管理世界变得更加动态和动荡。
第六代:数据编织
数据编织(Data Fabric)旨在简化数据访问和促进数据消费。为了解决第五代操作元数据的不足,这一代(起源于2015年的概念)专注于用于查找和理解数据的数据目录,用于管理湖和数据仓库孤岛的数据中心,以及支持DataOps范式的数据编织工具集。业务或操作元数据是数据编织的关键,提供支持存储数据的信息,例如,数据的含义、使用方式、来源、质量、谁管理数据以及数据的分类和类别。尽管数据编织仍趋于成熟,但主要目标是数据编排(Data Orchestration)。数据编排结合了架构和技术,促进对现场和云中不同类型和来源数据的管理。数据编织旨在使用跨不同平台部署的多个数据库管理系统简化管理多种数据的复杂性。
数据编织中的数据虚拟化改变了一些数据的管理方式。然而,非持久性——数据是在内存(易失性存储)中处理的,而不是存储或持久化的(非易失性存储)——给大型复杂的工作负载和数据集成带来了挑战。
数据编织旨在促进更好的数据管理,主要是通过自动化。然而,尽管有集中一致的治理和安全流程,数据编织可能会给企业带来新的安全风险。由于数据编织掩盖了分布式源的物理位置(在数据虚拟化层中),上一代的数据沿袭的挑战尚未解决,因为数据可见性被混淆了。
第七代:数据网格
数据网格(Data Mesh)架构(起源于2019年)引入了一种不同的数据治理方法。主要区别是联合(与集中式相比)治理、自动化程度(与人工干预相比)以及基于数据消耗而非输入(例如数据表)衡量治理成功。数据网格为数据管理的未来带来了很大的希望。
数据网格以创建数据产品为中心。数据产品可以定义为满足特定运营需求的相关数据组,其中:
-
数据产品所有者(领域所有者)有权对数据做出决策。
-
数据产品所有者通过共享而非复制数据执行这些决策。
-
整个企业的数据共享是可见的(透明性)。
此外,数据产品必须是可发现的、可寻址的、自我描述的、可互操作的、可信的和安全的。可信度是指定期和自动的数据质量检查。
数据网格由四个原则组成:领域所有权、数据即产品、联邦计算治理和自助服务。数据网格的动态涉及的不仅仅是数据专业人员通常理解的数据治理的不同方法。关键词是“计算”,意思是数据治理包括对数据生态系统计算资源的考虑。通过这种方式,数据网格中的治理最终弥合了数据治理和IT治理之间的差距。
海军准将霍珀(Commodore Hopper)在让企业可以访问COBOL以促进企业自助服务时,发现了一些问题。自助服务使用了60年的时间,随着数据网格的出现又回来了。
关于数据管理的三个教训
有效的数据管理并非偶然。今天的数据管理问题已经酝酿了很长时间,尚未得到充分解决。鉴于行政领导人对首席执行官、总裁以及最终的董事会负责,可以利用过去的经验教训确保数据得到妥善管理。关于数据管理作为一门学科、数据管理技能以及数据风险、数据质量和元数据的数据管理基础,有三个主要的经验教训:
1. 数据管理是一门学科,而不是在办公桌旁完成的事情——上一次在数据管理上下文中使用“学科”一词是在第二代。这是不幸的,因为数据管理现在更多的是一门学科,而不仅仅是一项工作描述或任务,尤其是当数据管理没有得到政策、标准、流程和文档(数据治理的基础)或角色、职责和问责(数据治理的另一个基础)的支持时,上述资源都显示了为消除利益冲突而明确的职责隔离。例如,提供敏感数据访问权限和使用敏感数据的人员必须不同。
鉴于有这么多标准支持严格的方法,随意的数据管理不再是借口。标准包括用于整体架构的开放组架构框架(TOGAF)和Zachman框架、用于数据平台的COBIT®和国际标准化组织(ISO)/国际电工委员会(IEC)38500、用于数据安全的美国国家标准与技术研究所(NIST)特别出版物(SP)800-53和ISO/IEC 27000,用于管理服务台问题(对最终用户数据问题的响应是关键)额信息技术基础设施库(ITIL),用于管理数据质量和主数据的ISO 8000,用于管理元数据的ISO/IEC 11179,以及用于风险管理的ISO 31000。安全(包括访问控制)和隐私是任何数据架构的关键原则,目前有许多方法可以保持这些原则。因此,几乎没有理由忽视以安全和隐私作为当今数据架构的基石。然而,尽管数据隐私成为话题至少已有45年,但这种情况仍在发生。数据收集、数据存储、数据移动或数据访问方面任何变化的影响都应作为正常业务过程的一部分,以安全和隐私条款表述。
2. 数据管理技能正在快速变化——存储在第三代首先作为数据管理问题出现,第四代出现了数据架构,第五代出现了可扩展存储和数据多样性,第六代出现了元数据和互操作性,第七代出现了数据产品和联合数据治理。数据管理挑战继续多样化。后三代的成长非常迅速,需要持续快速地学习。数据管理挑战无法用上一代的技术有效管理。如果犹豫是否要跟上数据空间的发展,那么数据管理在过去十年中的快速演变应该会激励人们改变行为。
由于每一代新的数据管理都是为了解决上一代的问题而出现的,因此不知道数据管理技术的进步如何解决数据挑战会给组织带来数据方面持续性的风险。别无选择,只能保持学习,积极参与全球IT和数据社区,并逐渐将新的知识引入组织。耽误的时间越长,要吸收的信息量就越大,旧数据生成的技能集冗余的可能性就越大(图2)。
3. 持续关注基础:数据质量、元数据和数据风险管理——为了确保数据符合目的,数据质量和操作元数据已成为数据管理的主要主题。因此,毫不奇怪,解决元数据和数据质量问题是全面数据管理能力的基础要素。一些主要的元数据活动包括创建业务词汇表、创建数据目录、对关键数据元素进行分类以及能够映射到这些关键数据元素的生产源。数据质量活动(数据清理)的范围通常仅限于组织的关键数据元素,因为组织的整个资产的范围太大了。考虑到组织中有多少数据未被使用是浪费时间。此外,数据风险管理的原则是组织弹性的工具77。在这种情况下,主要的风险重点领域是确保数据资产的可持续性,确保数据符合目的,确保敏感数据的安全(具有明确定义目的的最小权限),以及确保需要数据的人员可以访问数据。
不断增长的数据管理需求很容易让人不知所措,但无论是从学科的角度、技能的角度还是从基础数据管理的角度,并非所有数据都同样重要。据估计,实际使用的数据只有四分之一到三分之二78, 79, 80。企业架构功能(映射组织流程和过程之间的数据流)促进了识别关键数据的流程,该流程是业务架构、信息架构、应用程序架构、数据架构和IT架构的总和。不属于企业核心流程的数据元素通常可以降低优先级。
结论
随着时间的推移,管理不断增长的数据组合的技术能力有所增强,但两种关键的数据管理能力已经丧失,这可能是组织目前面临数据挑战的根本原因:第一代和第二代数据管理的学科和组织属性。如果学科和组织能够持续作为数据管理的支柱,那么公众对数据实践的低信任度和数据滥用事件可能就不那么常见了。
关于数据不信任和滥用的统计数据应提醒各组织优先考虑数据质量和安全,作为重建公众对其组织信任的一部分。只有一小部分组织数据符合基本质量标准,大多数员工不信任这些标准,这一事实凸显了对更好的数据管理实践的迫切需要。未经授权访问数据可能导致灾难性的安全泄露事件,这凸显了实施健壮的安全协议的重要性。所有这些活动都需要学科和组织是有效和可持续的。
组织必须确保数据符合预期目的并合法使用,否则可能会损害其声誉,失去员工和客户的信任,并可能面临重大经济处罚。认识到数据管理在实现组织目标方面发挥的作用,从而投资于有效管理数据所需的资源和专业知识,目前是再好不过的时机了。
编者注:本文出自ISACA Journal 2023年第4期。尾注略。文章内容仅代表作者本人观点。
作者:GUY PEARCE,CGEIT, CDPSE,具有计算机科学和商业的学术背景,曾担任战略领导、IT治理和企业治理方面的职务。
翻译:唐四宝(Jerry Tang),CISA, CDPSE,CZTP,ISACA微信公众号特邀通讯员。
校对:姚凯(Kevin Yao),CISA,CISM,CRISC,CGEIT,CDPSE,ISACA微信公众号特邀通讯员,关注IT安全,隐私保护和数字化。