1.1 数据金字塔:从数据到决策有多远?
由于计算机技术的迅速发展,人类从数据稀缺,进入了数据爆炸的时代。伴随着产生的一个问题是:如何将数据、信息转化为知识,从而有效辅助决策?
在20世纪90年代以前,辅助决策一直未能有效发展起来,直到关系数据库兴起,数据挖掘、可视化分析崭露头角,辅助决策才快速发展起来。1989年,知名咨询机构Garner的报告中明确提出了BI(Business Intelligence,商业智能)的概念,指“使用基于事实的支持系统支撑商业决策的概念与方法”(Concepts and methods to improve business decision making by using fact-based support systems),自此之后,BI的概念和应用逐步被官方使用。如今,Gartner的“BI和分析平台魔力象限”(Magic Quadrant for Business Intelligence and Analytics Platforms)代表了整个行业的风向标,而我们的主角Tableau则已经连续8年出现在领导者(Leader)象限中,不出意外,Tableau还将持续代表敏捷BI行业的发展方向。
得益于互联网经济的引导和驱使,众多的中国企业开始重视IT软硬件设施、数据收集和存储等方面的投入,企业的数据量也开始呈指数级增长。不过,数据并不意味着价值,分析和决策才能创造价值。笔者最爱的管理大师彼得·德鲁克当年的感慨,特别适合于当下的中国:
“迄今为止,我们的系统产生的还仅仅是数据,
而不是信息,更不是知识。”
那什么是数据、信息和知识呢?涂子沛老师在《大数据》一书中举了一个形象的例子,“185”“奥巴马”等仅仅是孤零零的数据,只有当将这些数据置于特定背景时,比如“奥巴马身高185cm”,相互独立的数据才转化为有效的信息;基于更多的数据就会发现特定的规律,比如“大多数成年美国人的平均身高为185cm”,这样就积累了特定的行业知识。因此,数据仅仅是分析的原材料,知识才是数据分析的最终产品,也是辅助决策的关键依据。
也就是说,数据本身并没有价值,价值来自数据整理、分析和加工的综合过程,而人的智力和经验,是数据分析过程中最重要的“催化剂”。从数据到信息,再从信息到知识,构成了数据金字塔最主要的三个层次。在这三层模型中加入“Wisdom”,笔者称之为“智慧”或者“洞见”,就形成了标准的如同金字塔的“DIKW模型”(见图1-1)。DIKW模型清晰地表述了从数据到信息,从信息到知识的过程,反复积累的知识不断提升了我们的心智和智慧。由于每一次对数据的分析,都是答疑解惑和数据增值的过程,可以理解为“数据密度”在不断增加——一张A4纸放不下上市公司一天的营业数据(Data),却能给投资者展示充满价值的业绩简报(Information)。
图1-1 DIKW数据金字塔模型
《经济学人》发表的一篇文章中称,“21世纪最有价值的不是石油,而是数据”。在一次给中石油山东公司的员工上大数据分享课时,笔者把数据分析的过程比作石油勘测、挖掘和提炼的过程,以此形象理解数据分析各环节的含义,如图1-2所示。
图1-2 DIKW模型各层次关系
● Data(数据):是理解事实的符号,比如数字、单位、程度描述等,在未被整理或者加以理解之前,它是无用的,有人称之为“know-nothing”(无所知);不经分析的数据如同不经反省的人生,如同地底下未经开采的石油,存在却缺乏意义。计算机用字段描述数据,详见第2章,对应Tableau的基础概念、拖曳逻辑。
● Information(信息):信息是带有逻辑的数据组合,多是结构化表述,比如“95号汽油7.6元/升”;通过信息,我们可以了解数据背后的世界和关系,因此称之为“know-what”(知其然)。从数据到信息的过程如同从地壳中勘测和挖掘石油,这个过程的基础是数据整理和数据准备,详见第3章、第4章,对应Tableau Prep Builder和Tableau Desktop的部分功能。
● Knowledge(知识):知识是在众多数据、信息中增加了主观理解并进一步升华的数据见解,因此因人而异;和信息不同,知识是直接指导业务决策和行动的,因此能直接产生价值,故称之为“know-how”(知行合一)。就像石油经过精炼转化为汽油,汽油为汽车提供动力,知识是数据分析最关键的产品。
● Wisdom(智慧/洞见):古人说“玄之又玄是为道”,到了这一层,就融合了决策者的深层理解和经验性的洞见,透析数据,不仅知其然,更知其所以然,此乃妙理,即“know-why”(知其所以然)。每个公司总有少数的业务领导和管理者可以通过微小的数据线索判断行业大势,见微知著,预判未来。所有的智慧和洞见背后,是更加抽象和前瞻性的数据逻辑和知识体系。
简而言之,数据分析就是从数据中提取和整理信息,进而总结知识、增进洞见,并指导决策的过程。
在企业中,DIKW模型的每一个层次对应不同的“数据相关者”。如图1-2所示,数据层面对应IT人员(管理和维护数据),信息对应分析师(IT分析师或者业务分析师),知识对应业务经理(基于数据做决策的人),而智慧对应公司高管和CEO(领导业务经理看到数据,也看到未来)。
随着数据爆炸,企业在数据领域的主要焦点从“如何获得更多数据”变成了“如何做出更有助于决策的分析”。而影响决策分析的主要矛盾是“拥有数据的IT分析师不了解业务逻辑与直接做出数据决策的业务经理难以精通数据分析方法”之间的矛盾。正是意识到了这一点,从新兴的互联网公司到传统的医药公司,越来越多的企业正在将数据分析工作从信息部门转向业务部门,甚至在业务部门中成立专门的数据分析团队。
也正因此,Gartner在2019年的BI分析报告中写道:“到2020年,业务部门的数据以及分析专家数量的增长速度将是IT专家增长速度的3倍,这将迫使企业重新考虑其组织模式,以及人力资源管理。”如今,这一预测正在逐步成为现实,经济危机进一步促使企业领导重视数据分析的重要性——借助数据分析,进一步降低决策的试错成本。
对业务分析师和业务经理而言,可视化的数据分析是进入大数据时代最好的捷径,因为这条道路符合人类直觉决策和理性决策结合的基本逻辑。