大数据可视化技术与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3 大数据可视化的分类

数据可视化的处理对象是数据。根据所处理的数据对象的不同,数据可视化可分为科学可视化与信息可视化。科学可视化面向科学和工程领域数据,如三维空间测量数据、计算模拟数据和医学影像数据等,重点探索如何以几何、拓扑和形状特征来呈现数据中蕴含的规律;信息可视化的处理对象则是非结构化的数据,如金融交易、社交网络和文本数据,其核心挑战是如何从大规模高维复杂数据中提取出有用信息。

由于数据分析的重要性,将可视化与数据分析结合,可形成一个新的学科:可视分析学。

1.3.1 科学可视化

科学可视化是可视化领域发展最早、最成熟的一个学科,其应用领域包括物理、化学、气象气候、航空航天、医学、生物学等各个学科,涉及对这些学科中数据和模型的解释、操作与处理,旨在寻找其中的模式、特点、关系以及异常情况,如图1-7所示是一个化学实验结果可视化的例子,我们可以很直观地看出1.0mol/L的盐浓度下吸光度(Absorbance)随光的波长(Wavelength)的变化趋势,以及吸光度达到峰值时具体的波长数值。

图1-7 科学可视化:某一化学实验结果可视化

科学可视化的基础理论与方法已经相对成熟,其中一些方法已广泛应用于各个领域。最简单的科学可视化方法是颜色映射法,它将不同的值映射成不同的颜色,热力图就是其中一种,如图1-8所示。科学可视化方法还包括轮廓法(Contouring),轮廓法是将数值等于某一指定阈值的点连接起来的可视化方法,地图上的等高线、天气预报中的等温线都是典型的轮廓可视化的例子,如图1-9所示。

图1-8 颜色映射法示例

图1-9 等高线示例图(单位:米)

1.3.2 信息可视化

与科学可视化相比,信息可视化的数据更贴近人们的生活与工作,它包括地理信息可视化、时变数据可视化、层次数据可视化、网络数据可视化、非结构化数据可视化等。

常见的地图是地理信息数据,属于信息可视化的范畴。现在很多地图不仅仅有地理信息,还有很多其他信息,如交通流量数据等。如图1-10所示,这是谷歌感恩节航班动态地图的一张截图,在给定时间内,将太空中移动的物体进行了可视化,由Google趋势提供支持。该趋势跟踪了感恩节前一天飞往美国的航班,随着时间的推移像电影一样播放,显示在全美各地移动的航班。在没有显示任何数字的情况下,观众可以看到一天中哪些时段更适合国际航班、国内航班以及往返全美不同枢纽的航班。

时变数据可视化采用多视角、数据比较等方法体现数据随时间变化的趋势和规律。如图1-11所示,在这个案例中,每一条线的灰色代表一个人原来可以活到多少岁,但因为某种原因却提前死亡了,死之前用桔色表现。每条线条的颜色汇集在一起,从而直观地表现出因为某种原因死亡的多是中青年。

图1-10 谷歌感恩节航班动态地图

图1-11 时变数据可视化示例

在层次数据可视化中,层次数据表达各个个体之间的层次关系。树图是层次数据可视化的典型案例,树图是对现实世界事物关系的抽象,其数据本身具有层次结构的信息。

在网络结构数据可视化中,网络数据不具备层次结构,关系更加复杂和自由,如人与人之间的关系、城市道路连接、科研论文的引用等。

非结构化数据可视化通常是将非结构化数据转化为结构化数据后,再进行可视化显示。

1.3.3 可视分析学

可视分析学被定义为一门以可视交互界面为基础的分析推理科学,它综合了图形学、数据挖掘和人机交互等技术。可视分析学是一门综合性学科,与多个领域相关:在可视化领域,与信息可视化、科学可视化、计算机图形学相关;在数据分析相关的领域,与信息获取、数据处理、数据挖掘相关;在交互领域,则与人机交互、认知科学和感知等学科融合。

可视分析学所包含的研究内容非常广泛,如图1-12所示。其中,感知与认知科学研究在可视化分析学起到重要作用;数据管理和知识表达是可视分析构建数据到知识转换的基础理论;地理分析、信息分析、科学分析、统计分析、知识发现等是可视分析学的核心分析方法;在整个可视分析过程中,人机交互必不可少,用于控制模型构建、分析推理和信息呈现等整个过程;可视分析流程中推导出的结论与知识最终需要由用户传播和应用。

可视化分析的含义包括可视化和预测性分析两部分。信息可视化的目的是回答“发生了什么”和“正在发生什么”,这与商务智能(如日常报表、计分卡、仪表盘)有密切联系。而可视化分析主要回答“为什么会发生”和“将来可能发生什么”,与业务分析(如预测、分割、关联分析)有关。许多数据可视化供应商都在产品中加入了相关功能,使它们可以被称为可视化分析供应商。比如,最著名的、创立最久的数据分析提供商SAS,将分析技术嵌入一个高性能数据可视化环境中,称之为可视化分析。

图1-12 可视分析学