大数据可视化技术与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 什么是数据可视化

数据是指对客观事件进行记录并可以鉴别的符号,主要记载客观事物的性质、状态以及相互关系。它是可识别的、抽象的符号。

数据不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,或者客观事物的属性、数量、位置及其相互关系的抽象表示。例如,“0、1.2…”“阴、雨、下降、气温”“学生的档案记录、货物的运输情况”等都是数据。

在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。计算机存储和处理的对象十分广泛,表示这些对象的数据也随之变得越来越复杂。

数据经过加工后就成为信息。两者既有联系,又有区别。数据是信息的表现形式和载体,可以是符号、文字、数字、语音、图像、视频等。而信息是数据的内涵,信息是加载于数据之上对数据做的具有含义的解释。数据和信息是不可分离的,信息依赖数据来表达,数据则生动具体表达出信息。数据是符号,是物理性的;信息是对数据进行加工处理之后所得到的、能够对决策产生影响的数据,是逻辑性和观念性的;数据是信息的表现形式,信息是数据有意义的表示。数据是信息的表达、载体,信息是数据的内涵,它们之间是形与质的关系。数据本身没有意义,数据只有对实体行为产生影响时才成为信息。

数据可视化就是数据中信息的可视化。人类对图形、图像等可视化符号的处理效率要比对数字、文本的处理效率高很多。经过可视化的数据,可以让人更直观、更清晰地了解到数据中蕴含的信息,从而最大化数据的价值。

数据可视化是一门科学。它主要借助图形化的手段,达到有效传达与沟通信息的目的。它与信息图形化、信息可视化、科学可视化和统计图形化等领域密切相关。近些年,数据可视化已经在商业中发挥了巨大的价值,是商务智能重要的一部分,其主要形式包括报表、图表,以及各种用于制作计分卡(Scorecards)和仪表盘(Dashboards)的可视化元素。

数据可视化又是一门艺术。它需要在功能与美学形式之间达到一种平衡。太注重实现复杂的功能会令可视化结果枯燥乏味,太注重美学形式会将信息埋没在绚丽多彩的图形中,让人难以捕捉。

当前,在研究、教学和开发领域,数据可视化都是一个极为活跃而又关键的方向。特别是在大数据时代,面对规模、种类快速增长的数据,可视化已然成为各个领域传递信息不可缺少的手段,是快速理解数据的必然要求。

数据可视化主要从数据中寻找三个方面的信息:模式、关系和异常。

1)模式,指数据中的规律。比如,城市交通流量在不同时刻差异很大,而流量变化的规律就蕴含在海量传感器源源不断地传来的数据中。如果能及时从中发现交通运行模式,就可以为交通的管理和调控提供依据,进而减轻堵塞现象。

2)关系,指数据之间的相关性。统计学中,通常代表关联性和因果关系。无论数据的总量和复杂程度如何,数据间的关系大多可分为三类:数据间的比较、数据的构成,以及数据的分布或联系。比如,收入水平与幸福感之间的关系是否成正比,经统计,对于月收入在1万元以下的人来说,一旦收入增加,幸福感会随之提升,但对于月收入水平在1万元以上的人来说,幸福感并不会随着收入水平的提高而明显提升,这种非线性就是一种关系。

3)异常,指有问题的数据。异常的数据不一定都是错误的数据,有些异常数据可能是设备出错或者人为错误输入,有些可能就是正确的数据。通过异常分析,用户可以及时发现各种异常情况。如图1-1所示,图中大部分点都集中在一个区域,极少数点分散在其他区域,正是这些点可能会影响对数据相关性的判断,通过可视化可以初步将其识别出来。

图1-1 异常点示例