1.2 信息处理与分析的内涵及相关技术
信息的处理和分析是信息发挥作用的关键环节之一。在信息处理和分析中,“信息内核”非常关键。信息内核也称“特征信息”。在信息处理的过程中如何鉴别信息特征和保存信息特征是关键问题。即便是信息压缩与扩展都是要在保持“信息内核”的基础上进行的;而信息分析和鉴别正是通过诸多的表象来分析“信息内核”的过程。如漫画家可以“几笔”把一个人画出来,不管怎么美化或丑化,不管怎么极度夸张,就是画得很像,神似得很。为什么那么像?因为那“几笔”不是别的什么,就是拓扑学中的“特征不变量”,就是事物最本质的东西;画得“神似”,“神似”就是“特征不变量”这一信息内核的体现。再如,大家最常用的手机手写输入法,同一款手机,不同的人手写的字体千差万别,为何都能高效输入呢?这也是因为所安装的文字识别软件对每一个手写体文字的特征了如指掌。要做到这一点,手写体识别研究人员,就经历了从大量手写体开始进行分析(数据),找出每一个字的核心特征(信息),并依此特征对文字进行识别(知识)的研发过程。
1.2.1 信息处理的内涵
信息处理是运用科学合理的手段与方法对原始数据进行整理,或按照事先设计的信息提取标准来采集、存储与加工信息等技术活动。
1.信息采集
信息采集是指从各类信息载体中通过一定的方式与方法获得信息的过程,包含手工信息采集与自动信息采集。一般意义下,从文献中采集信息的过程叫文献检索,从各类仪器设备中获得一维、二维、三维信号的过程叫信号采集,从计算机的数据库中采集信息的过程称数据检索,这些均属于信息采集。本书第 2 章将会重点介绍网络文献检索的信息采集方式,其他章用例所涉及的数据与信息采集方法将不会述及。
2.信息存储
因为信息往往具有可重复利用性和历史参考价值,所以必须安全、准确、长期地保存信息,确保信息存储的连续性和安全性。信息存储技术、设备、容量、速度和安全管理相关软硬件的使用等,都是信息处理与分析必备的知识。本书默认读者已掌握文件、数据库、数据库管理、Office办公软件等部分知识,能保存开展实验的数据。
3.信息加工
信息加工是指将收集到的信息(称为原始信息)按照一定的程序和方法进行分类、分析、整理、编制等,使其具有可用性。加工是信息得以利用的关键。加工既是一种工作过程,又是一种创造性思维活动。对原始信息进行加工的目的是:将初始的、零散的、无序的、彼此独立的信息形式,变换成便于观察、传递、分析、利用的信息形式;对原始信息进行必要的筛选、过滤和分类,以去粗取精、去伪存真,使信息更具条理性和系统性;使信息能获得更高层次的综合与处理,能产生更有价值的认识。
信息加工内容如下。
分类:是指对凌乱无序的信息进行整理归并,使其有条不紊,各得其所。分类可以按时间、空间(地理)、事件、问题、目的和要求等标准来进行。
比较:是指对信息进行分析,从而鉴别和判断出信息的价值、时效性。
综合:是按一定的要求和程序对零散的数据资料进行综合性的处理。
表达:对加工过的信息整理成易于理解,易于阅读的形式,如文字、图表、音视频等。信息表达是理解信息的基本条件。如,在临床过程中收集了一批高血压病人的血压数据,这些数据是连续几个月每日 4 次测量血压得到的,通过这些数据来判断一种抗高血压药物是否有效。在对这些数据进行分析之前,通常会要求对病人治疗前及治疗后一个月及每两个月的数据进行计算,如给出血压平均值。这些计算后的数据若能大量地应用图表表达,并且以不同的方式从不同的角度制作图表,将大大提高对这些信息的认知。本书第3章介绍的MATLAB软件工具对此将有述及。
另外,为了使信息被加工后能被更大范围的人和机器识别与处理,往往还会对信息进行编码。信息编码实际上是赋予信息元素以代码的过程,用不同的代码与各种信息中的基本单位建立一一对应的关系。任务和目的不同,信息编码的方式也会不同,信息编码会涉及规范化、标准化等问题,本书第5章将会进行介绍。
1.2.2 信息分析的内涵
信息分析是指以用户的特定需求为依托,以定性和定量研究方法为手段,通过对信息的收集、整理、鉴别、评价、分析、综合等系列化加工过程,形成新的有价值的信息产品或认知的过程。主体任务是:从混沌的信息中萃取有用的信息;从表层信息中发现相关的隐蔽信息;从过去和现在的信息中推演出未来的信息;从部分信息中推知总体的信息,揭示相关信息的结构和变化规律。信息分析需要系统地采集与之相关的各种原生信息,进行定向的筛选和整序,通过逻辑思维过程对其内容进行去伪存真的鉴定、由表及里或由此及彼的推理,运用科学的理论和方法对原生信息进行分析处理和提炼,以得出有助于解决实际问题的知识,揭示研究对象的内在变化规律及其与之相关联对象的联系,满足研究需求。
信息分析方法是一个庞大的体系,对一个具体的信息分析课题而言,可采用的方法往往并非唯一,而是有多种现实的方案可供选择或组合,它与研究的具体情况相关。具体而言,信息分析方法包括定性和定量两种。定性分析方法包括对比与类比、分析推理和综合抽象。定量分析方法包括因果关系类(回归分析法、时间序列分析法)、趋势外推类(回归分析法、时间序列分析法)、变量变化类(主成分分析法、因子分析法、典型相关分析法)、定性—定量转化类(德尔菲法、层次分析法、交叉影响法)以及定量-定性转化类(聚类分析法、判别分析法)五种。
做好信息分析有两个前提条件:(1)充分了解特定研究对象的历史、现状,并预测其未来的发展趋势,经过分析鉴别、综合归纳、判断推理的研究加工过程,结合实际需要和工作深度,提出有依据、有分析、有评价、有预测性意见的信息分析结果,为决策等相关活动服务;(2)信息分析方法的选择与应用。在信息分析中,大量的原生信息被深加工成对科学决策相关智能活动有支撑作用的新信息,对方法的合理选择和应用是决定信息分析水平和效率以及信息分析质量和效益的重要因素。
1.2.3 信息论及相关常识
在现代科学背景下,信息分析与处理离不开信息论的理论指导。信息论是研究信息的产生、获取、变换、传输、存储、处理识别及利用的学科。一般认为,1948年香农发表的《通信的数学理论》一文标志着信息论的诞生。信息论有狭义和广义之分。狭义信息论即香农早期的研究成果,它以编码理论为中心,主要研究信息系统模型、信息的度量、信息容量、编码理论及噪声理论等。广义信息论又称信息科学,主要研究以计算机处理为中心的信息处理的基本理论,包括评议、文字的处理、图像识别、学习理论及其各种应用。信息论的研究与很多学科密切相关,例如,数学、物理学、控制论、计算机科学、逻辑学、心理学、语言学、生物学、仿生学、管理科学等。信息论在各个方面得到了广泛的应用。信息科学是在信息论的基础上发展起来的,包括系统论、控制论、信息论、耗散结构论、协同论、突变论、超循环论等学科。随着现代科学技术的发展,信息科学也在不断向纵深方向深化和发展。现代信息科学实际上是以信息作为研究核心的一系列主导学科与边缘学科群。信息科学是以信息作为主要研究对象,以信息的运动规律作为主要研究内容,以现代科学方法论作为主要研究方法,以扩展人的信息功能作为主要研究目标的一门科学。信息科学包括对信息的描述和测度、信息传递理论、信息再生理论、信息调节理论、信息组织理论、信息认识理论等内容。它研究信息提供、信息识别、信息变换、信息传递、信息存储、信息检索、信息处理、信息施效等一系列问题和过程。在信息处理与分析中,通常需要了解并考量以下知识。
1.信息量与熵
信息量是信息论中量度信息多少的一个物理量。它从量上反映具有确定概率的事件发生时所传递的信息。信息的量度与它所代表的事件的随机性或意外事件发生的概率有关,当事件发生的概率大,事先容易判断,有关此事件的消息排队事件发生的不确定程度小,则包含的信息量就小;反之则大。从这一点出发,信息论利用统计热力学中熵的概念,建立了对信息的度量方法。在统计热力学中,熵是系统的无序状态的度量,即系统的不确定性的度量。
熵和信息量是信息学中的一组重要概念,是描述信息处理和信息传递的重要指标。
信息熵是信息论中的一个基本量。例如,在试验甲和乙中,两种结果A和B出现的概率如表1-1所示。
表1-1 A和B出现的概率
那么,在试验之前,就试验甲而言,很难断定A和B中哪个将出现;但就试验乙而言,就很有把握地断定A将出现。由此可见,在不同的试验中,其不确定性是有大有小的,试验甲的不确定性就比试验乙的大。熵就是描写不确定性大小的量,熵越大不确定性就越大。一般来说,设在试验中有N个可能出现的结果,A(1)、A(2)、…A(N),假如它们出现的概率分别是P(1)、P(2)、…P(N),通常规定这个试验的熵为:
H=P(1)lgP(1)-P(2)lgP(2)…-P(N)lgP(N)
2.信息科学研究方法
信息科学的研究方法:信息科学研究有其独特的方法,这些方法包括信息分析综合法、行为功能模拟法和系统整体优化法。
(1)信息分析综合法。复杂系统、高级过程一般都具有极其复杂的成分、复杂的结构、复杂的联系和复杂的行为。从信息的观点出发,抓住事物的信息特征,分析事物间的相互联系,提示其本质规律,从而实现决策目标的完成。
(2)行为功能模拟法。是从行为的观点出发,以行为的相似性为基础,从功能上来模拟事物或系统对环境影响的反应方式,是信息分析综合法的一个重要发展和实用化。这一方法常常又称作“黑箱方法”。所谓“黑箱”,就是指那些既不能打开,又不能从外部直接观察其内部状态的系统,比如人们的大脑只能通过信息的输入/输出来确定其结构和参数。“黑箱方法”从综合的角度为人们提供了一条认识事物的重要途径,尤其对某些内部结构比较复杂的系统,对迄今为止人们的力量尚不能分解的系统,黑箱理论提供的研究方法是非常有效的。“黑箱”研究方法的出发点在于:自然界中没有孤立的事物,任何事物间都是相互联系,相互作用的,所以,即使我们不清楚“黑箱”的内部结构,仅注意到它对信息刺激作出的反应,注意到它的输入/输出关系,就可对它做出研究。如果我们能设计出一个系统,在同样的输入作用下,它的输出和所模拟对象的输出相同或相似,就可以确认实现了模拟的目标。在此,信息的输入,就是一个事物对黑箱施加影响;信息的输出,就是黑箱对其他事物的反作用。事实上人们在对信息进行分析和综合时,很少追求结构上的相似性,而总是把握信息的观点、行为功能的观点。
(3)系统整体优化法,即是从系统的观点出发,着重从整体与部分之间、整体与外部环境之间的相互联系中,综合地考察对象,从而得到全面地、最佳地解决问题的方法。实践证明,物质具有系统属性,科学研究的对象,都可以把它看成是一个由基本要素组成的动态系统。在这个系统内外,不仅存在着信息传递、交换,还有对信息的处理和控制。同行为功能模拟法一样,系统整体优化法也是信息分析综合法的一个重要的发展和实用化。
3.信息技术
计算机技术与现代通信技术一起构成了信息技术的核心内容。信息技术能够延长或扩展人的信息功能(包括传感技术,通信技术,计算机技术和缩微技术、多媒体技术等)。传感技术的任务是延长人的感觉器官收集信息的功能,通信技术的任务是延长人的神经系统传递信息的功能,计算机技术则是延长人的思维器官处理信息和决策的功能,缩微技术是延长人的记忆器官存储信息的功能。当然,这种划分只是相对的、大致的,没有截然的界限。如传感系统里也有信息的处理和收集,而计算机系统里既有信息传递,也有信息收集的问题。目前,传感技术已经发展了一大批敏感元件,除了普通的照相机能够收集可见光波的信息、微音器能够收集声波信息之外,现在已经有了红外、紫外等光波波段的敏感元件,帮助人们提取那些人眼所见不到的重要信息。还有超声和次声传感器,可以帮助人们获得那些人耳听不到的信息。不仅如此,人们还制造了各种嗅敏、味敏、光敏、热敏、磁敏、湿敏以及一些综合敏感元件。这样,还可以把那些人类感觉器官收集不到的各种有用信息提取出来,从而延长和扩展人类收集信息的功能。