1.3 数据分析:铅华褪尽留本色,大浪淘沙始见金
数据分析是一类统计方法,主要特点是具有多维性和描述性。有些几何方法有助于揭示不同数据之间存在的关系,统计信息图,能够简洁地解释这些数据中包含的主要信息。其他几何方法可用于收集数据,以便清楚地区分出同质数据,从而更好地了解数据。因此,数据分析的主要目的是,把隐藏在大数据集合里看似杂乱无章的信息提炼出来,并尝试总结其内在规律,可谓是“铅华褪尽留本色,大浪淘沙始见金”。
数据分析可以处理大量数据,并确定这些数据最有用的部分。该方法近年来获得的成功,很大程度上是因为制图技术的提高。这些图可以通过对数据直接分析来突出数据难以捕捉的关系;更重要的是,这些表达方法与基于现象分布的“先验”观念无关,且与经典统计方法正好相反。
在大数据时代,面对大数量级的数据集合,基于人工操作的数据分析往往是难以实现的,因此,目前的数据分析技术还需要借助人工智能的相关技术算法来更好更快地完成对数据的筛查和分析操作。
人工智能的研究工作具有高度的技术性和专业性,各分支领域都是深入且互不相通的,因此涉及范围极广。人工智能的研究工作可以细分为若干个技术问题,其分支领域也主要集中在解决具体问题上,其中的问题之一是如何使用不同的工具完成特定的应用程序。针对数据分析而言,解决该问题主要是将相应的工具应用到人工智能的机器学习技术中。
机器学习是人工智能的一个分支。从严格意义上说,人工智能和机器学习并没有直接关系,只不过是机器学习的方法被大量应用于解决人工智能的问题而已。目前,机器学习既是人工智能的一种实现方式,也是人工智能最重要的实现方式。人工智能的研究历史有着一条从以“推理”为重点,到以“知识”为重点,再到以“学习”为重点的清晰的脉络。
经过40多年的发展,机器学习已经发展成为一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等内容。它主要用于设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法,涉及大量的统计学理论,与推断统计学的联系尤为密切。
机器学习按照学习形式可分为如下三大类:监督学习、无监督学习、半监督学习。
1.3.1 监督学习
监督学习是指在机器学习的过程中做出对错指示,广泛应用于预测和分类中。在监督学习中,函数关系式可以通过被训练的数据集总结出来,利用这个函数关系式可对新的数据进行预测并得到结果。
在监督学习中,首先需要输入训练集,然后人工标注训练集中的目标,最后才能得到输出结果。常见的监督学习算法有统计分类算法和回归分析算法,包括K-近邻算法、决策树、朴素贝叶斯、逻辑回归等。
1.3.2 无监督学习
无监督学习又称为归纳性学习,是一种通过循环和递减运算来减小误差,从而实现分类的算法。目前,常用的无监督学习算法有K-means算法、高斯混合模型、ISOmap算法等。
区分监督学习和无监督学习的方法很简单,就看学习过程是否有监督,输入数据是否有标签,若输入数据有标签,则为有监督学习,若输入数据无标签,则为无监督学习。
例如,某人小时候第一次见到狗这种动物时,有人告诉他这个样子的动物是狗,他就学会了辨别狗这种动物,这就是监督学习的方式,如图1-11所示。
图1-11 监督学习示意图
若某人小时候见到了狗和猫两种动物,但是没人告诉他哪个是狗,哪个是猫,而他根据它们的样子、体型等特征的不同,鉴别出这是两种不同的生物,并对其特征进行归类,这就是无监督学习的方式,如图1-12所示。
图1-12 无监督学习示意图
下面分别归纳监督学习和无监督学习的特点,具体如图1-13所示。
图1-13 监督学习和无监督学习特点归纳示意图
无监督学习的智能性最高但发展比较缓慢,不是目前研究的主流;监督学习主要是由已知推断未知,风险较大,有时结果不准确;因此人们对前两者进行充分研究后生成了一种更好的方法,即半监督学习方法,这种学习方法已经引起了人们极大的兴趣和关注。
1.3.3 半监督学习
监督学习的对象是已标识的数据,无监督学习的对象是未标识的数据。在大数据时代,已标识数据的数量总是远远小于未标识数据的数量,因此要想利用好这些未标识的数据,就应该采用半监督学习法。半监督学习用于研究如何综合利用大量未标识数据和少量已标识数据来获得具有良好性能和泛化能力的机器学习方法。半监督学习包括基于生成式模型的半监督学习、基于低密度划分的半监督学习、基于图的半监督学习以及基于不一致性的半监督学习。
如果依然以前文分辨动物的例子为例,那么半监督学习的学习方法则如图1-14所示。
图1-14 半监督学习示意图
目前,常用的半监督学习模型算法有自训练算法、生成模型算法、半监督支持向量机算法、图论方法、多视角算法等。