数据安全实践指南
上QQ阅读APP看书,第一时间看更新

1.4 数据关联:世事洞明皆学问,人情练达即文章

数据分析是对数据表明的关系进行分析,或者说是对数据价值的直接获取;而数据关联则是对数据内涵价值的获取,也可以通俗地理解为是对数据分析的深化。

数据分析与数据关联并不是相互独立的。数据分析通常是借助数据采集直接从数据源中取出已有信息,并进行统计、可视化、得出文字结论等操作,最后可能会生成一份类似于研究报告的文档,可以此来辅助决策。但在大多数情况下,这种分析往往浮于表层,需要更进一步地分析这些已有信息背后隐藏的信息,而这些信息通过观察往往是看不到的,这时数据关联便应运而生。

数据关联是一种简单实用的分析技术,是指发现存在于大量数据集中的关联性或相关性,从而描述一个事物中某些属性同时岀现的规律和模式。

数据关联可用于从大量数据中发现事物、特征或数据之间频繁出现的相互依赖关系和关联关系。这些关联并不都是事先已知的,有些是通过数据集中数据的关联分析获得的。

通过对数据集进行关联分析,我们可以得出形如“由于某些事件的发生而引起另外一些事件的发生”之类的规则,可谓是“世事洞明皆学问,人情练达即文章”。

数据关联对商业决策具有重要的价值,常用于实体商店或电商的跨品类推荐、购物车联合营销、货架布局陈列、联合促销、市场营销等,以实现关联商品销量的同步提升、改善用户体验、减少上货员与用户的投入时间、寻找高潜用户的目的。

关联分析的一个典型例子是购物篮分析,如表1-1所示,TID代表交易号,Items代表一次交易的商品。

表1-1 购物篮分析

0

从表1-1中我们可以看到,“啤酒”和“尿布”有着很强的关联性。对于数据集中频繁出现的形如“啤酒—尿布”这样的模式,我们称为频繁模式。根据该频繁模式,我们可以提取出“{尿布}→{啤酒}”的规则。至于为什么会有这样的规则,后来经过调查发现,是因为有许多男性在给孩子买尿布的同时会为自己捎带买上啤酒,所以就会出现买尿布的顾客往往也会购买啤酒的现象,这就是著名的“啤酒和尿布”的故事。对于销售商来说,这样的发现可以帮助他们发现新的关联销售商机。

关联分析常用的一些基本概念如表1-2所示。

表1-2 关联分析常用的概念

0

目前,常用的数据关联规则算法有Apriori算法、FP-tree算法等。

通过发现顾客放入其购物篮中的不同商品之间的联系,商家可以分析出顾客的购买习惯;通过了解哪些商品会频繁地被顾客同时购买,零售商可以制定营销策略。其他的应用还包括价目表设计、商品促销、商品的陈列和基于购买模式的顾客划分等。例如,洗发水与护发素的套装,牛奶与面包间临摆放,购买该产品的用户又买了某些其他商品等。

除了上面提到的在商品之间存在关联现象之外,在医学和金融领域也存在关联现象,比如,医学研究人员也希望能够从已有的成千上万份病历中找到患某种疾病的病人的共同特征,从而找到更好的预防措施;通过对用户银行信用卡账单进行分析,金融人员也可以了解用户的消费方式,这将有助于对相应的商品进行市场推广。关联分析的数据挖掘方法涉及人们生活的很多方面,为企业的生产、营销及人们的生活提供了极大的帮助。