第二节 研究方法
通过文献分析与实地调研,建立基础数据库,借助季节性强度指数、地理集中度指数、重心模型、ArcGIS、回归分析、格兰杰因果关系检验、社会网络分析法、内容分析等方法,采用文献分析与实地调查结合、定性研究与定量研究结合、归纳与演绎结合的基本思路,分析旅游地网络关注度时空分布特征及其与客流量相互关系。
一 季节性强度指数
季节性强度指数是反映旅游需求时间分布集中性的一个指标,也可用于网络关注度年内时间分布集中性的分析,计算公式如式(2-1)所示。
式(2-1)中,R为旅游需求季节性强度指数或为整体(PC/移动)网络关注度的季节性强度指数,xi为各月旅游需求或整体(PC/移动)网络关注度量占全年的比重。R值越接近零,旅游需求或整体(PC/移动)网络关注度年内各月分布越均匀;R值越大,旅游需求或整体(PC/移动)网络关注度年内季节差异越大。
二 地理集中度指数
地理集中度指数主要用来考察旅游需求或网络关注度空间地域分布的集中性,计算公式如式(2-2)所示。
式(2-2)中,G为旅游需求或整体(PC/移动)网络关注度的地理集中指数,xi为i景区、城市、省(市、区)的旅游需求或整体(PC/移动)网络关注度数量,T为旅游需求或整体(PC/移动)网络关注度总量,n为景区、城市、省(市、区)总数。G值越小,则旅游需求或整体(PC/移动)网络关注度越分散。
三 重心模型
重心模型经常用于描述某指标的时空变化过程。本书主要将其用于分析景区(酒店)旅游需求或整体(PC/移动)网络关注度地域结构的季节变化,计算公式如式(2-3)所示。
式(2-3)中,、为某时段内景区(酒店)旅游需求或整体(PC/移动)网络关注度重心的经度值和纬度值,xi、yi为i景区(酒店)、城市、省(市、区)经度值和纬度值,若研究对象为省(区)则以各省(区)省会城市的经纬度为基准,Qi该时段内i景区(酒店)、城市、省(市、区)的旅游需求或整体(PC/移动)网络关注度量。
四 偏差系数
在分析PC与移动网络关注度空间分布差异时,由于两者规模大小不一,不能直接进行对比分析,需要对两者进行标准化处理,方法如式(2-4)所示。
式(2-4)中,PI(YI)为I省(市、区)PC(移动)网络关注度标准化值,pI(yI)为I省(市、区)PC(移动)网络关注度值,为31个省(市、区)PC(移动)网络关注度平均值。在此基础上,将两者进行比较,分析两者空间分布的异同,公式如式(2-5)所示。
式(2-5)中,α为偏差指数,本书规定α=1时,该省(市、区)PC和移动网络关注度规模无偏差;0.9≤α≤1.1时,该省(市、区)PC和移动网络关注度规模偏差小;α>1.1或α<0.9时,该省(市、区)PC和移动网络关注度规模分布偏差大;且α值偏离1越远说明PC和移动网络关注度规模分布差异越大。
五 格兰杰因果关系检验
格兰杰因果关系检验,是经济学中分析两个经济变量之间有无因果关系的一种重要方法。它检验的是时间序列在一定滞后期上是否存在因果关系。主要检测现在的Y在多大程度上被过去的X解释,如果X在Y的预测上有帮助,或者X与Y的相关系数在统计上显著时,可以解释为“Y是由X的格兰杰引起的”。进行格兰杰因果关系检验的一个前提条件是时间序列必须具有平稳性,否则可能会出现虚假回归的问题。因此,在进行格兰杰因果关系检验之前,首先应对各指标时间序列的平稳性进行单位根检验(unit root test)。常用增广的迪基—富勒检验(ADF检验)来分别对各指标序列的平稳性进行单位根检验。书中主要将其用于分析游客网络关注度与客流量之间的互动关系。
六 社会网络分析法
(一)方法概述
网络是用来分析一个社会群体中主体及主体之间关系的集合,用多个点、线段表示主体之间的关联关系。社会网络分析法是从关系的角度研究社会群体现象和社会结构。其中,社会结构除了行为、政治结构之外,还包括经济结构。因此,社会网络分析法在多个学科中都有所应用。根据网络类型的分类,可以将社会网络研究分为个体网、局域网、整体网三个层次。个体网研究的是与中心节点直接相连的所有节点构成的网络。局域网是指个体网加上与个体网的网络成员有关联的其他非个体网节点一起构成的网络,按相连步数可分为2—步局域网、3—步局域网等。整体网指的是组织中所有成员之间关系所构成的网络。整体网研究内容包括成员构成、网络规模(成员数量),规模越大、结构越复杂,分派现象越普遍。成员间距离就是图论中的相连距离,可以通过距离矩阵测算。除了简单地描述整体网特征之外,还可以深层次地研究整体网的横向构成,加强对整体网络结构的认识。
(二)关联性分析
测量有向网络关联度常用的指标有关联度、网络等级度、网络效率、网络密度等。
1.关联度(Correlation)
关联度表示的是网络中各成员之间关联可达程度。任意成员之间至少存在一条直接、间接关联,证明该网络具有关联性。可达关联线段越多,关联度越大,网络自身越稳健,取值范围在[0,1]。在一个有向网络图中,任何两点之间都可以建立联系,称为关联图,关联图的关联度为1。网络中,点总数为N,不可达的点对数为V,则关联度C的计算公式如式(2-6)所示。
2.网络等级度(Hierarchy)
网络等级度表示的是网络中各成员之间的非对称性程度,反映网络中各点的支配地位,H取值范围[0,1]。对称可达指的是有向网络中直接、间接可达,可基于有向矩阵、可达距离矩阵、二值化可达矩阵计算。R为网络中对称可达的点对数,max(R)为最大可能的对称可达点对数,则等级度H的计算公式如式(2-7)所示。
3.网络效率(Efficiency)
网络效率表示在网络确定的前提下,存在的多余关联线段的比例。网络效率低,意味着网络拥有较多的溢出线路,多余线路效率较大,多余线路接近最大可能多余线路,网络结构较为稳健,网络效率取值范围为[0,1]。M为网络中多余的线,max(M)为最大可能多余的线条数,则网络效率E的计算公式如式(2-8)所示。
4.网络密度(Density)
网络密度表示的是网络中各成员之间关联紧密程度,即实际关联数与理论最大可能关联数的比值。整体网网络密度越大,网络联系越紧密,网络对其中行动者的影响越大。当整体网是有向关系网时,有N个成员,理论最大可能关系数为N(N-1),实际关联数为M,则网络密度D的计算公式如式(2-9)所示。
(三)中心性分析
中心性研究是为了认知网络中某一成员对其他成员的控制能力。个体在网络中处于什么样的地位,对应相应的权利。个体网的网络中心性用中心度表示,整体网网络中心性用中心势表示。具体包括度数、中间、接近中心性三种类型。当图的规模(成员数量)不同时,各中心性指标不能直接比较,需要进行标准化处理。首先计算各个点的“绝对中心性”指标,即点的绝对中心度与网络中最大可能的中心性指标,二者再进行比较,标准化处理为“相对中心性”指标。
1.度数中心性
(1)度数中心度(又称局部中心度)
度数中心度用于测算直接相连的点数,而非间接相连的点数。有多个点与中心节点直接相连,则该中心节点具有较高的度数中心度。度数中心度测算的是直接相连的点,所以又称为“局部中心度”。标准化处理为相对度数中心度,取值范围[0,1]。CAD(Ni)为点Ni的绝对度数中心度,成员为n的网络中,任何点的最大可能的度数为n-1,故点的相对度数中心度CRD(Ni)的计算公式如式(2-10)所示。
(2)度数中心势
度数中心势用于测算整个网络的度数中心度差异。差异越大,中心势越大;反之,中心势越小。度数中心势的计算,首先找到图中最大中心度的值,并计算与其他点的中心度的差值,对这些差值求和,与理论上的各个差值总和的最大可能值相比,此处使用相对度数中心势。特别是,在规模数为n的完备网络中,任何点的度数等于n-1,则该网络的度数中心势为0。具体计算公式如式(2-11)所示。
2.中间中心性
(1)中间中心度
中间中心度用于测量中心节点多大程度上处于其他点对的捷径上。一个点位于图中其他点的中间的概率,即在两点的所有关联中,含有点i的捷径数量,与这两点捷径总数之比值,为中间中心度。若点的中间中心度为1,中心节点越处于网络的中心,则中介作用越强,拥有很大的权力,可以100%控制其他点;点的中间中心度为0,说明该点处于网络的边缘,对网络中其他成员不具备控制能力。CABi为绝对中心度,标准化的相对中间中心度,其中,bjk(i)表示为i处于点j与k之间的概率,j≠k≠I,并且j<k,取值范围[0,1],具体计算公式如式(2-12)所示。
(2)中间中心势
中间中心势的构造原理与度数中心势相同,此处不再赘述。中间中心势是用来刻画整个网络的中间中心度差异的指数,取值范围为[0,1],星形网络为1,环形网络为0,计算公式如式(2-13)所示。
3.接近中心性
(1)接近中心度(整体中心度)
接近中心度测量的是中心节点与其他点的最短间接关系之和,如果中心节点与其他点捷径距离都很短,该点表现出较高的接近中心度。但在图中,这样的点与许多其他点都“接近”。为了便于比较,标准化处理成相对接近中心度,接近中心度值越小,中心节点与其他点捷径距离越远,说明该点越不是网络的核心,对其他点的控制能力越弱。其中,dij是点i和j之间的捷径距离。计算公式如式(2-14)所示。
(2)接近中心势
接近中心势的构造原理同上,它是用来刻画整个网络的接近中心度差异的指数,取值范围为[0,1]。星形网络为1,完备网络、环形网络为0。计算公式如式(2-15)所示。
(四)块模型分析
块模型关注的是整体网络结构中小群体关系。根据接收、发送关系将行动者分为四类:孤立点、发送点、接收点、传递点。波特针对接收关系以及发送关系将成员区分为两类位置,即研究所关心的溢出与受溢位置。根据位置的成员针对自己位置成员发送关系数是否占总关系的一半,结合位置是否接收、发送关系以及位置内部关系紧密程度,区分为四类关系。孤立位置,位置内成员与其他位置没有任何关系,又称主受溢板块。谄媚位置,位置内成员发送关系多于接收关系,并且与其他位置成员发生的关系数,比位置内部成员关系更多,对内溢出没有对外溢出多,内部呈现向外溢出的能力,属主溢出板块。交互位置,位置发送关系、接收关系要多于位置内部关系数,内部关系并不紧密,因其接收关系也是发送关系,故又称经纪人板块。首属位置,位置内成员主要接收外部位置的关系,同时位置内部关系紧密,为双向受溢板块。
参考瓦瑟曼的计量方法,期望关系为最大限度关联,即模块中的关系数与板块在总体网络中最大可能存在的关系数比值。假设板块A有gk个成员,则板块中最大可能关系数为gk(gk-1),整体网络共有g个行动者,因此,板块A成员在整体网络中最大可能的关系数为gk(g-1),化简后为(gk-1)/(g-1)。位置内部实际的关系比例为板块Bk实际发生的关系数与板块Bk实际主动发生关系数的比值。当内部实际存在的关系数要大于期望值时,说明内部关系较多,板块较为活跃,板块整体结构较为稳定,主要考察的是板块内部在整体网络中的受溢程度。同时,观察板块与其他板块之间的关系时,主要考虑板块与外部的关系是溢出还是受溢,接收到的关系数较少,比例趋近0时,代表板块溢出作用大于受溢作用,有双向溢出板块、主溢出板块两种。反之,接收外部关系较多,受溢作用大于溢出作用,板块表现为整体受溢,为主受溢板块、经纪人板块两种,具体如表2-1所示。
表2-1 块模型位置分类
七 旅游流集聚指数
旅游流集聚指数是指一定区域内旅游目的地对所有客源地旅游流的集聚强度,计算公式如式(2-16)所示。
式(2-16)中,Xji是由j市(州)居民搜索i市(州)景区的网络关注度,即由j市(州)向i市(州)集聚的游客数量。Xi为其他市(州)向i市(州)集聚的总网络关注度,即i市(州)接待的游客总量。n为i市(州)接收游客集聚的市(州)数量。Ggi越大,说明旅游流向i市(州)集聚的区域越集中,不利于i市(州)旅游客源的均衡发展;Ggi越小,表明旅游流向i市(州)集聚的市(州)就越分散,利于i市(州)旅游客源的均衡发展。
八 旅游流扩散指数
旅游流扩散指数是指一定区域内旅游客源地对所有目的地旅游流的扩散强度,计算公式如式(2-17)所示。
式(2-17)中,Xij是由i市(州)搜索j市(州)景区的网络关注度,即由i市(州)向j市(州)扩散的游客数量。Xi为i市(州)向其他市(州)扩散的总网络关注度,即i市(州)扩散的游客总量。n为接收i市(州)游客扩散的市(州)数量。Gdi越大,说明i市(州)旅游流扩散的区域越集中,不利于i市(州)旅游目的地的均衡发展;Gdi越小,表明i市(州)旅游流扩散的区域就越分散化,利于i市(州)旅游目的地的均衡发展。
九 旅游需求偏好系数
国内外关于旅游偏好的定量分析方法有多种,其中,孙根年(2001)提出的旅游偏好系数简单易行,能较为直观地反映游客对某景区的偏好程度,本书借鉴该方法分析居民对旅游景区的旅游需求偏好,计算公式如式(2-18)所示。
式(2-18)中,βj是某地居民对于j景区的偏好系数,Χj是某地居民对于j景区的旅游需求(网络关注度),为某地居民对所有景区旅游需求(网络关注度)的总值。βj值在0—1,值越大说明对某景区的需求偏好越强。
十 内容分析法
(一)内容分析法概述
第二次世界大战期间,内容分析成为一种正式的研究方法,历经多年的发展演化,产生了不同的定义和理解。国外,Berelson(1952)、Kirppendofr(1980)对内容分析法的概念界定比较权威。前者认为“内容分析法是客观、系统并量化地描述显性传播内容的一种研究方法。”该概念被引用最多,强调了“客观”“系统”,并认为内容分析法是描述“显性”内容的,而且是一个“量化”的过程。后者则认为“内容分析是一种从文本(或者其他意义体)到它们使用环境进行可重复、有效推论的研究方法。”该概念强调了“可重复”“有效”,内容分析法应当兼具内在和外在的效度,结论具有可推广性。朱峰(2006)认为,内容分析法是一种将不系统的、定性的、符号性的内容,如文字、图像等转化成系统的、定量的数据资料的研究方法,该概念强调了研究数据在分析前和分析后的属性,由“不系统”到“系统”,由“定性”到“定量”。范向丽(2010)认为,内容分析法不仅能厘清或归纳文献中本质性的事实与规律,还可以对文献所含有的隐性信息内容进行揭示,预测事物发展趋势。尽管不同学者的定义不尽相同,但大部分学者基本认同内容分析法具有“客观性”,是一个“系统化”的过程,是一种“定性和定量相结合”的研究方法。综合以上观点,本书将内容分析法定义为一种将杂乱无序的资料内容进行客观描述、系统化并将其量化的一种研究方法,将资料内容由表征含义演化成为准确意义的过程,是一个层层递进的过程。
内容分析法的主要特点:一是客观性,内容分析法的研究对象不是有意识、思想的人,研究资料一般是客观的传播资料,不受主观影响。二是可重复性,一般认为,在内容分析法中评判标准、类目、分析元素确定之后,其他过程都认定为客观、可重复。三是定性与定量相结合,内容分析法是将定性的传播内容描述量化的过程,并运用统计方法进行分析。同时,内容分析法存在以下缺点:一是一般只适用于明确、显性的内容分析,而对隐含的意识/价值等信息不易识别,但是,实际执行过程中隐性内容可以显性化,但必须操作定义。二是过程烦琐,因为涉及大量的定性内容,使编码过程十分复杂。三是容易出现误差,特别是人工编码,容易出现编码的主观错误。
(二)内容分析法分析过程
如表2-2所示,李本乾(2000)、黄静(2005)、卢小丽(2006)、张安民(2008)、范向丽(2010)、孙小培(2011)、朱明芳(2015)等学者基于不同角度/研究对象采用了略有差异的内容分析流程。产生差异的原因可能是隐含了一些步骤没有完整列出,但实际有实施,其基本流程大同小异。内容分析法的基本流程如图2-1所示,主要步骤是确定分析目标和范围、抽样、收集数据、确定分析要素、建立分析类目、编码计划、统计数据、分析汇总。
表2-2 内容分析法基本流程
续表
图2-1 基于不同角度/研究对象的内容分析法步骤
本书根据内容分析法的基本流程,参考前人的相关做法,结合游客旅游信息需求这个研究对象,充分考虑研究资料提问文本的特殊性,采用样本选择及抽样、类目构建、样本整理和分解、编码、信度分析、统计数据、汇总分析共7个步骤,具体如图2-2所示。
图2-2 基于游客提问文本的内容分析流程
(三)主要工具
1.八爪鱼数据采集软件
八爪鱼数据采集软件在本书中的主要功能是提取网页中的提问文本。八爪鱼数据采集软件是由深圳视界信息技术有限公司研发的一款业界领先的网页数据采集软件,通过配置数据采集规则可以实现单网页数据采集、列表或表格数据采集、列表及详情数据采集、URL列表数据采集。具有使用简单、程序自动化等特点。携程网和马蜂窝问答模块中提问文本罗列结构相似,是重复的列表及详情数据。在本书中,需要采集的是问答列表中的提问标题及提问内容,即提问文本,工作流程如图2-3所示。
图2-3 八爪鱼数据采集过程
本书使用八爪鱼数据采集软件进行网页数据采集。首先打开数据所在页面,确定页面中所需要提取的数据,在软件中打开需要采集数据的网页,然后根据该软件规则编写的程序化流程编写数据采集规则,最后运行该规则即可获得网页可以显示的所有与主题相关的提问文本,导出即可。该软件可以自动识别重复的提问文本,不导出重复的提问文本。
2.词频统计工具ROSTCM6
ROSTCM6,是一款由武汉大学沈阳教授带领的“ROST虚拟学习团队”研发编码的国内用以辅助人文社会科学研究的大型免费社会计算平台。该软件集多功能于一体,具有微博分析、全网分析、聊天分析等功能模块,以及中文分词、词频统计、英文词频统计、社会网络与语义网络分析等功能性分析。具有界面简洁、操作简便、可行性高,一般人员即可以操作的特点。本书利用该软件进行特征词词频分析,其工作基本流程如图2-4所示。
图2-4 词频统计过程