导语
本文以人脉圈层研究为例,将抽样调查得到的扎根真相与在中国广泛使用的一款社交软件A的大数据结合,建立人脉圈分类模型。在理论、数据挖掘、回归模型和分类预测模型及其解释工具的对话中,通过一次次抽样取得扎根真相,进行一轮轮的模型校准,发展出越来越精准的预测模型。本案例展示的大数据与结构化数据整合的研究范式是社会科学理论导引下的大数据研究方法论的实践。罗家德、高馨、周涛等
作者
社会学研究杂志
来源
一、大数据与结构化数据结合的研究范式实证研究
(一)社会计算学方法论
从理论视角出发,将传统问卷调查的结构化数据与大数据相结合的研究范式,不仅可以验证和修正理论,还可以筛选和计算出有意义的大数据指标,并形成具有推论性的预测模型。
与抽样调查所得到的结构化数据不同,大数据指的是基于网络、社交媒体、传感器、电子化文本资料等产生的电子印迹数据,具有量大、即时快速产生、类型多样以及价值密度低的特点(Bloemetal.,),其数据类型包括结构化、半结构化和非结构化数据,并且非结构化数据占据的比重越来越大。从网络上的集体活动、社交媒体、即时通讯到在线交易、政府情报和数字化图书馆,越来越多的社会生活留在电子文本中(EvansAceves,),但这些实时产生的大数据90%以上为噪声数据,大量数据的快速产生对于存储和运算都是挑战(SagirogluSinanc,)。要在如此大量的非结构化数据中获取有价值的信息,不仅需要采用高效的并行分布式处理技术,还增加了应用自然语言处理、影像处理、社会网分析和机器学习等工具来进行分析的需求,通过搜索、过滤、计算,最终将无结构化的数据处理为有价值的信息。值得注意的是,除了需要算法层面和技术层面的支持,理论和行业知识同样需要发挥重要作用。因此,社会计算学(social