大数据语境下民意研究的路径与趋势

时间：2023-02-28 百科知识版权反馈

【摘要】：沈　菲　王天娇导　读大数据对民意研究具有重要影响，一定程度上冲击了传统民意调查方法。那么，大数据语境下，应该如何研究民意？《文学文摘》用这种方法多次成功预测了美国总统竞选结果，确立了邮寄回收问卷方法在民意研究中的地位。然而，盲目追求大样本的民意调研在1936年被证实存在严重缺陷。除了应答率的快速下滑直接威胁到调查数据的质量，电话调查的数据收集成本也十分高昂。

大数据语境下民意研究的路径与趋势_新媒体与舆论：十二个关键问题

沈　菲　王天娇

导　读

大数据对民意研究具有重要影响，一定程度上冲击了传统民意调查方法。那么，大数据语境下，应该如何研究民意？传统调查方法是否失去了自身优势？作为方法的大数据对民意研究又具有怎样的启示？

传统民意研究方法主要是基于问卷和抽样来进行调查，其经历了早期入户调查和邮寄问卷、电话调查、依托计算机的民调系统等发展阶段。但是这些调查也存在一定的问题，如样本代表性问题，这主要是由于传统问卷调查中的抽样思维导致调查者常用少量样本推测总体情况。

而在大数据语境下，理论上可以拿到总体数据，一定程度上对传统问卷调查方法构成了威胁。现实中，大数据本身是“不完整的”，当然可以利用社会网络数据以及群体趋同性，基于已知“数据”预测未知态度和行为。但这并不等于说，传统问卷调查方法已经或能够被大数据方法所取代。因为与传统调查类似，大数据方法也存在代表性问题，虽然这些问题可以利用相关技术手段进行处理，但当我们所分析的数据大量来源于网络上的“信息痕迹”时，更需要重视数据对概念的代表程度，比如:网上抓取的数据是网络民意吗？是民意吗？可以代表现实民意吗？甚至是真实民意吗？

作为方法的大数据，引发了我们对如何获取真实民意的思考。传统问卷调查数据与大数据并非纯粹的竞争关系，在研究中要发挥各自优势，并结合其他分析手段，以求尽可能获取更为真实的民意。但超越方法论层面，大数据方法的引入使我们重新反思以往对民意、舆论等的认识，并以量化的思维体察这一概念的复杂内涵。

一、传统语境下的民意研究

现代意义上的民意调查，普遍认为可追溯到美国总统竞选期间的“草根调查”（straw poll）^[1]。早期美国的政党政治孕育了各党派内部在总统选举前的投票意愿清点。但各自党内的票数清点，无助于了解对手的民意支持情况，这就为媒体作为第三方机构介入民调领域提供了契机。1824年，特拉华州当地的两家报纸在威尔明顿市展开了总统候选人的喜爱度调查。^[2]此次调查的效果虽然并不理想，但它开启了美国报业收集民意、预测选举的时代。在此后的一个多世纪里，美国出现了大量调研机构，包括报纸、杂志等媒体，一起参与到政治态度、选民倾向的调查中来。^[3]

最广为人知的民意调查或许要数19世纪二三十年代《文学文摘》对美国大选的一系列预测。当时，该杂志秉承“样本量越大，调查结果越准确”^[4]的思路，按汽车牌照和固定电话记录中的邮寄地址，给上百万人邮寄并回收了“模拟选票”。《文学文摘》用这种方法多次成功预测了美国总统竞选结果，确立了邮寄回收问卷方法在民意研究中的地位。然而，盲目追求大样本的民意调研在1936年被证实存在严重缺陷。1935年，盖洛普博士成立了美国民意研究所（即盖洛普民调公司的前身），并誓言该所的民意调查不接受任何利益集团的赞助。1936年，《文学文摘》杂志用200万张模拟选票预测兰登当选总统。盖洛普则利用配额抽样法，仅从全国抽取了1，000个样本，就成功预测了罗斯福当选^[5]。《文学文摘》随后停刊，而现代民调渐渐引入抽样、统计推断等概念，进入了使用小规模科学抽样代表性数据的时代。

在过去的大半个世纪，基于问卷和抽样的民意调研方法随着技术的发展日趋便捷与多元。从早期入户面访和邮寄问卷，到20世纪70年代中期随美国家庭电话拥有量激增而产生的电话调查^[6]，再到计算机技术带来的各种民调系统，包括计算机辅助电话访问系统（CATI）、计算机辅助面访系统（CAPI）、计算机辅助自主访问（CASI）、计算机辅助网络调查系统（CAWI）等。

问卷电话调查法对量化社会科学研究做出了巨大贡献，不过这种数据收集方式正在受到多方面的挑战。根据美国皮尤研究中心的估计，电话调查的接触率（CON2），从1997年的90%下降到2012年的62%，合作率（COOP3）从42%下降到14%，而应答率（RR3）则从36%下降到9%^[7]。除了应答率的快速下滑直接威胁到调查数据的质量，电话调查的数据收集成本也十分高昂。有研究指出，从2000年到2004年，在爱尔兰进行电话调查一个有效样本的成本已从4.48欧元飙升到了15.65欧元。^[8]

互联网问卷调查的出现，给传统民调带来了新的生机。网络问卷调研成本低、回收快、资料汇总过程中不易出现人工误差。特别是在敏感问题的数据收集上，网络调研更具优势。克鲁托（Kreuter）等人^[9]发现，相较于电话调查，人们更愿意在填答网络问卷时回答令人尴尬的问题，也更易于承认自己做过的社会不良行为（socially undesirable behavior）。网络调研平台还能嵌入多媒体资料，以及利用后台数据库收集填答问卷的行为数据。这些功能不仅有助于鉴别问卷填答的质量，也可以直接服务于特定的研究主题。例如，格瑞特（Garrett）和斯特劳德（Stroud）^[10]利用网络实验，复现了网民在网络新闻接触过程中的主动选择行为——通过操纵人们“遇到”的新闻内容，更清楚地了解了选择性接触行为及其背后的动机。

网络调查虽然高效，但在样本和成本两方面也有其局限性。首先，大量网络调研使用的是方便样本，即在各种网络空间张贴问卷链接，等待感兴趣及有时间的网民点击填答。如此样本便未必符合目标人群的人口统计特征，且样本框的缺失也使得应答率无从计算。^[11]更严谨的做法可以是雇用专业网络调研网站的样本库（如问卷星、Survey Monkey、SSI等），“配制”出符合特定人口统计特征的样本（如性别比例、年龄分布、收入结构等）。但由于此类服务的价格往往随配制条件的增加和样本量的扩大而提高，因此要得到高质量的网络调研样本，成本依旧不菲。^[12]

随着计算机硬件技术的发展，存储、传输、处理数据的能力和速度与日俱增。^[13]今天的数据生产速度已经远远超过了人类历史上的任何时期。截至2012年，全球每天生产的数据量达2.5亿字节，且人类90%的数据是在2010—2012的两年间产生的。^[14]有分析指出，海量数据中约25%是结构化的，剩下的75%是非结构化的文本、音频和视频。^[15]人类社会生活产生的海量数据是否在民意研究方面有其价值？答案是肯定的。传统的民意调研机构已经开始积极探讨和尝试使用互联网社交媒体来进行民意线索的收集^[16]；新兴科技企业则更走在创新的前沿，提出大数据环境下民意研究的新理念。云计算服务提供商、大数据技术的领军企业Cloudera，曾呼吁民意研究者“停止以提问方式获取信息，而着手分析公众在网上的表达和行为”^[17]。毫无疑问，大数据时代的到来重新构建了民意研究的思路、方法与手段。

二、“自然”数据和“被动”参与者

对大数据的定义，学界和业界一直争议不断^[18]。目前认可度较高的论述是源自“3V”理念的“4V”模型。微软、IBM和美国国家标准技术研究所目前均采用这一定义。^[19]早在2001年，道格·莱尼（Doug Laney）就以“3V”理念对大数据做了限定^[20]。“3V”指的是:海量（volume）、快速（velocity）和多样（variety）。其中，“海量”即数据的量级空前巨大；“快速”指的是数据产生的速度极快，这相应地要求收集和分析工作及时完成才能“抓住”源源不断产生的新数据；“多样”意即数据类型的多样化，这既包括传统研究中用到的结构化数据，也包括大量的半结构化数据（semi-structured data）和非结构化数据（unstructured data），如视频、音频、网络文本等。^[21]

2001年之后的10年间，“3V”一直是微软、IBM等公司沿用的大数据定义。直到2011年，国际数据资讯公司（IDC）在“3V”的基础上提出了第四个V，即“价值”（value）。“价值”强调的是通过快速抓取技术和分析技术，高效地从海量数据中提取有价值的信息。正如脸书的副总工程师杰·帕瑞克（Jay Parikh）所言，能否提取到有价值的信息，也成为区别“大数据”（big data）和“一大堆数据”（a bunch of data）的主要依据。^[22]

无论是“3V”还是“4V”，都是自然科学和工程学界的定义视角。对社会科学研究者而言，大数据具有两个极其重要却常被忽视的特性。第一，大数据通常是二手数据，数据挖掘者一般不参与数据的生产和设计。肖恩·泰勒（Sean Taylor）^[23]从概念上区分“找到的”数据和“制造的”数据之间的区别，并指出，大数据的产生不是以研究和数据挖掘为目的，而是用户的行为、表达被研究者“找到”后形成的数据。第二，大数据研究的数据生产者是“被动”的研究参与者，这与传统调研方式中，参与者有意识地参与特定研究的调研模式不同。对民意研究而言，被动式的数据采集方式（如内容分析与历史文献分析）并非在大数据时代才出现。

第一次世界战期间，法国通信管理局就曾经通过审阅士兵家书来探查士气，以求把握战场民意动态^[24]。历史学家经常通过历史材料梳理民情，以求理解特定的历史事件。1937年，在英国，一位记者、一位人类学家和一位纪录片导演共同成立了“大量观察法”（mass observation）社会研究小组，旨在记录英国社会的各个角落在自然状态下各类人物的对话。^[25]而传统的民意调研，提问是数据收集的核心——研究者通过文字提问，参与者提供答案。大数据需要研究者灵活使用“被动的”研究参与者，接受杂乱无章的数据和新的统计技术。^[26]

三、大数据语境下的民意研究路径

（一）非结构化文本数据

当研究者不能以主动提问的方式来探求社会个体的想法与倾向的时候，其在网络空间遗留下的话语文本就显得尤为关键。网民经常在网络空间的不同平台主动留言表达观点，比如聊天室、论坛、新闻网站及社交媒体。大量的网络文本成了社会舆论的晴雨表。利用网民主动的自我表达数据，可以追踪社会关注的议题及对特定社会议题、事件和商业品牌与产品的态度。美国塔夫茨大学的“城市态度实验室”^[27]通过分析处理推特文本数据来把握民意，从而达到为政策和规划服务的目的。伊利诺伊大学的两位学者^[28]提出了一套消费者评论（customer review）文本挖掘的方案，针对消费者在网上对不同商品的评价，用特定的算法对杂乱无章的网络评论进行态度倾向性预测。约瑟夫·雷格尔（Joseph Reagle）^[29]在其新书《读网评》（ Reading the Comments）中指出，虽然海量的网络留言质量参差不齐，但如果能使用不同数据处理方法披沙拣金，还是可以从社交网站和新闻网站上源源不断产生的网友留言数据中提取出有价值的“民意”。

同时，日新月异的数据挖掘技术也在不断提高着网络文本研究的话题分类精细度^[30]和情绪分析的准确性^[31]。情绪分析（sentiment analysis）是网络文本挖掘的常用方法，它从海量文本中抽取有情感指向的词语和短语，并经过统计整合得出文章、语篇或字句的好恶倾向。2001年前后，机器学习被大规模引入到自然语言处理和信息挖掘领域，同时，海量数据带来的可用于训练集的数据量的激增，以及情感分析潜在的商业价值，均促成了情绪分析研究的爆发式增长^[32]。

除了从技术角度提高网络信息的提取精度外，学界也关注网络民意对现实世界的预测作用以证明大数据的可靠性。美国学者约瑟夫·迪格瑞兹（Joseph DiGrazia）和他的合作者^[33]于2010年8月到11月，从推特上随机抽取了两个月间的5亿多条推特文本，并与同时期的406场国会竞选结果进行比对。他们发现，包含两党候选人名字的推特文本分享率与两党选票的差距之间存在强相关。这种相关性，即使在控制了人口统计学变量、各选区的党派倾向和媒体报道特征后，依然成立。之后，该研究团队中的一名成员^[34]又利用他们的数据对406场国会竞选进行了预测，成功预测375场的结果，准确率高达92.5%。在英国，三位学者分析了4亿条英国用户的推特文本^[35]，并利用文本中的情感性词汇构建了四条时间跨度为两年半的情感指数时间序列，包括恐惧、愤怒、高兴与忧伤。结果发现正面情绪指数通常在各种节日达到高点，而愤怒指数则在2011年8月城市骚乱的几天里达到顶峰。

政治领域之外，与经济话题相关的民意研究也有使用大数据的成功案例。美国卡内基梅隆大学的学者^[36]在2008和2009年间产生的1亿条推特信息里挖掘和经济、求职、工作等词汇相关的正、负情绪描述形成经济情绪指标，发现根据推特构建的情绪指标与密歇根大学的消费者情绪指数高度吻合（r=.80）。而荷兰学者皮特·达斯（Piet Daas）和马可·普茨（Marco Puts）^[37]追踪了三年半荷兰社会媒体文本信息体现出来的“情绪”指标和消费者信心指数之间的关系，发现两条时间序列之间存在高度相关性（r=.90）。也就是说，即使摒弃传统的基于问卷方式的消费者信心指数调查，研究者依然能够通过抓取社会媒体文本来精确把握民众对于经济的信心程度。另外，惠普实验室的研究者^[38]抓取并分析了289万条讨论电影的推特文本，利用相关推特文本的频率和正负语义来预测电影的票房，发现模型的预测力比传统市场变量模型要更加精准。

（二）结构化行为数据

事实上，并不是每个人都喜好在网络空间表达自己的观点。根据麦康奈尔（McConnell）和赫伯（Huba）^[39]的估计，大约只有1%的互联网使用者会在网上贡献内容，而剩下的99%都是“潜水者”。如果我们技术上只能挖掘网络表达者的意见，基于大数据的民意推断是否存在偏差？其实，除了网络空间意见表达这种直接的民意载体外，互联网使用者的网上行为踪迹，包括搜索、点击、浏览、投票、测试等也是一种意见与观点的表达载体。从心理学的视角来看，行为是价值、观点和意见的外显和表达。这种表达有时候意味着“用脚投票”的好恶选择——如同一网站改版前后的访问量变化，可能暗合了某种社会偏好与趋势。比如，伦敦《标准晚报》（The Evening Standard）的网络版经常邀请网友票选最热门的新闻——平均每次票选能获得4.8万个网友的投票，^[40]而投票结果大致可被看作是民众对不同社会议题重要性的意见。因此，网络行为数据也是网络民意分析的重要来源之一，与文本和影像数据相比，更加具有结构化的特点，处理起来也相对简单。

网络使用行为产生的“民意”及其预测价值，最典型的例子要属谷歌搜索趋势。谷歌搜索趋势是谷歌利用全球用户搜索引擎使用行为数据整合起来的搜索指数。利用与流感有关的搜索量变化和搜索地域分布特征，谷歌成功预测了流感在美国境内的传播，其预测准确且高效，信息收集和处理的速度远快于负责监测流感疫情的美国疾病预防控制中心。^[41]近年来，虽有研究指出，谷歌趋势预测的准确性会受搜索引擎算法和数据本身特征的影响而脱离现实^[42]，但搜索数据本身作为人们线下关切的线上表现形式，依旧是一种值得关注的民意表达。最近美国学者在PLOS ONE杂志上发表了一篇利用谷歌搜索趋势来探究种族偏见的论文。研究者通过分析含有对黑人歧视性词汇的谷歌搜索量，发现美国东部的互联网使用者更频繁地搜索歧视黑人的词语，^[43]这为美国种族偏见的地域分布提供了新的证据。另外，通过分析2004至2012的谷歌搜索数据，研究者发现股市相关词汇的搜索量能够提前预测股市的波动与起落。^[44]

使用搜索引擎获取信息只是人们主动获取信息的第一步，网民最终决定看什么是个人的决定和选择（selective exposure），这本身也构成了一种隐性的意见和偏好表达。商业和经济领域，行为“民意”的表达无处不在。购物网站上的产品销量、浏览次数等信息都是潜在的行为数据，它们虽不构成直接的民意表达，但对理解特定情境下的民意产生——如特定人群的购买决策等——有重要意义。^[45]有研究发现^[46]，当谷歌浏览器返回搜索结果后，网民对搜索结果的选择，不仅受到谷歌排名的影响，也受到同一页面中所有其他搜索结果摘要的综合影响。换言之，人们对网页浏览有一定的主动选择权，使得点击率和访问量依旧可以构成一种特殊的“民意”。2009年，法国第一夫人布鲁尼开设了个人网站，首日便因登录网友过多，导致网站瘫痪。2012年，中国某食品安全网站，两小时内点击量超过25，000次，网络一度瘫痪。^[47]无论是蜂拥去看第一夫人的网站，还是涌向问题食品报道的网站，巨大的访问量本身就代表了民众的关注和焦虑。

除了网络信息搜索和网络信息获取，网络上的其他活动，比如“自我测试”和“趣味测评”，也可以带来大量数据。与传统的网络问卷调研不同，趣味测评和自我测试在填答结束后会给填答者带来信息和娱乐的回报。一个值得一提的案例是“中国政治坐标系”测试^[48]。该网站于2007年上线，仅2014一年，就收到超过17万份的填答。利用这17万个样本，有学者^[49]分析了中国人保守主义和自由主义的意识形态分布特征。该问卷的作者也利用统计技术揭示了填答网友在特定问题上表现出的惊人的一致性（如对“武力统一台湾”“中医”和“国家规定最低工资”三个陈述支持度之间的强相关）。^[50]

（三）社会网络数据和群体趋同性

非结构化文本数据分析和结构化网络行为数据分析契合了前文提及的Cloudera公司的大数据民意挖掘理念，即分析公众在网上说了什么（非结构化文本数据）和做了什么（结构化网络行为数据）。^[51]但是，如果大数据本身的不完整性使我们无法精确定位每条数据生产者的人口统计学特征，那么，我们是否还能用大数据判断/预测不同社会阶层、社会特征的人所持有的态度呢？

互联网的技术特性是开放和连结。互联网不仅是信息聚合的场所，它更提供了一张巨大的关系网络结构图，在这张结构图里，不同的个体被多种关系粘连在一起。亚里士多德在《尼各马科伦理学》一书中提到了志趣相投者互相吸引的规律（“love those who are like themselves”）^[52]。也就是说，存在于同一个网络里的个体有趋同的社会背景、行为倾向、个体特征和意见观点。

所谓“道不同不相为谋”或“物以类聚，人以群分”，这两句古语暗合了西方社会学中的一个重要概念，趋同性（homophily，或译聚类性）。这种趋同原则体现在各种社会网络关系中，包括婚姻、友情、工作、兴趣组群等。在政治领域，有相同政见倾向的人之间通常有着更紧密的关系。^[53]趋同的形成机制多种多样，比如自我选择机制——人们选择进入与自己兴趣和价值观相符的群体；或者人际影响机制，即人们尝试融入群体以避免冲突和被疏离等。

利用趋同原则，研究者能利用机器学习的方法来预测大数据中未直接披露的个体信息和倾向，从而推断个体的民意倾向性。^[54]例如，虽然只有极小部分的用户会在社交媒体上透露自己的政治倾向，脸书的杰克·林达穆（Jack Lindamood）和美国得克萨斯大学的学者^[55]使用朴素贝叶斯分类器（一种数据处理算法）来处理社会媒体的网络结构和信息以推测个体的政治倾向。通过分析16万名用户的背景资料以及他们之间300多万对朋友关系，他们以80%的准确率成功预测了脸书用户的政治态度倾向。哥伦比亚大学的研究者^[56]使用支持向量机器（一种机器学习方法）处理11,000个网络社区用户的朋友圈关系和自我介绍来预测个体的兴趣。印度研究者^[57]运用网络关系预测社交媒体用户的政治倾向和性取向，精确程度分别达到63%和70%。在产品营销的语境里，从原来的个体定位、地理定位、行为定位，发展到现在的社会网络定位。此外，有研究^[58]发现，就广告点击这个行为而言，如果使用者的朋友圈里有人曾经点击广告，那么这个使用者点击广告的概率会比朋友圈里没人点击的使用者大很多，同样的规律对产品购买行为也一样适用。

四、大数据民意研究的问题和展望

越来越多的人参与到大数据民意挖掘的工作中来，关于大数据样本的代表性和大数据研究的适用性等问题也渐渐成为学界和业界讨论的焦点。对大数据研究持怀疑论者认为，大数据往往缺乏代表性，其理论和实用价值都有待商榷；而热衷数据挖掘的研究者则认为，网络中无处不在的数据为研究社会群体的态度、观点、立场提供了前所未有的资源。

在有关大数据的讨论中，“大数据缺乏代表性”常常成为否定大数据价值的主要论点。按照传统的统计理论，用不具代表性的样本来进行统计推断和民意预测会造成系统性误差。大数据代表性缺失主要体现在三个方面。第一，从特定网络应用平台（如人人网、天涯社区等）采集的不完整数据，至多能代表该平台用户的意见特征，对全体网民缺乏代表性；第二，从网络上采集的用户言论和行为数据只局限于网络使用者，并不能涵盖非网民；第三，越来越多的社交网站为用户提供了定制化的隐私设置选项，人们可以自主设定信息的公开程度:对公众公开，对特定群体公开，或仅自己可见。海量数据往往意味着海量的缺失值。皮尤研究中心^[59]的报告指出，脸书的青少年用户中，有60%的人将其个人信息（Profile）设定为非公开的隐私状态。在社交网络中，只有1.5%的人填写了自己的年龄，20%的人写了受教育经历；抽取社交网络上16万用户的大数据，如果按照传统方法去除个人信息有缺失的用户，将只剩下3万多用户的数据可供分析^[60]。这种海量缺失值带来的数据损失进一步扭曲了大数据的代表性。上述三个问题虽然确实广泛存在于目前的大数据研究中，但利用不断改进的计算机抽样技术和统计方法，上述问题可以得到一定程度的解决^[61]。

针对第一个问题，有研究指出，利用新的“随机漫步”（random walk）方法抓取数据可使样本数据对特定网络平台的全体用户有代表性。葛乔卡（Gjoka）等人^[62]对比了多种随机漫步算法对样本数据代表性的影响，发现大都市黑斯廷算法（Metropolis-Hasting）和再加权算法（Re-Weighted）提取的数据样本可以较好地代表脸书的全体用户。在既有算法的基础上，有学者^[63]结合有向网络的特征，又提出了USDSG算法，用来解决社交网站中提取数据代表性的问题。同时，萨勒希（Salehi）及其同事^[64]利用“以应答者为导向的抽样方法”（Respondent-Driven Sampling）从粉丝网络的结构特征出发（如社交网络的“入度”“出度”“粉丝与被粉比”等），以抽样数据的形式实现了对推特社交网络结构具有代表性的抽样。

针对第二个问题，在一项青少年酒精和药物使用情况的研究中，鲍尔梅斯特（Bauermeister）等人^[65]利用“以应答者为导向的抽样方法”，根据全国人口结构特征，在脸书上选取了22名应答者作为“种子”，并在严格的问卷质量监控下，利用“种子”脸书的社交网络发放问卷并招募新的应答者。经比对，该研究中获得的青少年问卷，在酒精、大麻等药物使用方面与同期美国全国青少年调研数据相一致。除了改进抽样方法，也可以通过统计技术修正严重有偏差的数据。有研究者在X-box的游戏网站上收集了该网站部分用户的政治投票意愿^[66]。单从数据代表性的角度来看，这套数据不仅不能代表广大网友，更不能代表全体美国公民。然而，在数据处理过程中，通过多层次回归（multilevel regression）和事后分层加权（post stratification）的统计处理，研究者发现，可以用这套数据准确预测美国总统大选，其精度不亚于整合了几百份传统调研问卷的预测结果。

至于第三个问题，则正如前文所述，可以利用可获得的用户个人信息和该用户的社会网络结构特征预测与之关联的用户未曾披露的个人信息，从而大幅降低缺失值给数据代表性带来的影响。利用这一方法，可以用较高的精度估算出多种未披露的个人信息，如政治党派归属^[67]、年龄、受教育经历、婚恋状态^[68]，以及国籍、居住地及更新状态时的个人地理位置信息等^[69]。

其实，大数据的批评者往往过度关注大数据的样本代表性缺陷，而忽视了另一种代表性:数据对概念的代表程度，即社会科学中变量测量的效度问题。效度有很多种，但对任何科学研究而言，概念效度（又称构念效度，construct validity）都是首先要解决的问题。概念效度关心的是:研究者是否测量到了他/她想要测量的概念。^[70]比如，要测量人们对政府机构的态度，利用传统的问卷调研法，可以通过不断改进的问卷题项和题目顺序，使得测量方法有较高的概念效度。然而，利用大数据，从纷繁复杂的非结构化和半结构化的文本、视频、音频中提取“对政府机构的态度”，不仅是个简单的披沙拣金的过程，同时也是确定何者为“金”的过程。在大数据框架下的民意研究，样本代表性问题可以通过改进优化抽样和统计手段得到解决，而概念代表性问题却更为棘手，因为它涉及学术研究的核心问题:网络表达和网上行为到底能够在多大程度上代表、反映或表征特定的民意倾向。这涉及特定的语词和语句是否表征了人们的特定态度。此外，非结构化的大数据中也会包含一定比例的戏仿（parody）、讽刺（satire）等表意模糊的表达方式，面对这些“民意”，研究者如何界定人们想要表达的真实意见，如何将纷繁的大数据与理论框架中由特定的约束条件限定的特定概念对应起来，就成了大数据民意研究中的重要问题。

近年来，虽然网络文本数据挖掘的效度在逐渐提高，但网络行为数据对民意测量的效度问题依旧难解。学界历来将认知、态度、行为划分成三个独立的概念进行研究，三者之间的转化与相互影响只在特定的条件下才能发生。比如，有投票意向的人不一定真的去投票站投票；^[71]大量收看主流电视新闻的人可能是对媒体的可信度持高度怀疑态度的人群；^[72]经常通过电话购物购买商品的人未必喜欢这些商品，他们可能只是想跟推销员聊天以排遣寂寞。^[73]总之，用行为表征态度，是将态度与行为的关系过度简化了。在大数据时代的民意研究中，是否搜索歧视黑人的词汇，就意味着搜索者对黑人持歧视态度？股市相关信息搜索量的上涨是否代表股市上涨？对于特定关键词的搜索，可以是喜欢，也可以是厌恶。访问一个网站可以是基于正面的兴趣，也可以是基于负面的消息去看热闹。前文提到，大数据通常是二手数据，数据挖掘者一般不参与数据的生产和设计。研究者无法运用问卷调查的量表效度和信度指标去评判大数据的质量。这就需要研究者运用合理的概念化和操作化手段去构建具有效度的民意指标。

大数据只是众多研究手段之一。美国民意研究协会（AAPOR）在2015年发布的大数据报告^[74]认为，问卷调查数据和大数据并非是具有竞争关系的数据源。大数据不是万能的，结合其他调研手段才能更好地发挥数据资源的优势和价值。大数据的应用价值离不开其他研究方法与数据的补充与整合。最著名的案例莫过于奥巴马团队建立的整合式大数据系统在总统选举中发挥的作用了。该系统整合了各种数据来源，其中既有民调机构、公募组织、田野调研员、各种消费者数据库，也有来自社交网站、移动终端和用户网络使用行为的大数据。该系统将这些数据与美国民主党选民的个人资料一一对应后，给每个选民建立了一个有80多个变量的档案——从性别、年龄、种族信息到有迹可查的性爱史（sex history）和投票史，不一而足。^[75]利用这套整合的数据系统，奥巴马的竞选团队赋给每个选民一个“可被说服”（persuadability）分，同时根据这套系统向尚未表明投票意向的选民推送特定的议题和立场，以远小于竞争对手的竞选成本赢得了选举。奥巴马竞选团队的成功仰赖的不是单纯的线上大数据，而是结合了各种类型数据的优势与特点，通过资源整合，提取到了真正有预测作用和实用价值的信息。

大数据的研究问题千丝万缕。本文仅仅尝试梳理了大数据民意挖掘的主要路径和趋势。关于大数据的讨论十年前便已成为学界和业界共同关注的话题，而讨论的广度远非一篇综述所能涵盖。值得特别提及的是，虽然本文旨在梳理民意研究中的大数据应用，但该领域涉及的隐私、数据开放和研究伦理等议题同等重要。这些议题超越了技术层面，深切地关系到研究者与公众的关系重构以及研究的合法性与合理性等问题。一方面，合理使用大数据可以提高政府的民意收集效率、提高政府效率和社会的开放度；另一方面，过度使用大数据榨取商业价值，可能会限制个体的选择自由并侵犯个人隐私。总之，大数据是工具，如何使用，才是关键。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈