《量化社会科学导论》
教学与科研网络研讨会
-.11.14-
#
主持人
徐轶青(斯坦福大学*治学系助理教授,系本书译者)
#
嘉宾
KosukeImai(今井耕介,哈佛大学*府系和统计系教授,系本书作者)
MollyRoberts(加州大学圣地亚哥分校)
何晴倩(中国*法大学)
庞珣(清华大学)
苏毓淞(清华大学)
席天扬(北京大学)
英璐薇(华盛顿大学圣路易斯分校)
祖梓文(加州大学圣地亚哥分校,系本书译者)
视频较大(约MB)建议在wifi环境下观看
▼
点击边框调出视频工具条徐轶青
今天的议程是:首先,我们请哈佛大学的KosukeImai教授为我们做一个简短的报告,介绍这本书的由来和量化社会科学的发展方向。然后,我们会请一组非常优秀的学者展开讨论和主题分享。
每位嘉宾大约有5-8分钟的时间,就以下可能的主题分享他们的观点。首先,在中国和世界范围内,量化社会科学教学的机遇和挑战是什么?目前,我们有哪些量化社会科学教学和学习的好的做法可以介绍给其他老师和学习者?其次,在中国,如何把量化社会科学技术和社会科学研究结合起来?最后,考虑到在场的很多人可能是社会科学的本科生或研究生,如何更好地将自己培养成一个优秀的量化学者和做有关中国的研究?当然,你可以自由地超越这三个主题。
以下为嘉宾发言
可上下滑动查看
▼
KosukeImai
谢谢你。非常感谢大家一起举办这次网络研讨会,也感谢各位伙伴抽出时间来参加。我知道大家都已经厌倦了Zoom。非常感谢大家在这个美好的周末,将周五晚上或周六早晨留给这个研讨会。作为抛砖引玉,我将只给大家做一个简短的报告,很期待和大家一起讨论。
关于怎样教和学计算机科学。首先,我想先感谢轶青和梓文,翻译这本书是一项繁重的任务。我知道翻译这本书很难,因为我的一些朋友将它翻译成了日文,这对他们来说是一件很痛苦的事情。我觉得翻译这本书真的很辛苦,很感谢轶青和梓文承担了这项工作。当你用英语学习某些东西,然后将其转换为中文或其他语言,这总是一个挑战,而且技术性资料也很难翻译。我很感谢你们付出的努力,希望中国的学生将从这些努力中受益。
接下来,我想谈一谈量化社会科学和我写这本书的原因。我觉得过去二十年,或许我们能够想到的一件事是我们经历了一次巨大的技术变迁,它主要是由互联网和计算机革命推动的。你们大多数人在年的时候还很年轻,或者可能是一个小婴儿,但相比那时,情况已经发生了相当大的变化。丰富的数据量和计算效率让我们可以做各种各样的事情。
过去,我认为只有统计学家和方法学家才会分析数据。其他大多数人或许会做简单的分析,但使用的大多是定性技术。但现在,每个人都在使用数据。而且有意思的是,也可能在某种程度上更糟糕的是,数据也在影响我们的生活。我会稍微谈一谈一些事情可能怎样发生。你能感觉到,对吗?手机的使用,我们身边的各种算法,以及数据和方法都在影响着我们的权利。
如果考虑数据,以前能够获取的数据主要是*府公布的数据,例如经济数据、国家调查数据等国家收集的数据。这些曾是社会科学家的主要数据来源。但现在,不仅有更多上述种类的数据,而且有许多新的数据类型。当我们做调查的时候,我们可以在线上开展。我们自己做实验,我们使用越来越多由*府提供的行*记录。我们还有社交媒体数据,地理信息系统数据,地图和文字,图像、声音和视频。所有这些数据,在二十年前都并不真正可用。过去二十年里,这些数据集几乎成了我们社会科学研究的一部分,也成了我们生活的一部分。
所以,这就是社会科学数据的演进。你可以看到的是,这些关于人类行为的数据、关于社会科学的数据,关于社会是如何运作的数据,它们都是关于社会和人类行为的记录。我们一定要学习和教授如何分析数据。这是不能忽视的。数据无处不在。
在这样的背景下,《量化社会科学导论》的理念是:数据分析是社会科学研究的必要工具,同时,对在大学里学习的学生们来说,数据分析也是职业生涯中非常有用的技能。即使不成为社会科学家,也许你在业界或者*府工作,你也需要数据分析能力来发挥作用。
所以,为了做到这一点,为了实现这些目标,我们从分析数据而非统计知识开始学习。我们甚至不再计算三个数字的平均值,你将在电脑里做那些计算,你将分析数据。过去,我们先教概率和统计,然后再做数据分析。现在,恰恰相反,我们先从数据分析开始,然后理解概率和统计。我会帮你更好地做到这一点。以前我们会先介绍一些一般性的理论,然后再应用它们。我试图反其道而行之。我先从应用开始,然后讲一般理论,再回到另一个应用。以前,我们会重复使用虚构的示例,可能是某些调查中的一两个变量。但考虑到现在有大量令人兴奋的研究,我尝试使用来自已发表研究的数据。从前,我们以授课为主,但现在我们经常在上机课上进行数据分析。从前,我们会让学生参加考试。我们现在也有考试,但我们也有很多让学生进行数据分析的项目,它们更有意思。
以上是这本书的基本理念,我希望大家能够体会到社会科学数据分析这些新特征的精彩之处。我将结合这本教材的三组基本内容,给大家做一个简单的介绍。
在社会科学研究中,至关重要的是:我们有社会科学问题和数据,然后我们要用数据分析去回答问题。这本书将逻辑概念、传统的统计学概念和借助R与RStudio的计算机编程结合在一起。在教统计学之前,在教p值之前、在教置信度之前,在教所有这些复杂的知识之前,我们试着先教数据分析。这本书有八章,从因果关系开始,讲到测量、预测、探索、概率,然后是不确定性,即将统计学放在最后。这本书也包含了大约50个已发表的社会科学研究的数据集。你能够通过它们感受社会科学研究的面貌。
这里有一些例子:提高最低工资的效果、阿富汗人的心理、预测选举结果等,后者在现在的美国越来越困难了。《联邦*人文集》是谁写的?你可以通过简单的文本分析来判断。还有基于姓氏预测种族和从*的回报——估算当拥有*府职位时,财富提升的程度。以上都是书中的一些例子。书中还有很多补充练习。你可以在本书的网站上获取不同章节的练习,你也能够获取所有的答案。
最后,我想强调一下量化社会科学的重要性。我想在很多亚洲国家都存在如下问题。我来自日本,日本的学生之间存在着理工科和人文社科的区别。我认为这是非常错误的。需要整合之处在于,对数学或计算机科学感兴趣的学生也应该对社会科学感兴趣;反之亦然,如果你对社会科学感兴趣,你也应该对科技领域感兴趣。数据分析非常重要。
数据影响着我们的*策和生活。我只想快速地提及一些来自我本人研究的例子。我在评估阿富汗的就业培训。这里的问题在于,通过向阿富汗人提供就业培训,我们能否说服他们更多地支持*府,而非塔利班呢?通常情况下,人们加入塔利班,是因为他们支付工资。所以,通过提供工作培训,或许我们可以削弱这种恶性循环。
我还参与了在司法判决中使用人工智能的评估。美国的刑事司法系统采用了一些利用机器学习的评分系统,它们用于根据潜在风险等级对犯罪嫌疑人进行分类。收到分数后,法官决定是将他们关在监狱里,还是等到第一场听证会。人工智能的应用非常广泛。我们的算法推荐不仅仅应用在网购上,对么?在网购的时候,我们总会得到基于算法的推荐。在某些场景下,例如在司法决策中,法官也收到了算法推荐。我们要评估这些推荐对法官的决策有怎样的影响。我们与法庭合作,开展基于真实世界的田野实验。所以,有很多有趣的问题,在这些问题中,数据分析可以用来解答有关现有*策、项目的问题,并试图改善和解决当今社会中存在的难题。
你会发现,统计学不仅仅是为自然科学、数学、工科和商科准备的,社会科学家也需要统计学的知识。实际上,在我看来,它同样重要。以新冠病*为例,*策很重要,人的行为很重要,我们需要用数据来理解它们。不仅仅是医学,社会科学家、*策制定者甚至记者都必须对数据进行分析。
这就是这本书的目标,即鼓励人们利用数据分析来解决社会问题。量化社会科学通常是社会科学与统计学、机器学习的结合。两者都很重要,不仅仅是技术,社会科学的内容同样重要;不仅仅是社会科学的内容,技术也很重要。我们应该在两者间做好平衡。我想强调的是,我们需要利用数据分析来解决问题,而不仅仅是思考问题,我们应该努力解决问题,让社会变得更好。我的部分结束了,期待和大家进行讨论。谢谢大家。
徐轶青
非常感谢,Kosuke。这是一个很好的报告。我想先听一下其他嘉宾的观点。不过,我确实想就你提供的数据说两句。已经有同学问我,怎样获取这本书的数据。实际上,如果你谷歌或者百度“QSSGitHub”,就可以下载到所有与此书相关的数据集。现在,有请*治学方法论领域的新星璐薇来发表她的看法。
英璐薇
谢谢,轶青。感谢你邀请我参与讨论。我是璐薇,是华盛顿大学圣路易斯分校的五年级博士生。能够来到这里是我的荣幸。我也借此机会向参与此次研讨会的其他学者学习。
为表示感谢,我决定先跟大家分享一个秘密,现在我们这些年轻一代的学者,如何在会议中找到朋友。我们只需