2021年1月21日星期四

经济数据的再现性挑战

一种基本的经济研究标准肯定是别人应该能够重现你所做的事情。他们不必同意你所做的一致。他们可能认为你的数据是可怕的,你的方法更糟糕。但作为一个最小的标准,他们应该能够重现你的结果,以便随后可以在一个位置考虑可能不同或更好的事情。该标准似乎是显而易见的,但在过去30年左右,重现性的方法已经改变。

Lars Vilhuber描述了“经济学的再现性和可重量性”的转变哈佛数据科学评论(2020年12月21日发布的“秋季2020年”)。Vilhuber是由美国经济协会发布的期刊的数据编辑(包括中国经济观光杂志我在那里担任主编)。因此,他领导了一个小组,负责监督在AEA期刊上发布新的实证结果的数据和代码——包括确保一个局外人可以使用数据和代码来重现论文中报告的实际结果。

要跳到底线,维尔鲁伯写道:“仍然在30年后,再现性研究的结果一直显示出大约三分之一的复制尝试的问题,并且经济研究中的限制性访问数据的增加需要新的工具,程序以及使得能够更高可见性对这些研究的再现性的方法。“

值得注意的是,再现性已经取得了很大的进步。早在20世纪80年代和更早的时候,研究人员已经完成了一篇发表的实证研究论文。然后转移到其他话题,往往不把数据或代码,或者如果他们并让他们,特殊格式的数据和代码通常是完整和标签对原始研究,效果不错(或者原始的研究助理研究员做了很多基础工作),但可能无法被潜在的外部复制者穿透。相比之下,相当一部分现代经济学研究可以公布实际数据、计算机代码、已完成研究的文档等等。在这种情况下,你可能不同意研究人员选择如何进行,但你至少可以很容易地复制他们的结果。

然而,在这里我想强调的是,重复性带来的很多困难,因为找到经济研究中使用的实际数据并不像人们想象的那么容易。非经济学家通常认为经济数据是公开的数据系列,如GDP、通货膨胀或失业率,任何人都可以在互联网上查找。但经济研究往往远远超出这些极其知名的数据来源。一个大的转变是使用“管理”数据,这是一个包罗万象的术语,用来描述不是为了研究目的而收集的数据,而是出于管理原因而开发的数据。这些例子包括来自美国国税局(Internal Revenue Service)的税收数据、来自社会保障局(Social Security Administration)的收入数据、来自联邦医疗保险(Medicare)和联邦医疗补助(Medicaid)的医疗支出细节数据,以及学区收集的关于教师和学生的教育数据。还有私人部门的管理数据,从金融市场到手机数据,信用卡数据,以及当你买杂货时收银机产生的“扫描仪”数据。

Vilhuber写道:“1960年,76%的实证融资[美国经济审查 - 物品使用公共使用数据。到2010年,60%的使用行政数据,可能是其中没有公共使用......”

你不能只是写信给,比如说,美国国税局,要求查看所有纳税申报单的详细数据。你也不能直接从社会保障、医疗保险、学区或美国人口普查中获得详细数据。这里有明显的隐私问题。

因此,近年来的一个变化是所谓的“受限访问数据环境”,其中认可的研究人员可以访问详细数据,但以保护个人隐私的方式获取。例如,现在有全国30个联邦统计数据研究中心,主要位于大学附近。Vilhuber写道(省略引文):

值得指出过去2年的正式限制性访问数据环境(RADE)的增加,由国家统计办公室和资助机构提供资金。rade网络,虽然正式,但往往漫长的访问协议,在美国(FSRDC),法国和许多其他国家已经成立。通常,这些网络已经由经济学家发起,尽管其他社会科学家和某些情况下,但在某些情况下卫生研究人员都是广泛的使用。雷德对私营部门的数据不太常见,尽管有几个举措取得进展,并且经常被研究人员使用:私人资本研究所(PCRI)私人资本研究所的创新与科学研究所研究所研究所(PCRI)。当在规模实施此类非歧视协议时,大量的研究人员可以根据严格的安全协议获取对这些数据的访问。截至2018年,FSRDC举办了超过750多个项目,其中300多个项目,其中140年在过去12个月内开始。IAB FDZ [德国就业数据的来源]列出500多个项目,截至2019年9月,大多数作者最多。在这些和其他网络中,许多研究人员共享对同一数据集的访问,并且可能导致可重复性研究。Typically, access is via a network of secure rooms (FSRDC, Canada, Germany), but in some cases, remote access via ‘thin clients’ (France) or virtual desktop infrastructure (some Scandinavian countries, data from the Economic Research Service of the United States Department of Agriculture [USDA] via NORC) is allowed.

一种常见的情况是,这类数据往往不能放入公共领域;相反,您需要应用并获得对“受限访问数据环境”的访问权,并以这种方式访问数据。

另一个问题是,在一些这些数据来源中,研究人员没有访问所有数据;相反,为了保护隐私,它们被给予了整体数据的提取物。因此,转到数据中心的两位研究人员并使相同的数据请求产生相同的数据。如果使用随机样本,则数据中的整体模式应该非常接近,但它们不会是相同的。Vilhuber写道:

任何研究人员都可以访问一些广泛使用的数据集,但他们受到的许可证可防止其重新分配,从而将其作为数据存款的一部分包含。这包括来自Michigan大学的健康和退休研究(HRS)和收入动态(PSID)小组研究的非可信地数据集,并在明尼苏达人口中心提供的IPUMS提供的数据。所有这些数据都可以自由下载,但符合许可证。IPUMS列出了2015年的963个出版物,仅使用其中一个数据来源。典型用户将通过数据查询系统创建PSID和IPUMS数据库的自定义提取物,而不是下载特定的数据集。因此,每个提取物基本上是独一无二的。然而,同样的提取物不能被重新分配,或者在期刊或任何其他档案中存放。不明确的2018年,与ICPSR合作的PSID已经解决了PSID存储库的这个问题,这使得研究人员将自定义提取物完全符合PSID使用条件。

来自商业来源的数据出现了另一个问题,这通常需要收取费用:

商业(“专有”)数据通常受到禁止再分配的许可证。较大的公司可能会作为其服务的一部分提供数据提供,但为学术研究人员提供数据只是整体业务的一小部分。DUN和Bradstreet的Compustat,Bureau Van Dijk的Orbis,Nielsen扫描仪数据通过芝加哥展台(kilts Centre,N.D.)或Twitter数据频繁使用经济学家和其他社会科学家。但是,客户使用超过5年或更长时间的客户使用的强大和策划档案通常不是其服务的一部分。

使用社交媒体数据的研究可能对想要使用相同数据重现研究的人构成特殊问题:

当数据发生变化,或者是大型静态或动态数据库中可能定义不明确的子集时,引用数据的困难就会加剧。“大数据”总是带来挑战——见上世纪50年代至60年代对政府数据库的需求的早期讨论。从本质上讲,它们通常属于“专有”和“商业”类别,并伴随着可重复性的问题。然而,除了(可解决的)为复制者提供授权访问和足够的计算资源来复制原始研究之外,甚至定义或获取原始数据输入都可能是困难的。从本质上讲,大数据可能是短暂的,太大而不能长期保存(有时称为“速度”),在时间上或截面上不一致(变量规格变化,有时称为“多样性”)。这可能会使计算再现性变得不可能. ...例如,一项研究使用数据从一个短命的社交媒体平台,文章最后不超过24小时(速度)和数据模式可能随时间变异(不同的)可能不是计算可再生的,因为帖子将被删除(使用条款可能禁止任何刮的再分配数据)。但是相同的数据收集(抓取或数据提取)可以重复,尽管在重新编程以解决多样性问题时有些复杂,从而导致复制研究。

最后,存在“清洁”数据的问题。“RAW”数据始终存在错误。有时数据没有填写。其他时候它可能表现出一种荒谬的发现,就像一年中有负收入水平的人,或者当时偶然地添加了几个零的条目。因此,在它使用之前需要“清除”数据。对于众所周知的数据,有记录文件的档案,了解如何清除数据,以及为什么。但是对于大量数据,如何清除它的文档不可用。Vilhuber写道:

虽然在理论上,研究人员能够在在典型的大数据的第三方控制系统上运行时,研究人员能够至少非正式地描述数据提取和清洁过程,实际上不会发生这种情况。对各种Twitter相关的经济学制品的非正式分析表明,对数据提取和清洁过程的描述很少或没有描述。然而,问题是大数据文章的独特 - 大多数文章都提供了很少的任何输入数据清洁代码,大部分是因为仅建议提供操纵输入数据的代码,但最多不是必需的数据存款政策。

作为最终的想法,我将指出,学术研究人员在数据方面有混合激励。他们总是希望访问新数据,因为新数据通常是发布的录影的可靠途径,可以构建声誉和薪水。他们经常希望获得竞争对手研究人员使用的数据,了解和批评其结果。但是可以访问自己的数据的详细信息并不一定帮助它们。

例如,想象一下,您写了一个突出的学术论文,所有数据都广泛可用。多年来,您的论文将成为经济学学生和年轻学院成员的目标实践,他们希望批评您并证明在研究中所做的所有选择。然而,您可能会合理不喜欢花费大量的职业生涯的大块,一次又一次地越过同样的地面。

从这个角度来看,它可能并不令人惊讶的是,虽然现在经济学的许多领先的期刊都要求作者在允许的情况下发布他们的计算机代码,以及他们允许的数据,从而获得“例外”的论文的数量正在崛起。此外,提交人提供数据和计算机代码不是提交纸张所需的一部分或决定发布论文所需的一部分(尽管其他教授裁判本文可以提出请求查看数据和代码,如果他们希望)。

也许不是一个惊喜,一个著名的研究期刊看着论文从2009年到2013年,发现的论文数据没有公布在网上,只有大约三分之一的论文数据,这是相当简单的为他人来获得数据。

而且它也可能是一个惊喜,越来越多的论文通过数据通过限制访问数据中心提供官方研究人员,这些文件将一些障碍与在研究界中没有良好连接的人。

自互联网上年时代以来,经济研究背后的数据和计算机代码有所改善,并提高了很多。但在许多情况下,它仍然远未容易。