Article 40(12) of the Digital Services Act (DSA) requires Very Large Online Platforms (VLOPs) to provide vetted researchers with access to publicly accessible data. While prior work has identified shortcomings of platform-provided data access mechanisms, existing research has not quantitatively assessed data quality and completeness in Research APIs across platforms, nor systematically mapped how current access provisions fall short. This paper presents a systematic audit of research access modalities by comparing data obtained through platform Research APIs with data collected about the same platforms' user-visible public information environment (PIE). Focusing on two major platform APIs, the TikTok Research API and the Meta Content Library, we reconstruct full information feeds for two controlled sockpuppet accounts during two election periods and benchmark these against the data retrievable for the same posts through the corresponding Research APIs. Our findings show systematic data loss through three classes of platform-imposed mechanisms: scope narrowing, metadata stripping, and operational restrictions. Together, these mechanisms implement overlapping filters that exclude large portions of the platform PIE (up to approximately 50 percent), strip essential contextual metadata (up to approximately 83 percent), and impose severe technical constraints for researchers (down to approximately 1000 requests per day). Viewed through a data quality lens, these filters primarily undermine completeness, resulting in a structurally biased representation of platform activity. We conclude that, in their current form, the Meta and TikTok Research APIs fall short of supporting meaningful, independent auditing of systemic risks as envisioned under the DSA.


翻译:《数字服务法》(DSA)第40条第12款要求超大型在线平台(VLOPs)向经审核的研究人员提供可公开访问的数据。尽管已有研究指出平台提供的数据访问机制存在缺陷,但现有工作尚未对不同平台研究API的数据质量与完整性进行量化评估,亦未系统性地梳理当前访问条款的不足之处。本文通过比较从平台研究API获取的数据与针对相同平台用户可见公共信息环境(PIE)采集的数据,对研究访问模式进行了系统性审计。聚焦于两大平台API——TikTok研究API与Meta内容库,我们重构了两个受控傀儡账户在两个选举期间内的完整信息流,并以通过相应研究API可检索到的同一批帖文数据作为基准进行比对。研究发现,平台通过三类机制导致系统性数据丢失:范围限缩、元数据剥离与操作限制。这些机制共同构成重叠的过滤层,排除了平台PIE中的大部分内容(最高约50%),剥离了关键上下文元数据(最高约83%),并对研究者施加了严格的技术限制(每日请求量低至约1000次)。从数据质量视角审视,这些过滤机制主要损害了完整性,导致对平台活动的呈现存在结构性偏差。我们得出结论:在当前形式下,Meta与TikTok研究API未能达到《数字服务法》所设想的、对系统性风险开展有意义独立审计的支持要求。

0
下载
关闭预览

相关内容

应用程序接口(简称 API),又称为应用编程接口,就是软件系统不同组成部分衔接的约定。
《数据价值化与数据要素市场发展报告(2024年)》下载
专知会员服务
35+阅读 · 2024年10月6日
重磅!《数据要素白皮书(2022年)》发布,52页pdf
专知会员服务
86+阅读 · 2023年1月7日
《信息安全技术大数据服务安全能力要求》国家标准
专知会员服务
37+阅读 · 2022年8月30日
中国数据要素市场发展报告(2020~2021),65页pdf
专知会员服务
142+阅读 · 2021年5月11日
专知会员服务
42+阅读 · 2021年3月28日
DataFun,就这?!
DataFunTalk
38+阅读 · 2020年9月27日
【知识图谱】基于知识图谱的用户画像技术
产业智能官
103+阅读 · 2019年1月9日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月27日
Arxiv
0+阅读 · 1月14日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员