本文旨在进行数据集成与分析的平台概念化为一种独特的数字平台类型。基于现有普遍意义上的数字平台文献——这些文献迄今尚未涉及数据集成与分析平台——我们提出了将数据集成与分析平台作为一种独立数字平台类型的定义。为强调此类平台的特殊性,我们以帕兰提尔科技公司为例,并重点阐述其结构特征与关键技术特性。案例研究表明,数据集成与分析服务应被理解为平台,因为它们与其他平台一样,充当可修改的数字基础设施,将不同参与方聚集在一起,并促成依赖于数据的交互。将数据集成与分析平台理解为数字平台尤为重要,因为这些平台有其自身的“政治性”,并决定了平台上发生的一切,正如我们围绕构成组织数据主权的两个重要社会价值——认知不透明性与认知控制——所阐述的那样。我们的结论是,平台研究是时候不仅审视那些为数众多终端用户所见的科技与公司,也应审视那些在暗处运作的平台。

诸如脸书等社交媒体平台、谷歌应用商店等应用平台、爱彼迎、优步或外卖英雄等零工经济平台,如今已成为许多人日常生活中的伙伴。因此,已有大量关于这些数字平台的研究,探讨了其背后的政治性及其日益增长的社会影响(例如,Bucher & Helmond, 2018; Gillespie, 2010; Gorwa, 2019; Srnicek, 2016; van Dijck et al., 2018; Zuboff, 2019),这并不令人意外。这些研究表明,数字平台依赖于多种实践和市场,但共享相似的商业模式,旨在收集用户数据用于广告目的和/或提升其定向与预测算法的性能(例如,Andersson Schwarz, 2017; Srnicek, 2016; Vallas & Schor, 2020)。然而,近期研究表明,数字平台已不再局限于社交媒体或电子商务等传统互联网相关领域。相反,它们正日益在国际范围内以高度多样化的方式广泛应用于广泛的社会领域。这凸显了平台概念的适应性与分析广度,使其成为审视各种数字商业模式与技术工具的宝贵框架(例如,Athique & Kumar, 2022; Hoijtink & Planqué-van Hardeveld, 2022; Sadowski et al., 2024; Steinberg, 2020; Westermeier, 2020)。确实,平台在经验上的异质性引发了关于平台正确定义以及相应术语和概念边界应如何划定的持续讨论(Ametowobla & Kirchner, 2023; Gorwa, 2019; Seibt, 2024)。然而,尽管存在经验上的异质性,现有关于数字平台的学术论述提供了关于数字平台共同特征的重要见解。它们强调,平台是可修改的数字基础设施,将不同参与方聚集在一起,以促进依赖于数据的交互(例如,Andersson Schwarz, 2017; Plantin et al., 2018b; Srnicek, 2016; Van Dijck et al., 2018)。

然而,正如本文中所论证的,尽管现有关于数字平台的文献已逐渐摆脱最初对全球北方知名互联网平台的过度关注,但仍倾向于过于狭隘地聚焦于基于互联网的平台。这种狭隘的焦点往往未能充分应对并在概念上把握各种数字平台的经验多样性,导致对较不显著类型的忽视。其中一种类型,即本文关注的焦点,是我们所称的数据集成与分析平台。近年来,主要由美国公司帕兰提尔科技公司提供的软件驱动,这类平台在全球范围内获得了显著关注。数据集成与分析平台迄今仅被选择性讨论的事实尤为令人遗憾,因为这些平台已发展成为来自不同部门的组织和公司应对日益增长的数据洪流、试图使其可管理并从中获取最大价值的主要技术应对方案之一。这在新冠疫情期间可见一斑,当时帕兰提尔能够与公共机构签订众多合同,承诺组织疫情相关数据以实现实时决策(Kitchin, 2020)。这些平台的社会相关性也体现在它们已被用于社会诸多显著不同的领域,例如警务(Egbert et al., 2024)、移民管控(Knight & Gekker, 2020)、人道主义工作(Martin, 2023)以及不同的工业分支,例如汽车工业(法拉利)或航空工业(空中客车)(Palantir, 2020b, pp. 162–163)。

在此背景下,本文旨在从概念上将数据集成与分析平台整合到现有的数字平台话语中。因此,数据集成与分析平台在此被理解为这样的平台:其主要目标是整合多个异构数据,并能够从这些数据中发现的关系中生成和可视化可操作的知识。其服务的核心要素是通过“去孤岛化”实现数据互操作性(另见本期特刊 Thylstrup et al., 2024)。换言之,其目标是创建一个数据仓库,而在该处尚不存在(或尚未存在)建立数据仓库所需的基础设施、技术以及有时还包括法律和文化要求。

本文探讨了如果忽视数据集成与分析平台作为平台的特性会错过什么这一问题。为此,提出了关于这些平台的概念视角,将其置于数字平台话语中,作为数字平台的一个特殊子类型。以帕兰提尔科技公司为例,阐述了此类平台的关键技术和运营特征。然后,将这些特征与现有文献中讨论的数字平台的特征和特殊性联系起来。最后,强调了与数据集成与分析平台相关的特定“政治性”,这里指的是铭刻在平台中的关于偶然性事项的决策(Hay, 2013)。

数据集成与分析平台:以帕兰提尔为例

将从简要概述帕兰提尔科技公司的一些关键事实开始本节,之后勾勒其商业模式,并介绍帕兰提尔向客户提供的三个平台。然后,将更详细地介绍帕兰提尔自2008年起提供的哥谭平台,这是帕兰提尔最古老的平台,关于它的信息也最为丰富。

帕兰提尔的起源

帕兰提尔科技公司是一家美国软件公司,成立于2003年,旨在支持美国情报机构和工业界进行反恐行动(Palantir, 2020b, p. 1)。根据其自身声明,该公司现在也为非安全相关组织提供软件——截至2020年,总共来自35个不同行业(Palantir, 2020b, p. 2)。自帕兰提尔于2020年上市以来,该公司甚至超越了专家话语范畴,成为一个反复出现的话题,并在2016年被《财富》杂志称为“科技界最大的‘独角兽’之一”(Lev-Ram, 2016)。帕兰提尔的成立部分得益于风险投资公司In-Q-Tel(中央情报局的子公司)以及硅谷自由意志主义者彼得·蒂尔的投资。蒂尔投资的背景是他出售了此前在支付服务PayPal的股份,而帕兰提尔的想法也源于此:据蒂尔称,PayPal长期受信用卡欺诈问题困扰,一度濒临破产(Thiel & Masters, 2014, p. 145)。在自动检测软件因诈骗者过快调整其欺诈模式而失效后,他们转向了一种“混合方法”(Thiel & Masters, 2014, p. 145):算法标记可疑交易,然后由人工核查。据蒂尔称,这种方法取得了成功,最终使PayPal能够进行盈利业务。这种“人机混合方法”随后也成为帕兰提尔创立时的愿景,只不过此时的目标是识别恐怖主义网络(Cohen, 2013, p. 3; Thiel & Masters, 2014, p. 146)。

帕兰提尔的商业模式 根据该公司的官方声明,帕兰提尔的商业模式并非基于收集和销售(个人)数据: “帕兰提尔不是‘数据经纪人’或‘数据聚合商’。与许多科技公司不同,我们的商业模式并非基于个人数据的货币化。我们不收集、存储或销售个人数据。我们不使用个人数据来训练专有人工智能或机器学习模型以分享或转售给其他客户。”(Palantir, 2020c)

帕兰提尔自称并非数据经纪人,而是提供可定制的现成平台,用于集成和分析现有数据: “我们为数据驱动的运营和决策构建数字基础设施。我们的产品充当组织数据、分析能力和运营执行之间的连接组织。帕兰提尔的平台通过将正确的数据带给需要的人,将它们联系在一起,使他们能够做出数据驱动的决策,进行复杂的分析,并通过反馈优化运营。”(Palantir, 2020c)

正如所见,在介绍其软件时,帕兰提尔明确使用了平台这一术语。相应的提法在许多地方都可以找到,大多未经论证(Cipierre & Hiesserich, 2022; Palantir, n.d.-a; Payne et al., 2008; Wojtas & Cipierre, 2023)。然而,帕兰提尔员工的一份出版物指出,在帕兰提尔,他们秉持“对分析平台而非产品的信念。开放性和灵活性是能够应对广泛分析任务需求的关键”(Payne et al., 2008, p. 202)。这表明帕兰提尔为其产品使用平台术语,是为了突出其开放和灵活的设计。

帕兰提尔的商业模式在科技领域很常见,因为它最初以相当低廉的价格甚至免费提供其产品,以期长期从培训和许可费中获利(Howden et al., 2021)。例如,在英国,国家医疗服务体系(NHS)开始与帕兰提尔合作进行试用期,名义费用为1英镑,这反过来使得NHS与帕兰提尔之间一份价值6000万英镑的合同得以在没有重新招标的情况下最终敲定(Clark, 2023)。然而,帕兰提尔通过将软件和咨询整合到一份合同中来确保这种商业模式,这也意味着客户有时需要为尚未构建的技术付费——这一程序被认为在该行业,特别是对于那些拥有政府客户的公司而言,是不寻常的(Metz et al., 2020)。

帕兰提尔的平台及其关键功能

帕兰提尔的产品组合包括三个数据集成与分析平台——他们称之为“操作系统”(Palantir, 2020b, p. 4):自2008年起面向情报、军事和警务部门客户的“哥谭”(用于“情报与韧性”),自2016年起可用于不同行业的“铸造厂”(用于“现代企业”),以及同样自2016年起的“阿波罗”(用于“持续交付”)(Krishnaswamy, 2022; Palantir, 2020b, p. 1)。然而,这三个平台功能不同,因此必须加以区分。虽然哥谭和铸造厂是真正的数据集成与分析平台,但阿波罗可以被视为一个元平台,因为它用于优化软件供应链,并且帕兰提尔自身也使用它来分发和维护哥谭及铸造厂(DeArment, 2021; Palantir, 2022b; Sankar, 2022)(见图1)。由于平台间的这种结构差异,以下解释主要针对操作系统,尤其是哥谭平台,因为关于该平台的可用文档更多。

2023年,推出了一个名为“AIP”(人工智能平台)的新平台(Palantir, 2024b)。该平台基于大语言模型技术构建,旨在使客户能够通过提示词开发自己的人工智能工具(“专为人工智能工作流构建者设计”(Palantir, 2024a))。该公司网站上的一个库展示了借助AIP创建的各种工具。虽然该平台并非分析的重点,因为它不属于数据集成与分析平台的范畴,但将在本文后面重新讨论AIP,以探讨它如何为平台研究与帕兰提尔产品之间的交叉点引入新的维度。

帕兰提尔数据集成与分析平台的基本操作相当直接:它们提供一个用户界面,客户可以通过该界面访问和分析其数据。然而,其特殊之处在于,帕兰提尔平台能够将来自不同结构化及非结构化数据库的数据整合到一个统一的环境或数据生态系统中,旨在增强数据(源)互操作性。因此,帕兰提尔平台的基本认知方法是去孤岛化:将无法直接一起分析的独立数据孤岛相互连接起来(Palantir, 2020c; 另见本期特刊 Thylstrup et al., 2024)。

因此,帕兰提尔的平台承诺能够高效地将客户的数据——无论类型或体量——集成并建模为一个单一、连贯的数据集。帕兰提尔承诺,不同于标准电子表格软件中的行和列,它将结构化和非结构化数据转化为代表现实世界概念(如人、组织、地点、文档和事件)的对象及相关属性,这些对象和属性是人类可读的,人类可以识别连接数据的关系(另见本期特刊 Galis & Karlsson, 2024)。这项转化任务至关重要,因为正如帕兰提尔代表保拉·西皮埃尔所说,“[a]作为人类,不以表格思考”(Cipierre & Hiesserich, 2022, p. 19)。 在此过程中,如前所述,帕兰提尔遵循一种与软件相关的持续开放性方法。因为帕兰提尔的平台包含“完全开放的API”,以创建“众多的集成和扩展点”(Palantir, n.d.-b, p. 4),以及开放的XML格式和总体上“可插拔的架构”(Payne et al., 2008, p. 202)。此外,正如帕兰提尔工程师所述,“帕兰提尔提供了前端扩展点,允许第三方构建自己的应用程序或将现有工具直接嵌入帕兰提尔平台”(Payne et al., 2008, p. 201)。这种开放性与创造“网络效应”的目标相关:“每个新增的运营用户、开发者、系统和应用程序都使平台对所有其他用户、开发者、系统和应用程序更具价值”(Palantir, 2020b, p. 5)。

帕兰提尔系统还允许通过其数据对象模型“动态本体”自动组织数据,该模型自动分配数据类型(Iliadis & Acker, 2022, pp. 336–337, 2024, pp. 13–14, 本期特刊; Munn, 2018, pp. 31–36)。本体作为接口,通过“为数据生态系统中的所有参与者创建通用词汇表”从而“统一不同的数据源和系统”,将数据转化为“有意义的语义概念”(Palantir, 2022a)。该本体是可定制的,在此过程中,帕兰提尔旨在“提供一个接口来创建对分析任务有用的任何语义”(Palantir, n.d.-b, p. 11)。正如帕兰提尔员工Payne等人(2008, p. 201)所写:“帕兰提尔对底层数据是不可知的,尽管[sic]通过一项名为动态本体的技术,允许用户定义他们的对象、属性、事件和链接/关系。”帕兰提尔的对象模型由对象、属性和关系组成,其中对象被理解为包含属性的容器,而关系则包含对象之间的链接。这里的关键在于,根据帕兰提尔的说法,每个属性和关系都可以随时追溯到文档来源,并且无论该来源是结构化的还是非结构化的都没有区别(Palantir, n.d.-b, p. 10)。

帕兰提尔的平台专注于去孤岛化以及分析海量非结构化和异构数据,从认识论角度看,遵循一种高度关联驱动的逻辑,符合“大数据想象”,即海量数据等同于更好的知识(Anderson, 2008)。然而,在帕兰提尔的案例中,由于此处实施的人机组装,包含了一种特殊的动态:并非仅由算法在数据中发现模式和关联,而是算法与人类分析师的紧密互动(Brayne, 2021)。尤其是帕兰提尔的哥谭平台为分析师提供了许多功能,将在下一节中阐述。

帕兰提尔的哥谭平台

如前所述,哥谭平台于2008年开发,旨在协助情报官员打击恐怖主义。其理念是通过将数据集成到一个生态系统中,使其可通过直观界面进行搜索,并将数字转化为有意义的数据对象,从而使分析师能够更快地访问可用数据。通过连接所有可用的数据源,哥谭可以作为“查看和分析数据的单一访问点”(Palantir, 2012; 另见 Wojtas & Cipierre, 2023)。因此,哥谭旨在“使用户能够识别隐藏在数据集深处的模式(……)。它还促进了分析师与运营用户之间的交接,帮助操作员规划和执行现实世界的响应”(Palantir, 2020b, p. 133)。

为此,哥谭部分构建得像一个互联网搜索引擎,主屏幕显著显示一个搜索栏(Oremus, 2020)。事实上,哥谭的通用用户界面看起来与常见的在线搜索引擎非常相似(见图2),突显了融入哥谭的知识发现过程的探索性和直观性,指向了发现数据对象之间关联的核心作用。

在这方面的一个关键元素是哥谭中的标记功能,该功能是浏览器应用程序的一部分,用户可以在其中直接与数据交互和管理数据(Palantir, n.d.-b, p. 7)。通过标记实体,如人员、电话号码或地址,平台用户能够对数据进行情境化和丰富。例如,当某个人的名字在特定文档中被标记时,该文档就会通过动态本体与该特定人员关联起来。这同样适用于电话号码等,从而在后台通过动态本体在相关人(数据对象)的各种信息片段之间建立链接。因此,当您搜索一个人的名字时,会显示包含其电话号码(例如)但不一定包含其名字本身的文档(Palantir, n.d.-b, p. 7, 2018)。

此外,可视化在哥谭中扮演着关键角色,因为分析结果和/或发现的数据对象之间的连接可以以表格、图表、时间线、热图、蜘蛛图或基于地图的地理空间分析等形式呈现。哥谭中视觉性高度相关性的最佳例证是其“图谱”应用程序。该应用程序是平台最古老的功能之一,提供“一个类似白板的界面,供用户探索、可视化和交互实体、其属性及其网络”(Palantir, 2020b, p. 134)。其主要功能是进行链接分析,并且“图谱”被认为是“传达分析结论最关键的应用之一”(Palantir, n.d.-b, p. 5)。链接分析或“社交网络分析”(Palantir, n.d.-a, p. 7)在这里意味着可以探索和创建数据对象(例如,人员)之间的连接(见图3)。它也可用于生成“人脉图”(Palantir, 2012),即社交网络的显示,例如涉及街头帮派(Palantir, n.d.-a, pp. 5–6)。

总而言之,帕兰提尔科技公司开发和提供的平台被设计为开放且灵活的操作系统,由人类操作员使用,以便将所有可访问的数据汇集到一个单一的虚拟位置,执行研究和分析任务。

成为VIP会员查看完整内容
28

相关内容

军事防务数据板块介绍:系统化采集、存储、管理、分析与军事国防安全相关信息的专用数据板块,其核心在于整合全球新兴国防技术(军事人工智能、无人系统等)、热点案例(俄乌战争、美以伊战争)等方面的最新时讯、研究报告/论文、条令法规、案例分析,为战略研判、情报分析、决策支持等提供知识支撑。
《审视 Palantir 监控平台》
专知会员服务
30+阅读 · 5月17日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
54+阅读 · 4月29日
《MERLIN:面向推广资源与研究的国家数据管理平台》报告
专知会员服务
17+阅读 · 2025年12月27日
《深度解析Palantir》报告,71页ppt
专知会员服务
190+阅读 · 2025年1月22日
2024年中国数据中台行业研究报告
专知会员服务
44+阅读 · 2024年7月3日
中国大数据分析平台行业研究报告
专知会员服务
45+阅读 · 2023年1月1日
中国数据中台行业研究报告
专知会员服务
64+阅读 · 2022年11月19日
【干货书】现代数据平台架构,636页pdf
专知会员服务
262+阅读 · 2020年6月15日
【2023新书】机器学习集成方法,354页pdf
专知
40+阅读 · 2023年4月11日
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
重构 Palantir 数据模型
待字闺中
33+阅读 · 2018年12月27日
Palantir的新专利曝光:挖掘和整合全世界的数据
炼数成金订阅号
19+阅读 · 2018年3月30日
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
揭秘最神秘的大数据公司 Palantir
数据库开发
21+阅读 · 2017年11月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月28日
Arxiv
0+阅读 · 3月12日
Arxiv
95+阅读 · 2022年8月2日
VIP会员
最新内容
Nature三连发AI自主科学发现论文
专知会员服务
0+阅读 · 今天14:19
安杜里尔与人工智能驱动防务的崛起
专知会员服务
10+阅读 · 今天8:08
《Palantir平台:FOUNDRY与AIP服务定义文档》
专知会员服务
9+阅读 · 今天7:45
2025年科学计算行业发展研究报告
专知会员服务
7+阅读 · 5月20日
《特种部队山地作战:一项战略要务》230页报告
相关VIP内容
《审视 Palantir 监控平台》
专知会员服务
30+阅读 · 5月17日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
54+阅读 · 4月29日
《MERLIN:面向推广资源与研究的国家数据管理平台》报告
专知会员服务
17+阅读 · 2025年12月27日
《深度解析Palantir》报告,71页ppt
专知会员服务
190+阅读 · 2025年1月22日
2024年中国数据中台行业研究报告
专知会员服务
44+阅读 · 2024年7月3日
中国大数据分析平台行业研究报告
专知会员服务
45+阅读 · 2023年1月1日
中国数据中台行业研究报告
专知会员服务
64+阅读 · 2022年11月19日
【干货书】现代数据平台架构,636页pdf
专知会员服务
262+阅读 · 2020年6月15日
相关资讯
【2023新书】机器学习集成方法,354页pdf
专知
40+阅读 · 2023年4月11日
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
重构 Palantir 数据模型
待字闺中
33+阅读 · 2018年12月27日
Palantir的新专利曝光:挖掘和整合全世界的数据
炼数成金订阅号
19+阅读 · 2018年3月30日
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
揭秘最神秘的大数据公司 Palantir
数据库开发
21+阅读 · 2017年11月13日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员