专业可信的知识分发

ChatGPT · 自然语言处理 · 大模型 · 预训练语言模型 · 哈尔滨工业大学（HIT） ·

2023 年 3 月 12 日

来源：哈尔滨工业大学、自然语言处理研究所（HIT-NLP）

2022年11月30日，OpenAI推出全新的对话式通用人工智能工具——ChatGPT。ChatGPT表现出了非常惊艳的语言理解、生成、知识推理能力，它可以很好地理解用户意图，做到有效的多轮沟通，并且回答内容完整、重点清晰、有概括、有逻辑、有条理。ChatGPT上线后，5天活跃用户数高达100万，2个月活跃用户数已达1个亿，成为历史上增长最快的消费者应用程序。除了被广大用户追捧外，ChatGPT还受到了各国政府、企业界、学术界的广泛关注，使人们看到了解决自然语言处理这一认知智能核心问题的一条可能的路径，并被认为向通用人工智能迈出了坚实的一步，将对搜索引擎构成巨大的挑战，甚至将取代很多人的工作，更将颠覆很多领域和行业。哈工大自然语言处理研究所组织多位老师和同学撰写了本调研报告，从技术原理、应用场景、未来发展等方面对ChatGPT进行了尽量详尽的介绍及总结。

本报告仅供内部参考。主要编撰人员第一章由车万翔、杨沐的、张伟男、赵妍妍、冯骁骋、孙承杰、李佳朋编写；第二章由张伟男、隋典伯、高翠芸、朱庆福、李明达、王雪松编写；第三章由刘铭、朱聪慧、汤步洲编写；第四章由徐永东、高翠芸、朱庆福编写；第五章由杨沐昀、张伟男、韩一、庄子或编写；第六章由隋典伯、高翠芸编写；第七章由车万翔、刘铭编写。参与各章审校工作的还有：崔一鸣、徐志明等。报告整体由车万翔统稿。

第一章 ChatGPT的背景与意义

1.1 自然语言处理的发展历史 1.2 大规模预训练语言模型的技术发展历程 1.3 ChatGPT技术发展历程 1.3.1 ChatGPT的相关技术 1.3.2 ChatGPT技术发展脉络的总结 1.3.3 ChatGPT的未来技术发展方向 1.4 ChatGPT的优势与劣势 1.4.1 ChatGPT的优势 1.4.2 ChatGPT的劣势 1.5 ChatGPT的应用前景 1.5.1 在人工智能行业的应用前景及影响 1.5.2 在其他行业的应用前景及影响 1.6 ChatGPT 带来的风险与挑战 第二章 ChatGPT相关核心算法

2.1 基于Transformer的预训练语言模型.. 2.1.1 编码预训练语言模型（Encoder-only Pre-trained Models) 2.1.2 解码预训练语言模型（Decoder-only Pre-trained Models) 2.1.3 基于编解码架构的预训练语言模型（Encoder-decoder Pre-trained Models) 2.2 提示学习与指令精调 2.2.1 提示学习概述 2.2.2 ChatGPT中的指令学习 2.3 思维链（Chain of Thought，COT） 2.4 基于人类反馈的强化学习（Reinforcement Learning with Hu-man Feedback,RLHF) 第三章大模型训练与部署

3.1 大模型并行计算技术 3.2 并行计算框架 3.3 模型部署 3.3.1 预训练模型部署的困难 3.3.2 部署框架和部署工具 3.3.3 部署技术和优化方法 3.4 预训练模型的压缩 3.4.1 模型压缩方案概述 3.4.2 结构化模型压缩策略 3.4.3 非结构化模型压缩策略 3.4.4 模型压缩小结 第四章 ChatGPT相关数据集

4.1 预训练数据集 4.1.1 文本预训练数据集 4.1.2 代码预训练数据集 4.2 人工标注数据规范及相关数据集. 4.2.1 指令微调工作流程及数据集构建方法 4.2.2 常见的指令微调数据集 4.2.3 构建指令微调数据集的关键问题 第五章大模型评价方法

5.1 模型评价方式 5.1.1人工评价 5.1.2 自动评价 5.2 模型评价指标 5.2.1 准确性 5.2.2 不确定性 5.2.3 攻击性 5.2.4 毒害性 5.2.5 公平性与偏见性 5.2.6 鲁棒性 5.2.7 高效性 5.3 模型评价方法小结 第六章现有大模型及对话式通用人工智能系统

6.1 现有大模型对比 6.2 对话式通用人工智能系统调研 6.2.1 对话式通用人工智能系统 6.2.2不同系统之间的比较 第七章自然语言处理的未来发展方向

7.1 提高ChatGPT的能力 7.2 加深对模型的认识 7.3 实际应用 7.4 从语言到AGI的探索之路

成为VIP会员查看完整内容

469

983

大模型 · 白皮书 · 大型语言模型 ·

2023 年 10 月 1 日

重磅！121页《大模型技术》中国人工智能系列白皮书（附下载）

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

9月17日，CAAI系列白皮书发布会在南昌成功举办。《大模型技术》该白皮书从语言大模型、多模态大模型、技术生态、产业应用、安全等多个角度，全方位清晰呈现了大模型技术的定义、特点和发展历程，以及目前的主流方法和应用场景，其中包括多项首例行业应用实践，将有效帮助相关人士深入理解大模型技术的原理、方法和应用，提高大模型技术的开发和使用效率和质量，深刻认识大模型技术的影响和责任。

近年来，大模型技术飞速发展，从架构演进统一到训练方式转变，再到模型高效适配，大模型技术引起机器学习范式的一系列重要革新，为通用人工智能发展提供了一种新的手段。由单一模态的语言大模型到语言、视觉、听觉等多模态大模型，大模型技术融合多种模态信息，实现多模态感知与统一表示，也将和知识图谱、搜索引擎、博弈对抗、脑认知等技术融合发展，相互促进，朝着更高智能水平和更加通用性方向发展。与此同时，大模型技术生态蓬勃发展，开源服务与开放生态成为主流趋势，国内外大模型开放平台、开源模型、框架、工具与公开数据集加速大模型技术演进，框架、工具间软硬件协同优化降低大模型开发和应用成本，推动大模型高效训练与部署。

大模型与教育、科学、金融、传媒艺术等专用领域结合拓广通用大模型能力边界，与实体经济的深度融合成为其赋能行业应用关键，正在“大模型”与“小模型”端云协同并进发展格局下重塑生产力工具，变革信息获取方式，改变人类社会生活和生产方式。

随着大模型的应用，其安全问题日益凸显，因而需关注大模型技术发展的内生及伴生风险，关注大模型安全对齐、安全评估技术，发展大模型安全增强技术，加强大模型安全监管措施，确保其“安全、可靠、可控”。总之，抓紧推动大模型技术研发，尤其是大模型原始技术创新和大模型软硬件生态建设，强化垂直行业数据基础优势，集中国家资源投入大模型发展，同时关注大模型风险监督，彰显人工智能的技术属性和社会属性。

成为VIP会员查看完整内容

284

519

ChatGPT ·

2023 年 2 月 11 日

ChatGPT研究框架（2023），72页ppt

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

ChatGPT市场反应热烈，国内外巨头纷纷入场

据统计，ChatGPT日活跃用户数的增速远超Instagram，1月份平均每天有超过1300万名独立访问者使用ChatGPT，是去年12月份的两倍多；国内外科技巨头都非常重视ChatGPT引发的科技浪潮，积极布局生成式AI，国内厂商（百度、腾讯等）也高度关注ChatGPT，积极探索前沿技术，相关深度应用也即将推出。

ChatGPT经历多类技术路线演化，逐步成熟与完善

ChatGPT所能实现的人类意图，来自于机器学习、神经网络以及Transformer模型的多种技术模型积累。Transformer建模方法成熟以后，使用一套统一的工具来开发各种模态的基础模型这种理念得以成熟，随后GPT-1、GPT-2、GPT-3模型持续演化升级，最终孵化出ChatGPT文本对话应用。

AIGC跨模态产业生态逐步成熟，商用落地未来可期

AIGC产业生态当前在文本、音频、视频等多模态交互功能上持续演化升级，奠定了多场景的商用基础。跨模态生成技术也有望成为真正实现认知和决策智能的转折点。

ChatGPT乘东风，商业架构日益清晰

随着ChatGPT Plus发布，商业化序幕已经拉开。ChatGPT在传媒、影视、营销、娱乐以及数实共生助力产业升级等领域均可产生极大助益，提升生产力曲线，多维度赋能虚拟经济和实体经济。

成为VIP会员查看完整内容

289

570

GPT-4 · 多模态大模型 · OpenAI ·

2023 年 3 月 15 日

GPT-4多模态大模型发布！98页《OpenAI GPT-4 技术报告》论文详细阐述！附下载（附151页技术报告中文版）

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

GPT-4来了！今日凌晨，万众瞩目的大型多模态模型GPT-4正式发布！ OpenAI CEO Sam Altman直接介绍说：

这是我们迄今为止功能最强大的模型！

图灵奖三巨头之一Geoffrey Hinton对此赞叹不已，「毛虫吸取了营养之后，就会化茧为蝶。而人类提取了数十亿个理解的金块，GPT-4，就是人类的蝴蝶。」

OpenAI发文称，GPT-4能接受图像和文本输入，输出文本内容，虽然在许多现实场景中的能力不如人类，但在各种专业和学术基准测试中已做到人类水平的表现。GPT-4 实现了以下几个方面的飞跃式提升：强大的识图能力；文字输入限制提升至 2.5 万字；回答准确性显著提高；能够生成歌词、创意文本，实现风格变化。

它强大到什么程度呢？输入一张手绘草图，GPT-4能直接生成最终设计的网页代码。

它以高分通过各种标准化考试：SAT拿下700分，GRE几乎满分，逻辑能力吊打GPT-3.5。

GPT-4在高级推理能力上超越ChatGPT。在律师模拟考试中，ChatGPT背后的GPT-3.5排名在倒数10%左右，而GPT-4考到了前10%左右。GPT-4的长度限制提升到32K tokens，即能处理超过25000个单词的文本，并且可以使用长格式内容创建、扩展对话、文档搜索和分析等。OpenAI还贴心地发布了GPT-4开发者视频，手把手教你生成代码、检查错误信息、报税等。在视频中，OpenAI联合创始人兼总裁Greg Brockman说了句有点扎心的话：“它并不完美，但你也一样。”OpenAI正通过ChatGPT和API发布GPT-4的文本输入功能，图像输入功能暂未开放。ChatGPT plus订阅者可直接获得有使用上限的GPT-4的试用权，4小时内最多只能发布100条信息。开发者也可以申请GPT-4 API，进入候补名单等待通过。

**申请直通门：**http://t.cn/A6ClOHn7随着时间的推移，OpenAI会将其自动更新为推荐的稳定模型（你可以通过调用gpt-4-0314来锁定当前版本，OpenAI将支持到6月14日）。定价是每1k prompt tokens 0.03美元，每1k completion tokens 0.06美元。默认速率限制是每分钟40k tokens和每分钟200个请求。gpt-4的上下文长度为8192个tokens。还提供对32768个上下文（约50页文本）版本gpt-4-32k的有限访问，该版本也将随着时间的推移自动更新（当前版本gpt-4-32k-0314，也将支持到6月14日）。价格是每1k prompt tokens 0.06美元，每1K completion tokens 0.12美元。此外，OpenAI还开源了用于自动评估AI模型性能的框架OpenAI Evals，以便开发者更好的评测模型的优缺点，从而指导团队进一步改进模型。开源地址：github.com/openai/evalsGPT-4 技术报告

本文报告了GPT-4的发展，这是一个大规模的多模态模型，可以接受图像和文本输入并产生文本输出。虽然在许多现实世界的场景中，GPT-4的能力不如人类，但它在各种专业和学术基准上表现出了人类水平的表现，包括通过了模拟的律师考试，其分数约为考生的前10%。GPT-4是一个基于transformer的模型，预训练用于预测文档中的下一个token。训练后的校准过程会提高对事实的衡量和对期望行为的坚持程度。该项目的一个核心组件是开发基础设施和优化方法，这些方法可以在广泛的范围内预测性能。这使我们能够基于不超过GPT-4计算量的1/ 1000的训练模型准确地预测GPT-4性能的某些方面。本技术报告介绍了GPT-4，一个能够处理图像和文本输入并产生文本输出的大型多模态模型。此类模型是一个重要的研究领域，具有广泛的应用前景，如对话系统、文本摘要和机器翻译。因此，近年来，它们一直是人们感兴趣和取得进展的主题[1-28]。开发这样的模型的主要目标之一是提高它们理解和生成自然语言文本的能力，特别是在更复杂和微妙的情况下。为了测试它在这种情况下的能力，在最初为人类设计的各种考试中对GPT-4进行了评估。在这些评估中，它表现得相当好，经常超过绝大多数人类考生。例如，在模拟的律师考试中，GPT-4的分数落在了考生的前10%。这与GPT-3.5形成对比，GPT-3.5得分在最后10%。在一套传统的NLP基准测试中，GPT-4的表现优于之前的大型语言模型和大多数最先进的系统(这些系统通常有基准特定的训练或手工工程)。在MMLU基准29,30上，GPT-4不仅在英语方面以相当大的优势超过现有模型，而且在其他语言方面也表现出强大的性能。在MMLU的翻译变体上，GPT-4在考虑的26种语言中的24种超过了英语的最先进水平。我们将在后面的章节中更详细地讨论这些模型能力结果，以及模型安全性的改进和结果。本报告还讨论了该项目的一个关键挑战，即开发在大范围内表现可预测的深度学习基础设施和优化方法。这使我们能够对GPT-4的预期性能做出预测(基于以类似方式训练的小测试)，并在最后的测试中进行测试，以增加我们对训练的信心。尽管GPT-4功能强大，但它与早期的GPT模型有相似的局限性[1,31,32]:它不完全可靠(例如，可能会出现“幻觉”)，上下文窗口有限，并且不能从经验中学习。在使用GPT-4输出时应小心，特别是在可靠性很重要的情况下。GPT-4的能力和局限性带来了重大而新颖的安全挑战，我们认为，考虑到潜在的社会影响，仔细研究这些挑战是一个重要的研究领域。本报告包括一个广泛的系统卡(在附录之后)，描述了我们预计的关于偏见、虚假信息、过度依赖、隐私、网络安全、扩散等方面的一些风险。它还描述了我们为减轻GPT-4部署带来的潜在危害而采取的干预措施，包括与领域专家进行对抗性测试，以及一个模型辅助的安全通道。本报告重点介绍了GPT-4的功能、局限性和安全性。GPT-4是[33]预训练的transformer风格的模型，可以使用公开可用的数据(如互联网数据)和第三方提供商授权的数据来预测文档中的下一个Token。然后使用来自人类反馈的强化学习(RLHF)[34]对模型进行微调。考虑到大型模型(如GPT-4)的安全影响，本报告没有包含有关架构(包括模型大小)、硬件、训练计算、数据集构造、训练方法或类似内容的进一步细节。我们致力于对我们的技术进行独立审计，并在这个版本附带的系统卡中分享了这一领域的一些初始步骤和想法我们计划向更多的第三方提供进一步的技术细节，他们可以就如何权衡上述竞争和安全考虑与进一步透明的科学价值提供建议

成为VIP会员查看完整内容

241

559

ML Visual · 机器学习 ·

2022 年 3 月 1 日

深度学习模型图难画论文难中？这个ML Visual利器帮你快速画出漂亮的模型图,160个模板

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

【导读】现在搞AI研究写论文，其中论文里的框架图模型图很是考验你画图的能力，不费一番心思功夫，怎能画出一个入得Reviewer法眼的图，论文也不大好中，很是发愁。好消息来了，elvis介绍了有个ML visual的利器，提供一份103页的PPT模型图素材，你在上面可以直接使用画出你要的机器学习深度学习模型图，再也不用担心画图了！

ML Visuals是一个新的协作项目，通过使用更专业、更吸引人、更充分的图块来帮助机器学习社区改进科学传播。你可以在你的演讲或博客文章中自由使用视觉效果。使用任何视觉效果都不需要经过许可，但是如果你能提供设计师/作者(作者信息可以在幻灯片注释中找到)，那就太好了。

地址： https://github.com/dair-ai/ml-visuals

怎么使用ML Visual？

下载这份MLvisual PPT，在上面的模板编辑你要的就行。

要添加您自己的自定义图形，只需添加一个新的幻灯片并重用任何基本的可视组件(请记住请求编辑权限)。您还可以创建自己的幻灯片副本，并自定义您喜欢的内容。我们鼓励作者/设计师在这里添加他们的视觉效果，并允许其他人重用它们。确保包括你的作者信息(在幻灯片的注释部分)，这样其他人就可以在其他地方使用你的作品(如博客/演示文稿)。此外，提供一个简短的视觉描述，以帮助用户了解它是关于什么以及他们如何使用它。如果您需要“编辑”权限，请单击上面“仅查看”工具栏下的“请求编辑访问”选项，或者通过[email protected]发送电子邮件给我。

从任何一张幻灯片上下载图片都很容易。只需点击文件→下载→(选择你的格式)。

如果你需要帮助定制一个数字或有可能对别人有价值的东西的想法，我们可以帮助。只要在这里打开一个问题，我们将尽我们最大的努力，以赶上视觉。谢谢。

在我们的Slack小组中，有任何关于这个项目的问题都可以问我们。

成为VIP会员查看完整内容

ML Visuals by dair.pdf

175

905

DeepSeek · 大模型 ·

2025 年 2 月 6 日

清华大学元宇宙实验室《DeepSeek：从入门到精通》文档，104页ppt

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

DeepSeek从入门到精通《DeepSeek从入门到精通》是由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后及其团队撰写。文档的核心内容围绕DeepSeek的技术特点、应用场景、使用方法以及如何通过提示语设计提升AI使用效率等方面展开，帮助用户从入门到精通DeepSeek的使用。

DeepSeek是什么？ DeepSeek 是一家专注于通用人工智能（AGI）的中国科技公司，主攻大模型研发与应用。

DeepSeek-R1 是其开源的推理模型，擅长处理复杂任务且可免费商用。

特点：AI + 国产 + 免费 + 开源 + 强大。

DeepSeek可以做什么？直接面向用户或者支持开发者，提供智能对话，文本生成，语义理解，计算推理，代码生成补全等应用场景，支持联网搜索与深度搜索模式，同时支持文件上传，能扫描读取各类文件及图片中的文字内容。图片文本生成：文章写作、营销文案、社交媒体内容等。图片自然语言理解与分析：情感分析、意图识别、实体提取等。图片编程与代码相关：代码生成、调试、技术文档处理等。图片常规绘图：SVG矢量图、Mermaid图表、React图表等。图片

如何使用DeepSeek？使用平台：访问DeepSeek官方网站。

推理模型选择：根据任务类型选择合适的模型（如DeepSeek-R1）。

提示语设计：简洁指令（推理模型）或结构化引导（通用模型）。

如何从入门到精通？

成为VIP会员查看完整内容

120

245

ChatGPT · 哈尔滨工业大学（HIT） · 大模型 ·

2023 年 5 月 4 日

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

2023年3月6日，哈工大自然语言处理研究所 ( HIT-NLP, since 1979 ) 师生联合撰写出《ChatGPT调研报告》（84页），对“大模型”技术进行了系统的介绍。该报告原定仅供内部师生参考，但过去2个月中在网上也多有流传。5月4日，研究所决定将该报告公开，以期听取同行意见，并随着“大模型”技术的发展，持续对报告进行更新。

此外，哈工大自然语言处理研究所已经研制出哈工大“活字”对话大模型（通用），目前处于研究所内测阶段。同时，研究所积极研发各行业大模型（专用），欢迎拥有算力、数据、场景、资金优势的企事业单位来信洽商合作。

2022 年11 月30 日，OpenAI 推出全新的对话式通用人工智能工具—— ChatGPT。ChatGPT 表现出了非常惊艳的语言理解、生成、知识推理能力，它可以很好地理解用户意图，做到有效的多轮沟通，并且回答内容完整、重点清晰、有概括、有逻辑、有条理。ChatGPT 上线后，5 天活跃用户数高达 100 万，2 个月活跃用户数已达1 个亿，成为历史上增长最快的消费者应用程序。除了被广大用户追捧外，ChatGPT 还受到了各国政府、企业界、学术界的广泛关注，使人们看到了解决自然语言处理这一认知智能核心问题的一条可能的路径，并被认为向通用人工智能迈出了坚实的一步，将对搜索引擎构成巨大的挑战，甚至将取代很多人的工作，更将颠覆很多领域和行业。哈工大自然语言处理研究所组织多位老师和同学撰写了本调研报告，从技术原理、应用场景、未来发展等方面对ChatGPT 进行了尽量详尽的介绍及总结。

成为VIP会员查看完整内容

179

443

ChatGPT · 大模型 ·

2023 年 3 月 8 日

【ChatGPT系列报告】国内大模型概览，42页ppt

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

自ChatGPT推出以来，国内学术界和科技企业相继宣布或将推出类似机器人对话模型，有望推动大模型发展。2月7日，百度官宣“文心一言”。2月20日，复旦大学发布了类ChatGPT模型“MOSS”，并面向大众公开邀请内测，国产大模型有望迎来爆发式增长。　　需求和政策两方面，合力推动AI产业增长。国内应用层面的需求推动AI产业的加速发展。根据IDC数据预测，2021年中国人工智能软件及应用市场规模为51亿美元，预计2026年将会达到211亿美元。数据、算法、算力是AI发展的驱动力，其中数据是AI发展的基石，中国数据规模增速有望排名全球第一。政策方面，“十四五”规划中提到“瞄准人工智能”，“聚焦人工智能关键算法”，加快推进“基础算法”的“突破与迭代应用”；北京、上海、广州等城市发布相关规划。　　头部企业采取“模型+工具平台+生态”三层共建模式，有助于业务的良性循环，也更容易借助长期积累形成竞争壁垒。大模型厂商主要包括百度（文心大模型）、腾讯（HunYuan大模型）、阿里（通义大模型）、商汤、华为（盘古大模型）等企业，也有智源研究院、中科院自动化所等研究机构，同时英伟达等芯片厂商也纷纷入局。大模型增强了AI技术的通用性，助力普惠AI的实现。未来，大模型有望于场景深度融合，配合专业工具和平台支持应用落地，开放的生态来激发创新，形成良性循环。　　技术发展有望促进生产效率提升，并进一步创造新的消费和需求，有利于文娱内容和互联网行业。在AIGC和ChatGPT方面，我们建议持续关注技术发展和应用情况，把握技术催化和商业化落地带来的投资机会：1）具备AIGC和ChatGPT的技术探索和应用的公司：百度集团-SW、商汤-W、万兴科技、拓尔思等；2）具有海量内容素材且具有AIGC探索布局的，图片/文字/音乐/视频内容及平台公司腾讯控股，阅文集团、美图公司、昆仑万维、汤姆猫、神州泰岳、视觉中国、中文在线、汉仪股份、天娱数科、风语筑等。

成为VIP会员查看完整内容

203

454

大型语言模型 ·

2024 年 1 月 10 日

中国大模型落地应用案例集（2023），119页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

来源：中国信通院华东分院　　近日，中国信通院联合上海人工智能实验室成立的大模型测试验证与协同创新中心牵头，首次面向全国范围征集全行业优秀应用实践，并形成《2023大模型落地应用案例集》（以下简称“《案例集》”）。　　作为首部聚焦落地应用的权威研究成果，《案例集》全面展示了大模型前沿技术和发展成果，推动了大模型为代表的人工智能技术赋能社会经济高质量发展。经专家组的多轮评审，共52个各自领域的典型大模型技术落地应用成功入选。　　2022年底ChatGPT的横空出世，引爆了国内外大模型的热情，各行各业的创业者已经集结在十字路口蓄势待发。　　从国内市场来看，目前人工智能（AI）大模型已经在各行各业“落子不断”。据公开资料不完全统计显示，国内大模型的发展路径是“通用+垂直”两条腿走路，其中垂类大模型落地速度最快。《案例集》显示，有近65%+的AI大模型是垂直大模型。　　趋势已然，大模型技术突破代表了AI发展的一个重要里程碑，下面笔者将梳理中国从业者构建的“底层原创技术-中层基础模型-上层行业应用”的大模型图鉴。 **　　PART 1**

**　　大模型领域中国学者的技术贡献**

图注：ResNet的四位作者分别是：何恺明、张祥雨、任少卿、孙剑　　2016年，来自微软亚洲研究院的四位学者提出深度残差学习（ResNet），解决了深度网络的梯度传递问题。要知道，2015年之前深度学习最多只能训练20层，ResNet之后，就可以有效地训练超过百层的深度神经网络。

　　2017年Google发布Transformer，它的出现打稳了AI大模型的“地基”，不仅“颠覆”了自然语言处理（NLP）中的机器翻译任务，而且还提供了一种新的思路来处理图像数据。　　中国学者也围绕Transformer做了许多改进和完善，例如微软亚洲研究院联合西安交通大学推出LONGNET，将Transformer的序列长度扩展10亿+；京东探索研究院联合武汉大学提出全球首个面向遥感任务设计的亿级视觉Transformer大模型；阿里达摩院提出新的Transformer结构FMViT，大幅度提升AI模型精度与速度…… 　　在大模型领域细数中国学者贡献，许多原创性贡献来自本土。已故的商汤科技创始人汤晓鸥（缅怀）在2023世界人工智能大会上，发表演讲时表示：在深度学习的大门上，我们按了18次门铃，取得了许多跨时代的突破。其中汤晓鸥提到了上海人工智能实验室领军科学家林达华，他当时设计的计算机视觉开源算法体系OpenMMLab，目前已经成为国际上最具影响力的视觉算法开源体系。值得一提的是，林达华也是书生大模型体系的重要贡献者。　　京东探索研究院早在2021年年初就展开了大模型体系（超级深度学习）的建设和基础研究，领导京东建设了中国第一个NVIDIA DGX Superpod天琴alpah-α超算集群。在此基础上，京东探索研究院的织女模型vega v2 在2022年登顶SuperGLUE榜首，一举超越同场竞技的谷歌、微软、Meta等业界顶尖企业；2021年研究院开发的大规模视觉模型ViTAE，在ImageNet Real的目标识别和MS COCO的人体姿态估计等权威榜单上均获得世界第一。

　　图注：（上）2022年京东探索研究院发表论文《Self-Evolution Learning for Discriminative Language Model Pretraining》，提出自我进化学习方法，为vega v2大模型的设计提供核心思想；　　（下）2021年京东探索研究院发表论文《ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias》，尝试将 CNN和transformer相结合。　　因此，国内公司的 AI 大模型研发虽然比国外公司晚，但是发展却异常地迅速，其内在逻辑便是：本土企业和学者对深度学习技术的深入理解与创新。在大模型的底层技术已经固定的时代，他们靠着持续的探索和努力才能构建出秀丽的“上层建筑”。　　在OpenAI发布ChatGPT之前，国内的一些企业就已经押注AI大模型技术：例如2021 年 4 月，华为云联合循环智能发布盘古超大规模预训练语言模型，参数规模达 1 000 亿；2021 年 6 月，北京智源人工智能研究院发布了超大规模智能模型“悟道 2.0”，参数规模达到 1.75 万亿；2021 年 12 月，百度推出 ERNIE 3.0 Titan 模型，参数规模达 2 600 亿，同期，阿里巴巴达摩院的 M6 模型参数达到 10 万亿，将大模型参数直接提升了一个量级。　　到2023年，大模型继续火热，国内的AI大模型团队已逐渐拓展到视觉、决策领域，甚至用于解决蛋白质预测、航天等领域的重大科学问题，阿里、京东、oppo等大厂都有相应的成果。 **　　PART 2**

**　　大模型应用拐点已至**

　　图灵奖获得者Yann LeCun说过：AI大模型的技术都是公开的，算不上底层技术上的创新，如果你愿意一探究竟的话，可以发现它背后没有任何秘密可言。　　但借着这些“过时”的技术，在中国拥有庞大的人才基数和数据集的情况下，可以发展出更适合本土环境和语境的大模型。　　那么如何形象理解大模型?前科技部长王志刚从高维度表示,大模型,就是大数据、大算力、强算法。形象一些：大模型事实上就是算法、数据、算力上的有效结合。传统巨头在大模型领域的技术投入普遍都是在积极防御，而中国企业在非常积极地推动向应用中的落地。　　目前，业界除了把AI大模型商业落地模式统分为 toB 和 toC之外，在市场划分上则遵循通用与垂直两大路径，两者在参数级别、应用场景等方面差异正在显性化。　　通用大模型往往是指具备处理多种不同类型任务的AI模型，这些模型通常是通过大规模的数据训练而成，能够在多个领域和应用中表现出良好的效能。大家耳熟能详的几个通用大模型均来财力雄厚的企业：　　1.书生浦语开源大模型：由上海人工智能实验室研发，涵盖 70 亿参数的轻量级版本 InternLM-7B，以及 200 亿参数的中量级版本和 InternLM-20B，以及完整的开源工具链体系。InternLM-7B 在包含 40 个评测集的全维度评测中展现出卓越且平衡的性能，它在两个被广泛采用的基准 MMLU 和 CEval 上分别取得了 50.8 和 52.8 的高分，开源一度刷新了 7B 量级模型的纪录。　　2.昆仑万维天工大模型：“天工”是一个 AI 搜索引擎，一个对话式 AI 助手。“天工”拥有强大的自然语言处理和智能交互能力，能够实现个性化 AI 搜索、智能问答、聊天互动、文本生成、编写代码、语言翻译等多种应用场景并且具有丰富的知识储备，涵盖科学、技术、文化、艺术、历史等领域。　　3.通义千问 2.0：由阿里云研发的超大规模的语言模型，具备多轮对话、文案创作、逻辑推理、多模态理解、多语言支持等功能。通义千问 2.0 在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均比上代有显著提升。　　4.MiniMax-abab：由科技创业公司MiniMax研发。据悉，“Max-abab”是文本、语音、视觉三模态的千亿参数大语言模型，在中、英文服务领域均已超过GPT-3.5 的水平。今年8月份，“MiniMax-abab”大模型通过了国家首批大模型服务备案，面向社会公众提供服务。　　5.言犀基础大模型：由京东科技研发，该模型融合了70%的通用数据和30%的数智供应链原生数据，具有更高的产业属性。　　6.百灵语言大模型：由蚂蚁集团基于Transfromer架构研发。该模型基于万亿级Token语料训练而成，支持窗口长度达32K，在主流推理类榜单中排名前列。据悉，蚂蚁百灵大模型已完成备案，基于百灵大模型的多款产品已陆续完成内测，正陆续向公众开放。

　　这些通用大模型包含千亿甚至万亿参数，覆盖自然语言处理、图像识别、语音识别等方面的任务，已在知识问答、医疗咨询、娱乐领域、视频生成等数十个行业场景领域，展现出广阔的落地应用潜力。　　与通用大模型相比，垂类大模型参数量相对较小。但是因为有一些行业的核心数据和业务系统的生产数据参与，所以在相应行业解决问题更为高效、直接。　　从《案例集》来看，在金融、教育、医疗等领域，已经有不少公司发布了相应产品。

　　根据《案例集》入选案例的应用场景，垂类大模型更针对于企业级应用场景的垂直性和专业性要求，而在模型部署层面，更少的模型参数、训练数据意味着更少的成本，因此垂直应用领域有望实现“万模齐发”。　　《案例集》公布的名单，也恰恰验证了目前垂类大模型发展的一些趋势：　　1. 加注端侧、边缘侧应用。轻量化参数能让手机助手接入AI大模型能力。目前已有案例包括OPPO的小布助手、华为的智能助手小艺等等。　　2. 更倾向于“解决方案”式的交付方式。由于垂类大模型接受了大量特定领域的数据和知识，因此可以基于领域知识生成更具深度的解决方案。例如ChatDD 新一代对话式药物研发助手，面向游戏行业的图像内容生成式大模型等等。　　3. 大模型开始向多模态领域发展。多模态意味着丰富的数据形式，包含视觉、听觉和时序信息。对于大模型模型来说，这意味着可以从多模态中提取和学习更多维度的信息。类似于《案例集》中的单晶炉自动化工艺识别多模态模型，相信未来将会出现更多。　　4. “通用+垂直”模型互相融通的态势。随着AI技术的发展，不同类型的模型之间的界限变得越来越模糊。例如，一些通用模型开始整合垂直领域的知识，而一些垂直模型也开始利用通用模型的技术来增强其功能。例如百川大模型在娱乐领域的应用。 **　　PART 3**

**　　抢滩大模型未来：构建生态**

　　对于AI大模型这种划时代的超级机遇而言，胜负不在于做出一个爆款应用，赚到几亿盈利，而在于，是否抓到了大时代的方向。　　换句话说，当下的大模型竞争早已超过了技术的范畴，更多是一种生态层面的比拼，具体表现在有多少应用、有多少插件、有多少开发者以及用户等。谁能够率先围绕大模型构建生态，或者说谁率先融入生态，谁就能成为领先者。　　大模型要想像电力一样输送给千行百业和千家万户，必然需要一个体系化的产业生态，构建这个生态需要一系列相互关联的因素，包括技术发展、应用场景、数据管理、伦理与法律问题、以及社会影响等。　　在生态建构的路径上，目前企业可分为两派。一派将大模型接入原有的产品线，做升级和优化；另一派试图以大模型产品为中心，建构新一代的“超级应用”。而有些企业试图跳过这两种路径，多方面融入AI大模型生态。从《案例集》公布的大模型服务类案例，我们可以看到有些中国企业做了以下尝试：

　　例如蚂蚁集团实现了一个大模型数据高效高质量供给平台，不仅可降低数据获取和使用成本，且保证来源合规，并能够有效提升数据质量、过滤风险数据保障训练安全；优刻得开发的AGI云上模型服务平台，能提供数据标准化整合、安全合规、提供算力等服务；上海道客研发的云原生大模型知识库平台能够帮助解决信息孤岛，以及定制个性化的私人语料库；泡泡玛特的AI 整合平台集成多个知名AI大模型，为用户提供一站式 AI服务…… 　　这些大模型服务工具，在一定程度上能有效地解决“幻觉”、“道德”、“性能”、“数据合规”等当前AI大模型遇到的问题。更重要的是借助这些服务，可以建设规范可控的自主工具链，帮助AI企业探索“大而强”的通用模型，助力公司研发“小而美”的垂直行业模型，从而构建基础大模型和专业小模型交互共生、迭代进化的良好生态。　　具体内容如下

成为VIP会员查看完整内容

170

318

大模型 · 大型语言模型 · ChatGPT ·

2023 年 4 月 3 日

重磅！人大等最新《大模型》综述，51页pdf详述大型语言模型进展

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

自20世纪50年代图灵测试被提出以来，人类一直在探索机器对语言智能的掌握。语言本质上是一个受语法规则支配的复杂的人类表达系统。这对开发有能力的人工智能(AI)算法来理解和掌握语言提出了重大挑战。作为一种主要的语言建模方法，在过去的二十年中，语言建模在语言理解和生成方面得到了广泛的研究，从统计语言模型发展到神经语言模型。最近，通过在大规模语料库上预训练Transformer模型，人们提出了预训练语言模型(PLM)，在解决各种自然语言处理(NLP)任务方面显示出强大的能力。由于研究人员发现模型缩放可以导致性能提高，他们通过将模型大小增加到更大的尺寸来进一步研究缩放效应。有趣的是，当参数规模超过一定水平时，这些放大的语言模型不仅实现了显著的性能提升，而且显示出一些在小规模语言模型(如BERT)中不存在的特殊能力(如上下文学习)。为了区别参数规模的差异，研究界创造了大型语言模型(LLM)这个术语，用于表示规模巨大的PLM(例如，包含数百亿或千亿参数)。近年来，学术界和工业界对LLMs的研究取得了很大进展，其中最显著的进展是基于LLMs开发的ChatGPT(一个功能强大的人工智能聊天机器人)的推出，引起了社会的广泛关注。LLM的技术发展对整个AI社区产生了重要影响，这将彻底改变我们开发和使用AI算法的方式。鉴于这种快速的技术进步，本综述通过介绍背景、关键发现和主流技术，回顾了LLM的最新进展。重点关注LLM的四个主要方面，即预训练、自适应调优、利用率和能力评估。此外，还总结了开发LLM的可用资源，并讨论了剩余问题，以供未来发展方向。本综述提供了关于LLM的文献的最新综述，对于研究人员和工程师来说，这可以是一个有用的资源。

成为VIP会员查看完整内容

205

371

军事防务 · 美国海军部 · 无人作战 · 分布式海上作战（DMO） ·

2022 年 9 月 6 日

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

美国海军部长

托马斯-W-哈克: 海军部长（代理）

美国海军部正在有目的地进行创新和适应新技术，为未来建立一支更具杀伤力和分布式的海军部队。为了在一个大国竞争的时代进行竞争并取得胜利，海军部致力于在先进的自主性、强大的网络和无人系统方面进行投资，以创造真正的人机一体化团队，在整个舰队中无处不在。

这些持续的投资将产生新的能力，远远超出独立的平台或以人为本的系统的有效性。它们将通过为每一个水手和海军陆战队员提供不对称的优势来改变海战。

美国海军和海军陆战队现在已经迈出了下一步，调整无人系统愿景，以执行分布式海上作战（DMO）和有争议环境中的濒海作战（LOCE）。为了确保成功，海军和海军陆战队正在将需求、资源和采购政策紧密结合起来，以便更快地开发、建造、整合和部署有效的无人系统。

美国海军部的无人驾驶作战规划横跨整个理论、组织、培训、物资解决方案、领导和教育、人员、设施和政策的构建。这份文件提供了运动计划的总体框架，并得到了更高等级的详细实施计划的支持。它们共同勾勒出一个具体的战略，其根基是对当今每个领域的现实评估。前进的道路需要一个整体的方法来开发和部署无人系统，确保个别技术可以在一个更广泛的网络化作战系统架构中运行，并得到正确的人员、政策、作战概念和其他推动因素的支持。

整个海军企业致力于为美国和每一个水手和海军陆战队员提供人机协作所提供的战略和战术优势，以保证所有人的海洋自由。

美国海军水手和公务员水手从美国海军 "赫歇尔 "号上发射一个无人水面飞行器（USV）从USNS赫歇尔伍迪-威廉姆斯，2019年9月14日。

美国海军作战部部长

M. M. GILDAY：美国海军作战部长海军上将

随着海军适应日益复杂的安全环境，必须了解未来的部队在日常竞争和高端战斗中都需要什么。

无人系统（UxS）已经并将继续在未来的分布式海上作战（DMO）中发挥关键作用，而且显然需要部署负担得起的、致命的、可扩展的和连接的能力。这就是为什么海军正在扩大和发展一系列无人驾驶飞行器（UAV）、无人驾驶水下航行器（UUV）和无人驾驶水面舰艇（USV），当把重点转向以更分散的方式运作的小型平台时，它们将发挥关键作用。

一个混合舰队对于海军满足新出现的安全问题来说是必要的。需要平台在所有领域的多轴上同时提供致命和非致命的效果。UxS将为未来舰队提供额外的能力--在空中、在水面上和在水下。

该活动计划将作为实现无人系统作为海军作战团队的一个组成部分的未来的全面战略。它将是一份活的、反复的文件，阐明愿景，即通过加快技术、流程和伙伴关系中的关键使能因素，建立一支更加准备就绪、致命和有能力的舰队。

注意到过去的缺点，因此其方法是深思熟虑的，但有一种紧迫感。将解决理论、组织、训练、物资、领导和教育、人事、设施和政策（DOTmLPF-P）的各个方面，确定并消除能力差距，并努力创建和维护未来的海军部队。

MQ-25 T1，左翼下有空中加油站，在坡道上。

海军陆战队司令员的致辞

大卫-H-贝格尔：美国海军陆战队将军海军陆战队司令员

美国、盟国和敌方部队获得无人驾驶技术的速度要求有一个愿景和路线图来最大化这种能力。海军陆战队需要无人驾驶的空中、水面和地面系统来充分利用固有的远征性质和能力。与海军伙伴合作，将提供一个联合部队的海上组成部分指挥部，在居住的独特海域支持联合部队。当在恶劣的条件下以小队形式在前方作战时，最大限度地利用无人系统为盟友和对手创造巨大的效果的能力是未来成功的一个关键因素。

该战役计划作为海军陆战队的一个起点，使其了解到无人系统在不久的将来必须而且将具有更大的重要性。诸如一半的航空机队在近期到中期内实现无人驾驶，或者大部分的远征后勤在近期到中期内实现无人驾驶的概念不应该让任何人感到害怕。相反，这些想法应该点燃海军陆战队的创造性和狡猾的天性，以便前沿部署部队对联合部队更加致命和有用。

大卫-H-贝格尔和海军作战司令部（CNO）一起，致力于为海军陆战队的无人驾驶系统制定一个审慎但积极的前进路线。这份文件提供了初步的愿景，并取决于与海军陆战队舰队、舰友、联合部队、国会、盟友和工业界的反复讨论。大卫-H-贝格尔希望海军陆战队能接受这种未来的战争，并将其转化为他们在战场上的优势；从日常竞争到大规模作战行动。

一架VBAT垂直起降（VTOL）无人机系统准备在飞行甲板上降落。准备在海军舰艇的飞行甲板上着陆。一艘海军舰艇的飞行甲板上。

美国海军作战架构

无人系统通过解除对有人系统的限制来提供实现任务结果的能力。仅靠搭建平台是无法实现任务成果的。为了在无人空间提供整体解决方案，DON 将更加关注开发成功扩展投资经验所需的推动力。其中一些关键推动因素包括：网络、控制系统、基础设施、接口、人工智能和数据。海军和海军陆战队正在设计和实施一个全面的作战架构来支持 DMO。这种架构将为单位、作战群和舰队提供准确、及时、分析的信息。

成为VIP会员查看完整内容

272

446

Palantir · 军事防务 ·

2025 年 1 月 22 日

《深度解析Palantir》报告，71页ppt

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

Palantir是硅谷的一家软件公司，应用大数据、AI等技术服务于客户的海量数据处理、业务逻辑建模、执行操作流程等业务需求。截至2025年1月18日，公司市值1635亿美元，超过了雷神、波音、洛·马等一众美股军工巨头。　　Palantir成立于2003年，由著名投资人和企业家彼得·蒂尔（Peter Thiel）、卡普（Alex Karp）和另外三位联合创始人一起创立。2005年，公司获得了美国中情局（CIA）风险投资部门In-Q-Tel的首轮投资，2005-2008年，CIA是公司的唯一大客户；2010年，摩根大通成为Palantir首位商业客户，公司业务实现向toB的拓展。2023年，Palantir公司收入22.25亿美元，其中政府业务贡献约55%的营收，商业业务贡献约45%的营收，并且首次实现盈利，归母净利润2.10亿美元。2024Q1-Q3，公司营收20.38亿美元，同比增长26%，毛利率基本稳定，实现净利润3.83亿美元。　　Palantir核心产品包括四大平台，应用于政府、商业的多个行业。Palantir开发了Apollo、Gotham、Foundry和AIP四大平台，Apollo为底层技术平台；Gotham用于生成全球决策的操作系统，服务于政府和国防；Foundry是基于本体论的现代企业操作系统，在复杂环境中协调和自动化决策；AIP接入openAI等大语言模型，在应用中使用AI实现代理和自动化。公司在DPO时，其产品已经在36个行业应用，包括国防、医疗、能源、供应链、汽车、金融等。　　接入人工智能是Palantir重要的技术和能力，AIP具有模块化、可互操作的特点，允许在任何开发环境中使用任何语言构建自定义应用程序，无代码构建者可以使用AIP的应用程序构建；Foundry依靠数据集成、数字孪生、动态调度、边缘人工智能等技术，方便客户便捷、迅速地部署、决策；Gotham的Titanium桌面客户端提供统一且安全的界面来访问所有平台功能，MetaConstellation与现有卫星网络集成，优化数百个轨道、地面和飞机传感器以及AI模型，协调数百颗卫星解决复杂问题。从专利技术上看，韩玲等《Palantir公司大数据专利技术路线及重点专利分析》检索了Palantir在全球公布的3874件专利，核心专利技术主要涉及物理G部和电学H部，绝大多数在G部，包括G06F17、G06F3、G06F16，旨在提升计算机数据的获取、处理和展示各个环节中的效率。此外，强大的顾问团队提供丰富的专业知识，Palantir顾问团队包括前代理国防部副部长Christine H.Fox、美国退役将军Carter F.Ham、前美国空军部长Deborah Lee James、退役海军上将William H.McRaven等。　　Palantir的国防业务覆盖了美国陆军、美国太空部队、美国特种作战司令部以及英国国防部等客户。Palantir首先与陆军研究实验室合作，在2018年为前线人员提供最先进的运营数据和人工智能能力。2019年12月，美国陆军选择了Palantir，签订了一份价值4.58亿美元的生产协议，为陆军Vantage提供支持，2024年12月18日又签订四年4.01亿美元合同，最高上限可达6.19亿美元。此外，公司还支持了Capability Drop2项目、TITAN计划、JADC2系统。2020年，Palantir开始与美国太空部队合作，2022年5月，合同累计总额达到1.75亿美元。自2016年以来，Palantir的平台一直被特种作战司令部（USSOCOM）用于实时任务操作，2023年6月5日，公司宣布获得美国特种作战司令部(USSOCOM)的合同，这份多年合同价值高达4.63亿美元。除美国军方外，公司还服务英国国防部等客户，2022年12月21日，Palantir宣布与英国国防部达成协议(EA)，该合作项目价值7500万英镑，为期三年，将支持英国国防部的数字化转型。　　Palantir的首席执行官Alex Karp曾多次援引奥本海默的话，形容人工智能的发展已经走到了类似奥本海默开发核武器时的十字路口。Palantir和国防科技公司Anduril正在与十几家竞争对手谈判，计划组建一个科技联盟，共同竞标美国政府的项目，其目标是挑战美国的传统国防巨头，如洛克希德马丁，诺斯罗普格鲁曼、波音和雷神等。　　美军对于软件的重视程度非常高，投入巨大；美军核心软件采购对于新兴企业是开放的；美军在AI领域的应用是领先的，并且AI在向边缘拓展。我们认为，大数据与AI技术在未来作战中将起到越来越重要的作用，我军应充分利用国内大数据与AI领域优势企业，如互联网企业、汽车自动驾驶相关企业或者其他新兴企业，来实现作战体系的现代化升级，并将AI拓展应用至边缘，实现装备从无人化到智能化的转变。国内相关上市公司包括中科星图、航天宏图、第四范式、观想科技、能科科技、华如科技、格灵深瞳等。

成为VIP会员查看完整内容

120

211

ChatGPT · 报告 ·

2023 年 2 月 15 日

【ChatGPT系列报告】ChatGPT研究框架，64页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

ChatGPT系列报告：

**刷爆的ChatGPT什么算法这么强！台大李宏毅老师国语讲解《ChatGPT (可能)是怎么炼成的》！ **

**深度学习算法发展简述，从DNN到Transformer再到ChatGPT **

**【哈工大SCIR】浅析ChatGPT的原理及应用 **

ChatGPT最新解读报告：开启AI新纪元，31页ppt

最新《ChatGPT》报告，风口已至，商业化落地加速, 14页pdf

ChatGPT与AIGC深度报告：引领AI新浪潮，AIGC商业化启程

AIGC行业深度报告：ChatGPT：重新定义搜索“入口”

ChatGPT研究框架（2023），72页ppt详解现象级ChatGPT发展历程、原理、技术架构详解和产业未来，

《ChatGPT：利用最先进的技术支撑多域作战》

AIGC的技术发展和应用：ChatGPT，20页pdf

ChatGPT核心技术：强化学习PPO算法

ChatGPT 专题| ChatGPT报告：从ChatGPT到生成式AI：人工智能新范式，重新定义生产力,100页pdf

【芯片算力】▲芯片需求=量↑x价↑，AIGC拉动芯片产业量价齐升。1）量：AIGC带来的全新场景+原场景流量大幅提高；2）价：对高端芯片的需求将拉动芯片均价。ChatGPT的“背后英雄”：芯片，看好国内GPU、CPU、FPGA、AI芯片及光模块产业链。　　相关标的：海光信息、景嘉微、龙芯中科、中国长城、安路科技、复旦微电、紫光国微、寒武纪、澜起科技、德科立、天孚通信、中际旭创。　　【深度学习框架】深度学习框架是人工智能算法的底层开发工具，是人工智能时代的操作系统，当前深度学习框架发展趋势是趋于大模型训练，对深度学习框架的分布式训练能力提出了要求，国产深度学习框架迎来发展机遇。　　相关标的：百度、海天瑞声、商汤科技、微软、谷歌、Meta。　　【深度学习大模型】ChatGPT是基于OpenAI公司开发的InstructGPT模型的对话系统，GPT系列模型源自2017年诞生的Transformer模型，此后大模型数量激增，参数量进入千亿时代，国内百度也发布了ERNIE系列模型并有望运用于即将发布的文心一言（ERNIEBot）对话系统，未来国内厂商有望在模型算法领域持续发力。　　相关标的：百度、科大讯飞、商汤科技、谷歌、微软。　　【应用】ChatGPT火爆全球的背后，可以窥见伴随人工智能技术的发展，数字内容的生产方式向着更加高效迈进。ChatGPT及AIGC未来有望在包括游戏、广告营销、影视、媒体、互联网、娱乐等各领域应用，优化内容生产的效率与创意，加速数实融合与产业升级。　　相关标的：百度、腾讯、阿里巴巴、网易、昆仑万维、阅文集团、捷成股份、视觉中国、风语筑、中文在线、三七互娱、吉比特、天娱数科。　　【通信】AIGC类产品未来有望成为5G时代新的流量入口，率先受益的有望是AIGC带来的底层基础算力爆发式增长。　　相关标的：包括算力调度（运营商）、算力供给（运营商、奥飞数据、数据港）、算力设备（浪潮信息、联想集团、紫光股份、中兴通讯、锐捷网络、天孚通信、光库科技、中际旭创、新易盛）、算力散热（英维克、高澜股份）。

成为VIP会员查看完整内容

168

393

军事防务 · 联合全域指挥与控制 (JADC2) · 美国陆军 · 报告 · 美国陆军协会 ·

2022 年 5 月 24 日

完整译文-《美国陆军和联合全域指挥与控制 (JADC2) ：通过融合实现决策优势》2022最新报告

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

随着美国为大国竞争而重组其军队，战场的有效性将取决于美军是否有能力超越其近似竞争对手的决策周期。速度是关键--军队如何快速从其传感器中收集数据，分析数据，辨别重要信息，将其发送给相关作战人员并作出最佳反应。一支日益一体化和互操作性的部队，对共同作战环境有共同理解，对于军队完成能力融合至关重要。

美国防部联合作战概念（JWC）描述了全域作战，并设想了一个联合杀伤网，它可以通过全域联合指挥和控制（JADC2）的支持概念，快速有效地将任何传感器与任何投射能力联系起来，这就是融合的原则。实现融合要求各军种之间专注聚焦，确定优先次序并进行协同。美国陆军将在JADC2中发挥核心作用，因为它为作战和战术网络的发展提供信息；为JWC提供后勤骨干；并在一系列与各部门、机构和国际合作伙伴的合作实验中测试融合。

0 概述

议题：随着美国军队为大国竞争而进行的转型，战场效率将在很大程度上取决于其超越同行竞争对手决策周期的能力。
聚焦范围：描述了陆军和联合实施JADC2的情况。
观点：
- 在一个共同的作战环境中，数据管理和共享对于军队实现必要的能力融合至关重要。
- JADC2要求国防部和陆军进行变革，特别是在数据共享、网络支持能力、决策周期中的人工智能（AI）以及对部队结构的调整方面。
- JADC2是关于获取数据和有效连接；它不是一个特定的平台。

1 战略环境

在2020年以后，美国军队必须具有战略上的敏捷性、反应性和致命性。中国和俄罗斯正在大力投资，以减轻美国在陆地、空中、海上、太空和网络空间各个领域的能力。

通过快速移动平台维持的反介入/区域拒止（A2/AD）能力，争夺进入战场的机会。
利用日益增长的城市化和其他阻碍视距瞄准的地形。
利用战略上敏感和动态的环境。

在有可能限制联合部队战略部署和使用其部队能力的情况下，需要一个现代化的指挥和控制（C2）机构，能够迅速汇集美国及其盟国的所有能力，以威慑，并在必要时击败近邻和其他竞争对手。

1.1 遗留系统的不足之处

目前的C2项目使用的是几十年前的平台，"没有针对未来冲突的速度、复杂性和杀伤力进行优化"。目前的平台各军种不能有效地利用或发送数据、命令给其他军种，而且它们的结构不能支持实现未来的C2。2018年国防战略（NDS）强调了C2系统现代化的重要性，指出在退化的环境中未来的战斗将以速度、更多的自主权和分布式的单位获胜。

2 联合作战概念（JWC）

美国防部领导层设想了一个在战场上没有界限的未来，围绕着一个统一的C2系统，其中一个多领域的方法--参与和整合地面、空中、海上、网络和空间作战--对于挑战一个近似的对手是必要的。JWC是一个关键的概念，并且正在推动未来的研发和采购，同时也在整合作战指挥部的审查和服务计划。因此，该概念的发展是国防部的一个优先事项。

图：全域联合指挥与控制（JADC2）通过实时终端用户报告和协作规划，协同多个数据源，在国防支持民事当局行动期间，准确地在联合特遣部队民事支持(JTF-CS，美军机构) 可能需要的地方提供支持能力。

注1：联合作战概念的四个支持性概念

指挥与控制
火力
后勤
信息优势

2.1 JADC2

美国防部JADC2战略于2021年5月由国防部长劳埃德-奥斯汀批准，阐明了国防部实施JADC2的方法；它将JADC2描述为感知、探测和行动的作战能力，从而提高从冲突到竞争以及所有领域的互操作性和决策速度。JADC2是一个以数据为中心的持续C2能力框架，它支持JWC，并使联合部队能够迅速汇集有助于威慑的效果，并通过决策优势使任务取得成功。

JADC2指的是所有联合C2的实施，包括：

构建其连接性的架构。
授予权力。
整合人工智能（AI）决策。
提供梯队的人员能力。
培训领导人。
同步工作人员并赋予他们实时决策的权力。

由于速度和规模在未来的战斗中至关重要，JADC2将建立一个网状网络，实时将各部门的数据带入一个 "可共享的数据湖"，将来自所有领域--陆地、空中、海上、太空和网络空间的传感器连接起来。利用人工智能软件、数据库、处理器和算法，它将把侦察信息转化为可识别的和优先的目标，比人类分析员更快。目标数据将被发送到处于最佳位置的单位/能力，无论是动能、网络、电子战（EW）还是信息作战（IO）。

JADC2及其网状网络可以被看作是一个安全的战斗互联网，军事应用程序在上面进行连接，从所有可用的来源搜寻数据，以迅速将最佳的 "投射 "或 "效应器 "与目标联系起来。JADC2可以提供无处不在的数据，不同的人类和机械数据可以根据需要使用。归根结底，JADC2不是一个特定的平台；它是获取数据并有效连接。

图：联合参谋部的JADC2作战规划实验，允许陆军、海军、空军和海军陆战队的节点共享实时的信息，以实现传感器与投射的联系，并将其显示在一个共同的作战画面上（美军联合现代化司令部）。

2.2 各军种间的合作

所有军种都同意需要将JADC2作为一项组织战略。2020年，陆军和空军签署了一项协议，在2022财政年度（FY22）之前分享数据并制定共同的数据和接口标准；在多次实验中，他们在这方面取得了成功。此外，陆军、海军和空军在2021年初签署了一项合作协议，以测试、整合和分享数据开发，以实现JADC2。

3 陆军的角色

陆军现代化战略描述了陆军将如何作战，用什么作战以及如何组织起来支持联合部队。陆军致力于发展作战网络、技术和概念，通过一系列名为 "项目融合"（PC）的演示和实验来实现超额匹配并为联合部队提供信息。这是一场持续的学习运动，旨在迅速 "融合"所有领域（陆地、空中、海上、太空和网络空间）的效果，并塑造陆军的新兴理论、组织、训练、能力、研究和发展以及后勤。

通过实验和学习，"项目融合"有助于确保军队在适当的地方拥有适当的人员、适当的系统、适当的能力，以支持联合战斗。——陆军参谋长詹姆斯-麦康威尔将军

"项目融合"（PC）：学习运动

PC由五个核心要素组成：

确保合适的人员和人才。
将陆军现代化工作与八个陆军未来司令部跨职能小组（CFT）联系起来，这些小组与陆军现代化的六个优先事项相一致。
拥有正确的指挥和控制，以应对节奏越来越快的威胁。
使用人工智能对信息进行分析和分类，并在陆军网络中进行传输。
在 "最严苛的地形"中测试能力。

每项实验都通过新的架构、编队和来自陆军八个CFT的授权来融合现代化举措，并深化陆军现代化举措的整合。这些努力正在加速2018年国防战略中概述的现代化战略，该战略设想未来的战斗将在退化的环境中以拥有速度、自主性和分布式能力的单位获胜。

表：陆军未来司令部项目融合战略20-22财年

在亚利桑那州尤马的 "项目融合2020"（PC20）持续了几个月，展示了人工智能和机器人技术，包括两次实弹演示。该实验由士兵、平民、科学家和工程师设计，在最低作战水平上测试了融合，以挑战战术边缘的决策过程。其中一项测试使用卫星和无人驾驶航空系统：同时感知空中和地面目标；迅速将数据传递给平台，以打击目标；并在十几秒内决定性地摧毁该目标。

图：2021年10月19日，在亚利桑那州尤马试验场，被分配到第82空降师的美国陆军一等兵丹尼尔-坎达尔斯使用战术机器人控制器来控制远征模块化自主车辆，为 "项目融合"做准备。在2021年项目融合期间，士兵们试验使用该车辆进行半自主侦察和再补给（美国陆军中士马里塔-施瓦布摄）。

对实现JADC2能力的另一个贡献是陆军继续倡导将其从联合（joint）扩展到 "结合（combined）"--CJADC2--因为任何网络都需要包括盟友和合作伙伴。陆军在亚洲和欧洲有着深厚的军队间关系，应该站在这种重要努力的最前沿。认识到这一点，陆军21/22财政年度的PC战略将参与范围扩大到了结合伙伴和盟友，增加了指挥层级并使之多样化，并推动了现代化概念和技术的极限。

注2：项目融合（Project Convergence）：项目融合是联合部队对速度、射程和决策主导权的实验，以实现超额完成任务，并为联合作战概念和全域联合指挥与控制提供信息。作为一场学习运动，它利用一系列联合的、多领域的交战来整合人工智能、机器人技术和自主性，以提高战场态势感知，将传感器与投射连接起来，并加快决策的时间线。因为谁能最先看到、了解并采取行动，谁就能获胜。

注3：项目融合的五个核心要素

1.人
2.武器系统
3.指挥和控制
4.信息
5.地形

4 挑战

JADC2要求国防部和陆军进行转型，特别是在数据管理和共享、网络支持能力、人工智能在决策周期中的作用以及为实现这些变化而对部队结构进行调整。陆军现代化战略及其现代化优先事项是持续转型的框架，以使陆军能够在多个领域进行部署与聚合效应。

注4：军队现代化的优先事项六大任务

远距离精确射击
下一代战车
未来的垂直升降机
陆军网络现代化
空中和导弹防御
士兵杀伤力

4.1 数据共享和网络能力

一个用于C2的综合战斗管理系统需要在数据共享和标准化数据共享接口方面进行通信；然而，许多遗留系统包含数据共享障碍。2021年初，各军种之间开始认真工作，制定数据标准以连接他们的JADC2项目，并通过 "发现、理解和与所有领域、梯队和安全级别的合作伙伴交换数据 "来克服这些障碍。

陆军的网络CFT正在试验网络的现代化，以实现联合接口、弹性和能力。它的重点是加强地面领域的数据和网络传输能力，连接人工智能和机器学习（AI/ML），开发战术云和边缘计算。

4.2 联合部队实验

国防部正在制定和实施一套初步的实验和原型设计的核心原则，以统一国家安全事业。联合部队已经确定了几个原型能力，通过将真实世界的威胁数据纳入响应计算，在即将举行的演习中进行测试。陆军联合现代化司令部建立了联合系统集成实验室（JSIL）--一个使用持久性环境场景的实验网络，允许各军种、工业界和盟友通过几个网络测试数据共享能力。这将有助于对JADC2战略进行可靠的评估。

4.3 最大限度地利用空间、人工智能和网络

由美国太空发展局管理的低地球轨道（LEO）卫星将整合各军种的战术网络，以创建一个网状网络的传输层。计划于2022年部署的近30颗卫星将提供一种 "作战人员沉浸 "能力，其中传感器、投射和战术网络可以与战术通信连接。PC22将利用这些卫星，开发低地轨道能力。

人工智能国家安全委员会报告称，国防部有必要在2025年前采用、实施人工智能并为其提供资源。人工智能/ML--陆军的一个优先研究领域--对于在联合、全域作战中实现联合战场管理系统至关重要。人工智能的进步提高了对新出现的威胁的反应速度和敏捷性，使指挥官和工作人员能够将精力集中在加速、优化决策上。

建设网络安全基础设施是陆军网络计划的一个关键方面，它将为统一的网络带来速度、访问和安全。在平衡这些要求的同时，美国网络司令部正在与行业伙伴密切合作，扩大用于在国防部、情报界和商业网络之间传递数据的安全共享工具，而不存在被破坏的风险。

图：作为 "项目融合2020"的一部分，飞马系列战术自主系统的一部分在尤马试验场进行测试。飞马系统有能力为无人驾驶航空系统（UAS）、地面行驶履带式车辆，提供监视能力或创建一个地区的丰富详细的三维地图。

5 前进之路

决策主导权--在技术和融合的作用下更快地做出更好的决策的能力--将使美国军队从其对手中脱颖而出。JADC2有助于实现信息主导权，并促进快速融合，实现速度关键优势，这是未来AI/ML竞争的基础。

目前，每个军种都在其各自领域内管理C2的复杂性。随着战争的特点变得越来越复杂，联合部队必须同时有效地整合五个领域。这需要新的C2方法。JADC2是建立一支能够完成国防战略目标的联合部队的基础。国会的支持、持续的资助和军种间的合作对于成功实施JWC和JADC2至关重要。

陆军在实现这一联合网络的技术、创新和实验方面处于领先地位。它的PC学习运动已经证明了它有能力使用新兴技术和创新概念来实现军种间和跨域的融合。陆军的未来司令部、CFTs、作战能力发展司令部和软件工厂正在结合士兵的经验、工业界的资源和科学家的专业知识来发展和提供未来的战斗力量。通过实验和联合协作，陆军正在使JADC2成为现实，从而增强战略竞争中的威慑力和冲突中的超强战斗力。

美国陆军协会

美国陆军协会是一个非营利性的教育和专业发展协会，为美国的全部军队、士兵、陆军文职人员和他们的家属、行业伙伴以及强大国防的支持者服务。美国陆军协会为陆军提供声音，支持士兵。

成为VIP会员查看完整内容

262

487

大模型智能体 · AI Agent · 大模型 ·

2023 年 10 月 12 日

AI Agent，大模型时代重要落地方向, 42页ppt

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

　大模型时代的AI AGENT=LLM+规划能力+记忆+工具。AI领域AGENT概念由来已久，这一轮LLM给AI AGENT提供了突破性技术方案，对AI AGENT性能表现至关重要；同时需借助外部工具在实际应用中保持长期一致性和准确性。目前AI AGENT的探索大致分为自主智能体和智能体模拟。

　　方向一：自主智能体，力图实现复杂流程自动化。自主智能体有望带来软件行业交互方式和商业模式变革。基座大模型能力解决下限问题，在实际企业应用场景中自主智能体的架构设计、工程能力、垂类数据质量等也至关重要，垂类/中间件玩家亦有机会。其中，单智能体相对更适用于较简单的任务，在C端应用上有一定潜力，代表性玩家包括中心化应用的ChatGPT、去中心化应用的adept AI、可定制和平台化的Cortex、MindOS等；但其在B端场景上略显乏力，基本无法完成较为复杂的工作，多智能体优势相对更加突出。代表性玩家包括MetaGPT、ChatDev、Showrunner。　　　方向二：智能体模拟，力图更加拟人可信。1）陪伴类智能体强调情感情商等人类特征，具有“人格”，且能够记住与用户的历史交流，代表应用如PI、Character ai、replica、glow等。我们认为国内情绪消费市场仍有较大想象空间，陪伴类智能体或受益于情绪消费趋势红利，成为LLM时代重要的AI原生应用。我们预计陪伴类智能体大部分商业价值集中在供给方而非平台，我们更加看好具备丰富IP储备或者能让用户定制智能体的玩家。2）交互智能体：强调与环境交互的能力，智能体之间/与虚拟世界内事物之间可互动，可能涌现出超越设计者规划的场景和能力，大模型不确定性反而成为优势，有望成为AIGC重要部分。特别是对开放世界游戏等行业，可增强玩家沉浸感，解决开放世界内容消耗快的问题；多可信agent技术成熟后可能会孵化出新的游戏品类。代表项目如斯坦福大学开源的Smallville小镇，应用如网易《逆水寒》、昆仑万维《Club Koala》。