对话张亚勤：AI不是泡沫，但AI公司有泡沫

2026-06-26

张亚勤院士在清华无锡研究院智能产业创新中心接受采访，他认为当前关于具身智能和人工智能投资创业的热潮需要“降温”，保持更加冷静的态度。

他创办的清华大学智能产业研究院（AIR）已有多家孵化公司，累计融资约150亿元，估值达1500亿元，其中不乏华深智药、它石智航等独角兽企业。然而，张亚勤强调AIR的首要任务是科研，公司的孵化只是自然而然的产物，多数公司尚在“证明能力”的阶段。

作为中国工程院院士，张亚勤将当前人工智能的发展阶段比作1998-1999年的互联网时期，认为AI正在大规模投资基础设施建设，包括电力、算力和算法。他相信AI产业的长期潜力巨大，“AI本身不是泡沫，但早期AI公司可能会有泡沫”，并预测未来的万亿市值巨头可能并非当前备受瞩目的明星公司。

张亚勤及其团队在自动驾驶、具身智能仿真以及工业能效AI等领域已有布局。他指出，过度融资可能导致业务不聚焦，最终消耗大量资金却未能产生实际业绩。他今年6月提出的观点是，需要开发新的AI算法体系，如世界模型和Agent，以实现效率的百倍提升。他认为，当前AI的发展类似于1998年的互联网，面临物理世界数据缺失的挑战，并探讨了VLA、世界模型等技术路线以及教授创业的模式。

AIR每年6月在无锡举办的“太湖对话”已进入第三届。在论坛前夕，张亚勤与暗涌Waves就教授创业、AI泡沫、机器人技术等话题进行了深入交流。

第一部分：教授投身创业，但多数不适合担任CEO

暗涌：您如何看待近期科学家和教授在AI创业浪潮中重新占据核心地位的现象？

张亚勤：本轮AI创业高度依赖技术，因此教授的技术能力和前瞻性尤为关键。当前中国已有一批高水平教授能够引领世界级的创新，而非仅仅追随美国。

教授创业主要有三种模式：一是教授全职投入创业；二是教授以学术研究为主，将技术成果转化为企业，但不直接参与公司管理；三是教授在职期间同时管理多家公司。第三种模式成功率极低。

暗涌：第一、二种模式是否更受青睐？投资人是否更倾向于投资全职创业的教授？

张亚勤：第一种模式有成功案例，例如高通由两位MIT教授创立，AIR的彭建教授也成功创办了华深智药。然而，多数教授并不擅长经营企业，即使全职投入，其创业失败的风险也远高于普通创业者。将研究转化为技术，再将技术发展为规模化产品，中间存在巨大的鸿沟，很少有人能兼顾从0到1的研发和从1到N的市场化运作。

AIR教授创业多采用第二种模式：科学家作为联合创始人或首席科学家，以技术入股孵化企业，并寻找具备商业和工程能力的CEO进行市场化运营。这种模式能发挥教授的专长，也符合企业发展规律。

暗涌：全职创业一旦成功，回报会非常丰厚。

张亚勤：全职创业风险同样巨大，可能导致商业和科研两头落空。AIR的教授大多希望专注于科研，并希望其基础研究成果能够产业化，并有团队协助。我本人也倾向于在学校进行科研和人才培养，我们学院有多位博士生获得过清华特等奖。

AIR的定位是一家科研机构，而非孵化器。孵化器通常大规模孵化项目并依赖VC投资，而我们每年只孵化少量公司。

暗涌：AIR的目标之一是为行业输送CTO和顶级架构师，您认为培养这类人才的核心要素是什么？

张亚勤：核心在于在成长阶段培养产品和系统思维。脱离校园和真实场景，博士生可以进行算法研究和论文写作，但关键在于验证其能否在实际系统中运行。

这也是AIR成立的初衷之一。我们与字节、阿里、百度、比亚迪等20多家企业合作，通过联合实验室等方式进行科研项目。AIR的学生有机会到大厂实习，参与前沿研发系统并进行规模化验证。

暗涌：适合担任创业公司CEO的人才非常稀缺。您是否会帮助孵化公司寻找CEO？您看重CEO的哪些特质？

张亚勤：在技术孵化初期，教授可以兼顾部分公司管理。最困难的是下一步，即找到一位CEO来搭建工程团队和商业模式。目前我们孵化的多数企业正处于从第一步向第二步过渡的“证明自己”阶段。

理想情况下，我希望能为每个团队匹配合适的CEO，但现实中这非常困难。CEO不一定是职业经理人，也可以是连续创业者或团队中的年轻骨干。AI领域的人才相对容易找到，但真正稀缺的是在产业中有深厚积累，同时又能理解部分AI技术的人。

最重要的是，这位CEO必须具备极强的信念感。创业过程充满挑战，信念动摇者难以坚持。我还是要强调，创业并非易事。1500亿这样的估值数字本身意义不大，企业最终需要通过技术实现商业化，产生收入、利润和竞争力。

第二部分：AI并非泡沫，但AI公司或有泡沫

暗涌：创业公司获得高估值，这是否是一种阶段性成果？您为何强调需要保持冷静？

张亚勤：我认为这其中蕴含着风险。市场期望越高，需要证明的东西就越多，此时必须保持清醒。在学院里，我会给学生泼冷水，在他们创业前会深入询问他们要解决的具体问题，AI能解决什么，以及谁会为产品付费。短期内获得高估值并不代表成功。

例如，当前机器人领域有数百家公司，但三四年后可能只剩下20家。大模型领域，国内最终可能也只有三四家能够存活。我们经历过互联网泡沫，当时的资本市场比现在更狂热，但许多明星公司很快就消失了。

暗涌：这种冷静的态度，是否与“趁市场好，多融资”的逻辑相悖？

张亚勤：创业需要充足的资金，但资金并非唯一决定因素。

创业本来就是九死一生，必须高度聚焦。如果尚未想清楚就盲目融资并尝试做所有事情，最终很可能在烧完钱后仍未取得业务成果。当一家企业拥有优秀的产品、独特的技术、强大的团队和清晰的愿景时，自然会吸引投资者。

暗涌：普遍认为AI和具身智能行业存在泡沫，但仍有大量资金和人员涌入，这种氛围与上一波互联网创业有何异同？

张亚勤：不同之处在于，多数互联网公司初期缺乏规模化收入，而此次AI领域的头部公司收入增长迅猛，如OpenAI和Anthropic的收入增速前所未有，这增强了市场的信心。

至于这种高增长能否持续，我尚不确定。

目前全球几家科技巨头在数据中心和芯片等领域的投入巨大，这基于对未来的高度预期，认为投入能够获得回报。这些投入能否转化为实际订单和收入，仍有待验证。

未来2-3年将是关键的观察期。如果（科技巨头的）收入增长未能达到预期的指数曲线，整个循环将受到影响。大公司会受影响，小企业则会更加敏感。

暗涌：如果以互联网技术周期来类比，您认为当前AI处于哪个阶段？

张亚勤：可能相当于1998、1999年，互联网刚刚兴起，雅虎备受追捧的时期。

互联网本身并非泡沫，但早期许多互联网企业存在泡沫。从长远来看，AI产业没有泡沫，但AI公司及其估值可能会有泡沫。短期的资本炒作意义不大。企业仍需专注于自身，愿意付出艰辛努力，用实际成果证明自身价值。

第三部分：让机器人承担脏活、累活

暗涌：您曾表示通用机器人可能还需要10-15年才能迎来“ChatGPT时刻”，其间的关键瓶颈是什么？

张亚勤：通用的家庭和家庭服务机器人确实还需要较长时间，可能十年以上。但在特定场景下执行具体任务的机器人则能更快实现。例如，自动驾驶本质上是“驾驶机器人”，技术难点已基本克服，剩余的更多是工程化和商业化问题。工业机器人的发展进程也会更快。

家庭机器人需要面对极其开放和复杂的环境，最重要的是它需要与人进行交互：进行对话、理解意图并完成动作。其中一些科学问题尚未解决，理论和算法尚未取得真正突破。

暗涌：为何物理世界的人工智能发展相对缓慢？

张亚勤：十年前，我就将智能分为数字智能、物理智能和生物智能三类。

数字智能发展迅速，是因为过去20多年互联网积累了海量数据（文本、图像、视频），这使得模型训练得以实现“scaling law”，结合算法和算力，模型的通用能力得以增强。

然而，物理世界的情况截然不同。首先，数据量不足；其次，物理世界的场景极其分散；第三，数字世界的比特需要与物理世界的原子相结合。原子世界并不遵循摩尔定律。关节、手等机械结构的控制，也并非单纯依靠堆砌算力就能解决。因此，物理智能的进展相对缓慢。

数据不足怎么办？有几种途径：一是学习人类，从第一人称视角收集与世界交互的数据；二是机器人自主采集数据；三是在仿真环境中模拟各种场景，生成模拟数据。

然而，在模拟器中运行成功的模型，在真实世界中未必能奏效。因此，我们正在进行RSR（Real-to-Sim-to-Real）研究，即从真实世界到模拟场景，再回到真实世界，形成一个闭环。这个闭环非常困难，AIR的周谷越教授在该方向已深耕多年，在特定场景下有望快速取得突破。

暗涌：面对物理世界数据缺失的挑战，当前有哪些可行的技术路线？您如何看待VLA和世界模型等热门讨论方向？

张亚勤：目前存在一些方法，但尚未能像互联网那样积累海量数据。

一种方式是将大语言模型的理论方法拓展，开发能够处理自然语言、理解视觉信息并执行物理动作的VLA（Vision-Language-Action）模型。

该路线的优势在于以语言为主线，可以借鉴当前大语言模型已有的方法论；但问题在于动作的精确描述往往很困难。对机器人而言，视觉是最重要的输入，因此另一种思路是从视觉直接产生动作，并将语言作为辅助。

另一条路径是世界模型。世界模型有多种形式，其设想是让机器真正理解世界。理解世界的方式多种多样，例如构建模拟器等。我认为最终的解决方案可能是结合这两种路线。

暗涌：您如何理解“两种路线的结合”？

张亚勤：我认为在VLA和各种世界模型的开发上，没有绝对的对错。结合两种路线是因为机器人所处的环境极其复杂。例如，自动驾驶更像是一个以视觉为主的端到端系统，对语言的需求不高。

然而，机器人很多时候需要通过与人对话来接收指令，这就需要理解语言；在执行任务时，则主要依靠视觉进行决策，并将信号转化为电机动作。目前，这个过程还没有清晰的scaling law可以遵循。

在语言模型中，token（词元）是人类抽象出的、有结构有意义的文字单元；而图像的最小物理单元是像素，单个像素本身没有物理含义；动作也是如此。

AIR的老师们进行了大量探索，詹仙园团队研发的X-VLA系统，试图实现不同机械臂和机器人的能力“归一化”，从而实现部分技能的泛化和跨设备迁移。也有团队通过观看大量视频来理解视频中的动作和环境。

在许多科研问题尚未突破的情况下，一方面需要继续进行通用性研究，另一方面也要先在通用性要求不那么高的特定场景中，着手解决实际问题。

暗涌：当前机器人可以率先应用于哪些场景？

张亚勤：我认为机器人应首先在能够创造实际生产力的场景中得到应用，承担人类不愿从事的工作，例如在极度危险或艰苦的环境中作业。我们目前正与煤科院合作开发煤矿场景下的无人车和机器人；与首创合作开发地下管网巡检机器人和电网机器人等。

在这些场景中，目前仍然需要人机协作。我一直强调，人工智能和具身智能应旨在帮助人类，而不是取代人的工作。

暗涌：当前AI领域存在不断追求“超级智能”和“通用人工智能”的趋势。您是否认为这不是目前最重要的事情？

张亚勤：作为科研目标，这当然可以追求。但从社会和企业的角度来看，我认为还是应该着力解决具体问题。

一些美国企业开始陷入误区，一味追求智能的上限，仿佛拥有了“超级智能”就能无所不能。然而，如果没有明确的目标，仅仅是“学习人类，并超越人类”，其风险往往是不可控的。

而且，人工智能是否一定要“学习人类”，一定要“超越人类”？我觉得未必。

人类有好的一面，也有缺点；AI在放大能力的同时，也会放大人性中的负面因素。这带来了安全和伦理风险。

暗涌：您特别关注AI可能存在的哪些风险？

张亚勤：当前AI主要存在三类风险：失控、滥用和系统性风险。系统性风险也包括失业等社会问题，但我目前更关注失控和滥用。

AI系统日益复杂，许多机理是人类不了解的“黑箱”。而且，具备行动能力的agent正从实验室走向实际部署，存在自主复制、逃逸约束等现实隐患。2026年4月，Anthropic披露了Claude Mythos模型，但未公开，原因是Mythos能够自主识别软件漏洞，有形成大规模网络攻击的风险。

因此，在设计AI产品和技术时，就应明确其要解决的具体问题，这样AI的可控性会更强。AI终究是为了帮助人类，让人们生活得更长久、更舒适、更幸福。