张亚勤院士在清华无锡研究院智能产业创新中心接受采访,他认为当前关于具身智能和人工智能投资创业的热潮需要“降温”,保持更加冷静的态度。
他创办的清华大学智能产业研究院(AIR)已有多家孵化公司,累计融资约150亿元,估值达1500亿元,其中不乏华深智药、它石智航等独角兽企业。然而,张亚勤强调AIR的首要任务是科研,公司的孵化只是自然而然的产物,多数公司尚在“证明能力”的阶段。
作为中国工程院院士,张亚勤将当前人工智能的发展阶段比作1998-1999年的互联网时期,认为AI正在大规模投资基础设施建设,包括电力、算力和算法。他相信AI产业的长期潜力巨大,“AI本身不是泡沫,但早期AI公司可能会有泡沫”,并预测未来的万亿市值巨头可能并非当前备受瞩目的明星公司。
张亚勤及其团队在自动驾驶、具身智能仿真以及工业能效AI等领域已有布局。他指出,过度融资可能导致业务不聚焦,最终消耗大量资金却未能产生实际业绩。他今年6月提出的观点是,需要开发新的AI算法体系,如世界模型和Agent,以实现效率的百倍提升。他认为,当前AI的发展类似于1998年的互联网,面临物理世界数据缺失的挑战,并探讨了VLA、世界模型等技术路线以及教授创业的模式。
AIR每年6月在无锡举办的“太湖对话”已进入第三届。在论坛前夕,张亚勤与暗涌Waves就教授创业、AI泡沫、机器人技术等话题进行了深入交流。
暗涌:您如何看待近期科学家和教授在AI创业浪潮中重新占据核心地位的现象?
张亚勤:本轮AI创业高度依赖技术,因此教授的技术能力和前瞻性尤为关键。当前中国已有一批高水平教授能够引领世界级的创新,而非仅仅追随美国。
教授创业主要有三种模式:一是教授全职投入创业;二是教授以学术研究为主,将技术成果转化为企业,但不直接参与公司管理;三是教授在职期间同时管理多家公司。第三种模式成功率极低。
暗涌:第一、二种模式是否更受青睐?投资人是否更倾向于投资全职创业的教授?
张亚勤:第一种模式有成功案例,例如高通由两位MIT教授创立,AIR的彭建教授也成功创办了华深智药。然而,多数教授并不擅长经营企业,即使全职投入,其创业失败的风险也远高于普通创业者。将研究转化为技术,再将技术发展为规模化产品,中间存在巨大的鸿沟,很少有人能兼顾从0到1的研发和从1到N的市场化运作。
AIR教授创业多采用第二种模式:科学家作为联合创始人或首席科学家,以技术入股孵化企业,并寻找具备商业和工程能力的CEO进行市场化运营。这种模式能发挥教授的专长,也符合企业发展规律。
暗涌:全职创业一旦成功,回报会非常丰厚。
张亚勤:全职创业风险同样巨大,可能导致商业和科研两头落空。AIR的教授大多希望专注于科研,并希望其基础研究成果能够产业化,并有团队协助。我本人也倾向于在学校进行科研和人才培养,我们学院有多位博士生获得过清华特等奖。
AIR的定位是一家科研机构,而非孵化器。孵化器通常大规模孵化项目并依赖VC投资,而我们每年只孵化少量公司。
暗涌:AIR的目标之一是为行业输送CTO和顶级架构师,您认为培养这类人才的核心要素是什么?
张亚勤:核心在于在成长阶段培养产品和系统思维。脱离校园和真实场景,博士生可以进行算法研究和论文写作,但关键在于验证其能否在实际系统中运行。
这也是AIR成立的初衷之一。我们与字节、阿里、百度、比亚迪等20多家企业合作,通过联合实验室等方式进行科研项目。AIR的学生有机会到大厂实习,参与前沿研发系统并进行规模化验证。
暗涌:适合担任创业公司CEO的人才非常稀缺。您是否会帮助孵化公司寻找CEO?您看重CEO的哪些特质?
张亚勤:在技术孵化初期,教授可以兼顾部分公司管理。最困难的是下一步,即找到一位CEO来搭建工程团队和商业模式。目前我们孵化的多数企业正处于从第一步向第二步过渡的“证明自己”阶段。
理想情况下,我希望能为每个团队匹配合适的CEO,但现实中这非常困难。CEO不一定是职业经理人,也可以是连续创业者或团队中的年轻骨干。AI领域的人才相对容易找到,但真正稀缺的是在产业中有深厚积累,同时又能理解部分AI技术的人。
最重要的是,这位CEO必须具备极强的信念感。创业过程充满挑战,信念动摇者难以坚持。我还是要强调,创业并非易事。1500亿这样的估值数字本身意义不大,企业最终需要通过技术实现商业化,产生收入、利润和竞争力。
暗涌:创业公司获得高估值,这是否是一种阶段性成果?您为何强调需要保持冷静?
张亚勤:我认为这其中蕴含着风险。市场期望越高,需要证明的东西就越多,此时必须保持清醒。在学院里,我会给学生泼冷水,在他们创业前会深入询问他们要解决的具体问题,AI能解决什么,以及谁会为产品付费。短期内获得高估值并不代表成功。
例如,当前机器人领域有数百家公司,但三四年后可能只剩下20家。大模型领域,国内最终可能也只有三四家能够存活。我们经历过互联网泡沫,当时的资本市场比现在更狂热,但许多明星公司很快就消失了。
暗涌:这种冷静的态度,是否与“趁市场好,多融资”的逻辑相悖?
张亚勤:创业需要充足的资金,但资金并非唯一决定因素。
创业本来就是九死一生,必须高度聚焦。如果尚未想清楚就盲目融资并尝试做所有事情,最终很可能在烧完钱后仍未取得业务成果。当一家企业拥有优秀的产品、独特的技术、强大的团队和清晰的愿景时,自然会吸引投资者。
暗涌:普遍认为AI和具身智能行业存在泡沫,但仍有大量资金和人员涌入,这种氛围与上一波互联网创业有何异同?
张亚勤:不同之处在于,多数互联网公司初期缺乏规模化收入,而此次AI领域的头部公司收入增长迅猛,如OpenAI和Anthropic的收入增速前所未有,这增强了市场的信心。
至于这种高增长能否持续,我尚不确定。
目前全球几家科技巨头在数据中心和芯片等领域的投入巨大,这基于对未来的高度预期,认为投入能够获得回报。这些投入能否转化为实际订单和收入,仍有待验证。
未来2-3年将是关键的观察期。如果(科技巨头的)收入增长未能达到预期的指数曲线,整个循环将受到影响。大公司会受影响,小企业则会更加敏感。
暗涌:如果以互联网技术周期来类比,您认为当前AI处于哪个阶段?
张亚勤:可能相当于1998、1999年,互联网刚刚兴起,雅虎备受追捧的时期。
互联网本身并非泡沫,但早期许多互联网企业存在泡沫。从长远来看,AI产业没有泡沫,但AI公司及其估值可能会有泡沫。短期的资本炒作意义不大。企业仍需专注于自身,愿意付出艰辛努力,用实际成果证明自身价值。
暗涌:您曾表示通用机器人可能还需要10-15年才能迎来“ChatGPT时刻”,其间的关键瓶颈是什么?
张亚勤:通用的家庭和家庭服务机器人确实还需要较长时间,可能十年以上。但在特定场景下执行具体任务的机器人则能更快实现。例如,自动驾驶本质上是“驾驶机器人”,技术难点已基本克服,剩余的更多是工程化和商业化问题。工业机器人的发展进程也会更快。
家庭机器人需要面对极其开放和复杂的环境,最重要的是它需要与人进行交互:进行对话、理解意图并完成动作。其中一些科学问题尚未解决,理论和算法尚未取得真正突破。
暗涌:为何物理世界的人工智能发展相对缓慢?
张亚勤:十年前,我就将智能分为数字智能、物理智能和生物智能三类。
数字智能发展迅速,是因为过去20多年互联网积累了海量数据(文本、图像、视频),这使得模型训练得以实现“scaling law”,结合算法和算力,模型的通用能力得以增强。
然而,物理世界的情况截然不同。首先,数据量不足;其次,物理世界的场景极其分散;第三,数字世界的比特需要与物理世界的原子相结合。原子世界并不遵循摩尔定律。关节、手等机械结构的控制,也并非单纯依靠堆砌算力就能解决。因此,物理智能的进展相对缓慢。
数据不足怎么办?有几种途径:一是学习人类,从第一人称视角收集与世界交互的数据;二是机器人自主采集数据;三是在仿真环境中模拟各种场景,生成模拟数据。
然而,在模拟器中运行成功的模型,在真实世界中未必能奏效。因此,我们正在进行RSR(Real-to-Sim-to-Real)研究,即从真实世界到模拟场景,再回到真实世界,形成一个闭环。这个闭环非常困难,AIR的周谷越教授在该方向已深耕多年,在特定场景下有望快速取得突破。
暗涌:面对物理世界数据缺失的挑战,当前有哪些可行的技术路线?您如何看待VLA和世界模型等热门讨论方向?
张亚勤:目前存在一些方法,但尚未能像互联网那样积累海量数据。
一种方式是将大语言模型的理论方法拓展,开发能够处理自然语言、理解视觉信息并执行物理动作的VLA(Vision-Language-Action)模型。
该路线的优势在于以语言为主线,可以借鉴当前大语言模型已有的方法论;但问题在于动作的精确描述往往很困难。对机器人而言,视觉是最重要的输入,因此另一种思路是从视觉直接产生动作,并将语言作为辅助。
另一条路径是世界模型。世界模型有多种形式,其设想是让机器真正理解世界。理解世界的方式多种多样,例如构建模拟器等。我认为最终的解决方案可能是结合这两种路线。
暗涌:您如何理解“两种路线的结合”?
张亚勤:我认为在VLA和各种世界模型的开发上,没有绝对的对错。结合两种路线是因为机器人所处的环境极其复杂。例如,自动驾驶更像是一个以视觉为主的端到端系统,对语言的需求不高。
然而,机器人很多时候需要通过与人对话来接收指令,这就需要理解语言;在执行任务时,则主要依靠视觉进行决策,并将信号转化为电机动作。目前,这个过程还没有清晰的scaling law可以遵循。
在语言模型中,token(词元)是人类抽象出的、有结构有意义的文字单元;而图像的最小物理单元是像素,单个像素本身没有物理含义;动作也是如此。
AIR的老师们进行了大量探索,詹仙园团队研发的X-VLA系统,试图实现不同机械臂和机器人的能力“归一化”,从而实现部分技能的泛化和跨设备迁移。也有团队通过观看大量视频来理解视频中的动作和环境。
在许多科研问题尚未突破的情况下,一方面需要继续进行通用性研究,另一方面也要先在通用性要求不那么高的特定场景中,着手解决实际问题。
暗涌:当前机器人可以率先应用于哪些场景?
张亚勤:我认为机器人应首先在能够创造实际生产力的场景中得到应用,承担人类不愿从事的工作,例如在极度危险或艰苦的环境中作业。我们目前正与煤科院合作开发煤矿场景下的无人车和机器人;与首创合作开发地下管网巡检机器人和电网机器人等。
在这些场景中,目前仍然需要人机协作。我一直强调,人工智能和具身智能应旨在帮助人类,而不是取代人的工作。
暗涌:当前AI领域存在不断追求“超级智能”和“通用人工智能”的趋势。您是否认为这不是目前最重要的事情?
张亚勤:作为科研目标,这当然可以追求。但从社会和企业的角度来看,我认为还是应该着力解决具体问题。
一些美国企业开始陷入误区,一味追求智能的上限,仿佛拥有了“超级智能”就能无所不能。然而,如果没有明确的目标,仅仅是“学习人类,并超越人类”,其风险往往是不可控的。
而且,人工智能是否一定要“学习人类”,一定要“超越人类”?我觉得未必。
人类有好的一面,也有缺点;AI在放大能力的同时,也会放大人性中的负面因素。这带来了安全和伦理风险。
暗涌:您特别关注AI可能存在的哪些风险?
张亚勤:当前AI主要存在三类风险:失控、滥用和系统性风险。系统性风险也包括失业等社会问题,但我目前更关注失控和滥用。
AI系统日益复杂,许多机理是人类不了解的“黑箱”。而且,具备行动能力的agent正从实验室走向实际部署,存在自主复制、逃逸约束等现实隐患。2026年4月,Anthropic披露了Claude Mythos模型,但未公开,原因是Mythos能够自主识别软件漏洞,有形成大规模网络攻击的风险。
因此,在设计AI产品和技术时,就应明确其要解决的具体问题,这样AI的可控性会更强。AI终究是为了帮助人类,让人们生活得更长久、更舒适、更幸福。