在人工智能技术加速迭代的当下,视频生成赛道正迎来从“看”到“玩”的关键拐点。近日,我国初创公司Xmax AI正式发布虚实融合实时交互视频生成模型——Xmax X1。该模型凭借自主研发的端到端流式架构,实现了毫秒级的极致响应,标志着我国科技创新团队在虚实融合技术的前沿探索中取得重要突破,开启了数字视频内容创作从“专业工具”向“大众应用”演进的新路径。
突破核心技术,筑牢发展底座
过去一年,全球AI视频生成领域呈现出爆发式增长态势。数据显示,2024年全球相关市场规模已达6.148亿美元,Sora、Runway等行业巨头纷纷在画质、时长和分辨率上展开激烈角逐。然而,纵观行业生态,大多数技术路线仍聚焦于“文生视频”的单向输出,主要服务于影视、广告等专业领域的生产力需求。对于普通用户而言,复杂的操作流程、漫长的生成等待时间,以及内容本身的低互动性,使得AI视频生成始终难以真正融入日常生活。
XmaxAI敏锐地捕捉到了这一痛点,X1模型的核心理念正是将AI视频生成从单纯的“工具”属性转向更具普惠性的“可玩”属性。该模型的关键创新在于开创了虚实融合的实时交互路径,让视频生成告别了枯燥的键盘指令输入,回归人类最本能的手势与触控交互。用户仅需通过移动端摄像头,即可在毫秒间完成数字形象召唤、场景风格转换等操作。这种“所见即所得”的交互方式,将极大地释放大众的创造力。
对标世界前沿,展现中国力量
在实时视频生成这一前沿科技赛道上,国际竞争日趋白热化。以美国科技公司Decart.ai为代表的新兴力量,以及谷歌等老牌科技巨头,正试图通过技术革新颠覆现有的大众内容生成手段与呈现形态。
在国际前沿赛道,XmaxAI作为一支年轻的中国科技团队,展现出强劲的创新的韧性与竞争力。相比Decart AI需依赖专业显卡,X1模型在消费级显卡上即实现同等实时生成速度,推理成本仅为十分之一。其首创的虚实融合空间交互范式,更在交互理念与体验深度上实现超越,彰显中国创新力量。
硬核技术的突破,源自一支兼具算法与工程能力的硬核团队。X1 模型的诞生,汇聚了来自华为“天才少年”计划、清华大学 KEG 与 HCI 实验室、香港科技大学(广州),以及字节跳动、快手等领军企业的顶尖人才。

这支深耕底层技术、敏锐洞察市场需求的青年战队,不仅形成了从理论创新到工程落地的闭环,实现了中国人工智能技术在垂直领域的一次“弯道超车”,更向世界展示了我国人工智能人才队伍在国际舞台上的一流创新能力与竞争实力,为全球人工智能应用与发展贡献了独特的“中国方案”。
丰富群众生活,深度赋能产业
科技创新的落脚点在于惠及民生。在X1模型的支持下,视频生成技术正深度赋能多元化应用场景,让“数字生命”触手可及。
用户可以体验“次元互动”,通过简单的伸手抚摸动作,即可触发实时、真实的毛发物理反馈,实现虚拟与现实的深度兼容;利用“世界滤镜”,模型能毫秒级将现实影像转化为梵高、乐高风等艺术形态,实现人机环境的同步全局渲染;借助“触控动图”功能,静态照片可以通过拖拽、点击等操作“活起来”;此外,“表情捕手”功能还能实时捕捉人物特征生成“魔性”动态表情包,充当社交场景中的破冰利器。

以Xmax X1为代表的国产AI模型,正通过降低技术准入门槛,让前沿科技成果融入大众文化生活。然而,这一系列“人人可玩”的创新背后,是XmaxAI团队对底层技术的深度攻坚。
为了破解“极速响应”与“精准意图理解”这一世界性难题,团队创新了端到端流式重渲染架构,实现了帧级自回归DiT模型。通过多阶段蒸馏压缩与对抗训练,扩散采样速度提升了百倍。同时,团队构建了统一交互模型架构,融合空间三维关系与屏幕二维操作,使模型能精准解析“捏”、“拖拽”等复杂用户意图。针对虚实融合数据稀缺的困境,XmaxAI还搭建了半自动化合成管线,在筑牢行业技术壁垒的同时,也为我国 AI 视频生成领域储备了珍贵的数字资产。

这种技术实力正在转化为实际的产业动能。在文化领域,X1技术正助力文化遗产的数字化呈现与活态传承;在内容产业,它为影视制作、游戏开发和短视频创作提供了高效的虚实融合工具;在教育与文旅场景中,沉浸式的互动体验极大增强了服务效能。这种以技术突破响应大众需求的模式,正推动AIGC技术向更智能、更普惠的方向发展。
坚持伦理导向,培育新质动力
科技创新始终是推动高质量发展的核心动力。XmaxAI在虚实交互领域的探索,不仅是我国人工智能技术进步的一个缩影,也为产业数字化转型提供了新的思路。
面向未来,团队明确表示将坚持“技术向善”的理念指引,在优化算法与安全的同时,联合产学研力量推动虚实交互技术标准化,以更多需求导向的创新成果,为我国产业数字化转型及“数字中国”建设注入源源不断的持续动能。
编辑:耿玥