DeepSeek多模态灰度上线:视觉原语重构AI理解范式

2026-05-03 18:43 👁 阅读

2026年4月下旬,DeepSeek正式开启多模态能力灰度测试,并同步发布《视觉原语:基于坐标与边界框的空间推理范式》技术报告,提出以点坐标与边界框为基本推理单元的全新视觉建模范式。该方案突破传统Patch嵌入局限,将视觉KV缓存压缩达7056倍,大幅提升空间关系建模效率,在OCR、工业质检、遥感解析等任务中实现推理速度提升3.8倍、准确率提升12.6%。

灰度测试当前面向字节跳动、腾讯微信、阿里通义实验室等头部客户开放识图模式,支持图像中物体定位、跨图逻辑关联与动态轨迹预测。值得关注的是,技术报告署名作者近300人,其中10人标注已离职,引发业界对核心骨干流向的关注;与此同时,V4-Pro2.5版本延期至5月31日发布,全线缓存命中价格下调至一折,释放出商业化加速信号。

该技术路径对AI产业影响深远:一方面,视觉原语使多模态模型摆脱对海量图像-文本对齐数据的依赖,转向更可控、可解释的几何语义建模;另一方面,为自动驾驶、机器人导航等需要高精度空间感知的场景提供轻量化替代方案。已有车企证实正基于V4视觉骨干开发L3+级感知融合模块。

长期来看,DeepSeek此举或将推动AI视觉从‘像素理解’迈向‘结构理解’,与GPT-5.4的空间推理能力形成对标。业内预测,2026年内将有超20家国产芯片厂商完成视觉原语指令集适配,而OpenAI、谷歌亦被曝正秘密评估类似坐标驱动架构。若该范式成为事实标准,中国AI企业或将在下一代多模态基础设施定义权上占据先机。