DeepSeek多模态灰度上线:视觉原语重构AI理解范式

2026年4月下旬,DeepSeek正式开启多模态能力灰度测试,并同步发布《视觉原语:基于坐标与边界框的空间推理范式》技术报告,提出以点坐标与边界框为基本推理单元的全新视觉建模范式。该方案突破传统Patch嵌入局限,将视觉KV缓存压缩达7056倍,大幅提升空间关系建模效率,在OCR、工业质检、遥感解析等任务中实现推理速度提升3.8倍、准确率提升12.6%。

灰度测试当前面向字节跳动、腾讯微信、阿里通义实验室等头部客户开放识图模式,支持图像中物体定位、跨图逻辑关联与动态轨迹预测。值得关注的是,技术报告署名作者近300人,其中10人标注已离职,引发业界对核心骨干流向的关注;与此同时,V4-Pro2.5版本延期至5月31日发布,全线缓存命中价格下调至一折,释放出商业化加速信号。

该技术路径对AI产业影响深远:一方面,视觉原语使多模态模型摆脱对海量图像-文本对齐数据的依赖,转向更可控、可解释的几何语义建模;另一方面,为自动驾驶、机器人导航等需要高精度空间感知的场景提供轻量化替代方案。已有车企证实正基于V4视觉骨干开发L3+级感知融合模块。

长期来看,DeepSeek此举或将推动AI视觉从‘像素理解’迈向‘结构理解’,与GPT-5.4的空间推理能力形成对标。业内预测,2026年内将有超20家国产芯片厂商完成视觉原语指令集适配,而OpenAI、谷歌亦被曝正秘密评估类似坐标驱动架构。若该范式成为事实标准,中国AI企业或将在下一代多模态基础设施定义权上占据先机。

Claude Opus 4.6 坐稳旗舰，长文本处理再攀新高

2026-03-07 16:00

DeepSeek多模态灰度上线:视觉原语重构AI理解范式

📚 相关推荐

GPT-5.4 正式发布：百万 Token 上下文 + 原生计算机操作能力升级

Gemini 3.1 Flash-Lite 上线，谷歌推出高性价比轻量化大模型

Claude Opus 4.6 坐稳旗舰，长文本处理再攀新高