智象未来发布超两千亿参数图像大模型HiDream-O1-Image-Pro,首次实现‘视觉问答—物理推理’双模闭环

2026-05-20 20:39 👁 45011

2026年5月19日,智象未来在北京首届开放日上正式发布原生全模态图像大模型HiDream-O1-Image-Pro。该模型参数量突破2000亿,是当前全球首个将高精度视觉理解、跨尺度空间建模与具身物理推理深度耦合的图像大模型,标志着AI问答能力正从‘文本响应’跃迁至‘视-理-行’一体化决策新范式。

不同于传统多模态模型依赖语言模型作为中继枢纽,HiDream-O1-Image-Pro采用自研‘像素—体素—因果’三级表征架构:底层以亚像素级CNN提取动态纹理与光照不变特征;中层构建可微分3D体素场,支持对遮挡、重力、摩擦等物理约束进行符号化建模;顶层嵌入轻量化因果推理引擎,可对‘若移开红盒,蓝球是否会滚落斜坡?’类问题生成带物理验证链的结构化答案。在OpenEQA-Physics基准测试中,其视觉问答准确率达89.7%,较前代提升32.4个百分点,且首次实现100%可追溯的推理路径可视化输出。

此次发布同步宣布完成新一轮亿级融资,深创投、金浦投资、财鑫资本、复聚资本联合参投。值得注意的是,本轮融资明确限定用于构建‘视觉问答即服务(VQaaS)’基础设施——包括部署覆盖全国12个重点制造业集群的边缘推理节点,以及向教育、医疗、应急领域开放首批100个预置问答场景API。据公司CTO透露,HiDream-O1-Image-Pro已接入国家应急管理部‘灾害现场语义重建系统’,可在无人机回传的模糊热成像图中,实时回答‘坍塌结构承重柱是否完整?’‘次生火灾风险区域在哪?’等关键战术问题,平均响应延迟低于420ms。

行业专家指出,该模型突破的本质在于重构AI问答的价值坐标:不再以‘能否回答’为终点,而以‘能否支撑真实世界行动决策’为标尺。中国科学院自动化所研究员李明认为:‘当问答系统开始主动建模牛顿第三定律并据此否定用户错误假设时,它就不再是工具,而是认知协作者。’未来半年,智象计划开放模型物理引擎模块的SDK,推动工业质检、自动驾驶仿真、科学教育等领域出现一批‘可验证、可干预、可归因’的新一代问答应用。这或将加速终结当前AI问答中存在的‘幻觉不可控、逻辑不可验、责任不可溯’三大行业痛点,为构建可信AI问答生态提供首个工程化落地支点。