智谱发布GLM-4.6V:视觉推理能力跃升,迈向通用人工智能关键一步
2026年12月,北京智谱华章科技股份有限公司正式上线新一代视觉推理大模型GLM-4.6V,标志着国产大模型从‘感知理解’向‘综合决策’迈出了实质性跨越。该模型并非简单叠加图像编码器,而是重构了跨模态表征空间,在统一架构下实现视觉信号、语言语义与逻辑符号的联合建模。据智谱联合创始人、董事长刘德兵介绍,GLM-4.6V的核心突破在于构建了可微分的视觉因果图推理模块,使模型在面对遮挡、歧义或低光照等复杂现实场景时,仍能基于物理常识与时空约束进行反事实推演——例如判断‘玻璃杯倾倒后液体是否溢出’,不仅输出结果,更生成含中间状态(倾斜角、液面曲率、重力矢量)的推理链。
技术细节显示,GLM-4.6V采用三级视觉令牌压缩机制:首级基于动态感受野选择关键帧区域,次级通过神经辐射场(NeRF)隐式重建三维结构,末级以拓扑不变量(如欧拉特征数)编码场景本质属性。在ScienceBench-Vision基准测试中,其视觉定理证明准确率达73.6%,较上一代GLM-4.5提升21.4个百分点;在具身AI任务SimBot-Reasoning中,任务规划成功率首次突破89%,验证了其在真实机器人控制中的迁移潜力。
这一进展对科研范式产生深远影响。中科院自动化所已将GLM-4.6V接入FAST射电望远镜数据流,用于实时识别脉冲星信号中的异常掩食事件;国家电网则部署其于变电站巡检系统,模型可结合红外热成像与设备铭牌文本,自主诊断绝缘子老化程度并生成维修优先级报告。值得注意的是,该模型支持‘推理路径蒸馏’功能——用户可指定保留某类因果逻辑(如电磁学约束),系统自动剪枝无关参数,使轻量化版本在边缘端仍保持领域内推理一致性。这预示着大模型正从‘黑箱响应器’进化为‘可审计的认知协作者’。