GPT-5.4 正式发布:百万 Token 上下文 + 原生计算机操作能力升级
3月6日,OpenAI正式推出新一代通用大模型GPT-5.4,同步发布Thinking和Pro两个版本,核心升级聚焦百万Token上下文窗口与原生计算机操作能力,实现专业任务处理与实操效率的双重突破,同时也直面Anthropic的竞争挑战,推动AI智能体领域进入白热化竞争阶段。
此次发布的GPT-5.4最引人关注的两大升级,彻底打破前代模型的能力边界。其一,该模型支持高达100万Token的上下文窗口,可一次性处理长篇文档、复杂代码等海量信息,在长周期任务规划与多步骤交互中,能更好地衔接前序逻辑,大幅提升任务连贯性与准确性。其二,作为OpenAI首个具备原生计算机使用能力的通用模型,它可通过截图识别、键盘鼠标指令,自主完成网页搜索、表格填写、代码调试等跨应用复杂任务,OSWorld桌面操作基准测试成功率达75%,甚至超越人类72.4%的表现。
技术升级之外,GPT-5.4在专业场景表现也实现跃升。在覆盖44个职业领域的测试中,83.0%的项目达到或超过行业专业水平,投行级电子表格建模平均得分87.3%,演示文稿生成也获得68.0%的人类评审认可,同时事实性错误率较前代降低33%,成为OpenAI迄今准确率最高的模型之一。
GPT-5.4的发布正值Anthropic推进Claude Computer Use公测之际,双方形成直接竞争。两者核心较量聚焦原生计算机操作能力,但GPT-5.4推理成本高达GPT-4的3-5倍,而Claude凭借成本优势和分级定价策略,抢占部分市场空白,此前Claude曾超越ChatGPT登顶美国App Store榜首,双方差距持续缩小。
目前,GPT-5.4已面向ChatGPT Plus及企业用户开放,API端同步上线适配开发者需求。业内人士表示,GPT-5.4的两大核心升级,推动AI从对话助手向“数字员工”转型,而其与Claude的竞争,将倒逼行业平衡性能与成本,加速AI操作物理世界的技术落地,未来计算机使用能力或将成为通用大模型的核心标配。
