2026年2月28日,上海人工智能实验室联合清华大学、中科院自动化所共同发布‘书生Intern-S1-Pro’——当前全球参数规模最大、科学知识覆盖最广的开源多模态基础模型。该模型总参数量达2.7万亿,支持文本、高分辨率图像、三维分子结构、天文光谱图、基因序列及工程图纸等11类科学模态的统一表征与跨模态推理,训练数据涵盖超500万篇顶刊论文(含Nature/Science子刊)、3200万份专利文献、1.2亿条实验记录及PB级天文观测数据。不同于通用大模型侧重语言泛化能力,‘书生S1-Pro’首创‘科学认知蒸馏框架’(Scientific Knowledge Distillation, SKD),通过将领域专家验证的物理方程、化学反应路径、生物调控网络等符号知识嵌入Transformer注意力机制,使模型在回答‘钙钛矿太阳能电池光电转换效率的理论极限及瓶颈因素’时,不仅能调用文献证据,更能自主推导能带结构与载流子复合动力学关系。

开源生态建设方面,项目同步发布‘科学智能体套件’(Sci-Agent Suite),包含可微分科学计算器、实验方案生成器、论文图表反向解析器等8个即插即用模块,并提供面向高校与研究所的轻量化部署方案(最低仅需4张H20 GPU即可运行推理)。截至3月10日,GitHub仓库Star数突破2.4万,已有斯坦福BioAI Lab、欧洲核子研究中心(CERN)计算部等37个国际科研团队确认接入使用。

该模型的发布被学界视为‘AI for Science’范式的重大里程碑。中国科学院院士、项目首席科学家汤晓鸥指出:‘过去十年是AI改变IT,未来十年将是AI重塑所有科学门类。书生S1-Pro不是替代科学家,而是成为每位研究者的‘数字副研究员’,把人类从重复性数据处理中解放,聚焦于更高阶的假设创新与理论突破。’值得注意的是,模型严格遵循《科学AI开源协议v2.0》,禁止军事用途与高风险商业应用,其权重与训练代码已全量托管于OpenI启智社区,接受全球同行审计。