2026年2月5日,上海人工智能实验室正式开源‘书生Intern-S1-Pro’——迄今全球参数量最大、科学知识覆盖最广的开源多模态基础模型。该模型总参数达2.8万亿,涵盖物理学、化学、生物学、地球科学及数学五大核心领域,训练数据包含超1.2亿篇高质量科研论文(含arXiv、PubMed、Nature/Science子刊)、3800万份实验记录报告、1.6亿张高精度科学图像(如电子显微镜图、光谱曲线、蛋白质结构图)及240万小时科研教学视频。与通用多模态模型不同,Intern-S1-Pro首创‘科学认知蒸馏框架’(SCD),通过将专家标注的推理链(Chain-of-Reasoning)、反事实验证逻辑与跨学科类比关系注入预训练过程,使其不仅能回答‘量子纠缠是什么’,更能推导‘若将贝尔不等式实验置于引力波探测环境,测量偏差阈值如何变化’等复合型科学问题。

模型架构上,Intern-S1-Pro采用‘双脑协同’设计:左脑为符号化科学知识图谱引擎,实时调用Wikidata、SciGraph等权威知识库进行事实校验;右脑为神经网络多模态理解器,专精于解析公式LaTeX代码、分子SMILES字符串、地质剖面图等非标准文本模态。实测显示,其在MMLU-STEM(科学类MMLU子集)基准上准确率达89.7%,较Qwen3-VL提升11.2个百分点;在ScienceQA多模态推理任务中,首次实现对含图表题干的完整逻辑链生成(F1=76.4),远超现有开源模型。更关键的是,所有训练代码、数据清洗脚本、评估协议及128GB精简版模型权重均已开放下载,支持学术界零门槛复现与二次开发。

该模型的发布具有深远战略意义。一方面,它填补了我国在高端科学AI基础设施领域的空白,打破欧美机构对AlphaFold、Galactica等科学专用模型的技术垄断;另一方面,其开源属性极大降低了高校与中小科研团队的AI应用门槛。目前,中科院高能物理所已将其接入江门中微子实验数据分析平台,用于自动识别探测器信号异常模式;清华大学药学院则基于其构建了‘靶点-化合物-通路’三维关联预测系统。然而,模型对算力资源的极高需求(全参数微调需超2048张H800)仍构成规模化落地瓶颈,后续将重点推进LoRA适配器与MoE稀疏化方案的社区共建。