谷歌DeepMind推出Gemini 2.0:原生多模态联合训练架构,视频理解与实时跨模态检索能力大幅跃升
2024年9月18日,谷歌DeepMind在Mountain View总部召开发布会,正式推出Gemini系列全新旗舰模型Gemini 2.0。与前代依赖模态对齐微调不同,Gemini 2.0首次实现文本、图像、音频、视频及传感器数据的‘统一嵌入空间’原生联合训练——所有模态输入均被映射至同一高维语义流形,消除了传统多模态模型中常见的模态鸿沟与对齐失真问题。实测数据显示,其在Kinetics-900视频动作识别基准上准确率达89.7%,在YouCook2零样本视频段落检索任务中mAP@10达63.4%,较Gemini 1.5 Pro提升22.8个百分点。尤为关键的是,Gemini 2.0支持毫秒级跨模态关联:用户上传一段10分钟手术录像后,可直接以自然语言提问‘第7分23秒主刀医生调整了哪三处器械角度?’,模型不仅定位精准帧,还能同步提取对应语音转录、器械运动轨迹矢量及术前CT影像比对结果。
该突破源于DeepMind自主研发的‘Spatio-Temporal Token Merging’(STTM)架构,将视频分解为时空立方体token,并与文本token在Transformer底层共享注意力头。训练数据涵盖超200万小时真实世界多模态序列,包括医疗影像带语音标注手术视频、工业设备振动频谱+声学+红外热成像同步采集数据,以及NASA公开的卫星遥感+气象文本日志配对集。谷歌宣布,Gemini 2.0已集成至Workspace全系产品(Docs、Meet、Drive),企业客户可通过Vertex AI平台调用其API,但消费级Pixel手机端暂未开放全部能力。
产业影响层面,Gemini 2.0正推动垂直领域AI范式迁移。西门子医疗已启动合作项目,利用其对DSA血管造影视频的实时结构化解析能力,辅助放射科医生识别微小动脉瘤破裂前兆;而联合国粮农组织(FAO)则测试其对非洲农田无人机影像+降雨文本报告的联合分析功能,用于提前14天预警蝗灾扩散路径。不过,隐私合规压力同步加剧:欧盟数据保护委员会(EDPB)已致函谷歌,要求说明视频帧级特征是否构成GDPR定义的‘生物识别数据’,并限期提交数据最小化处理方案。