Dynamic-VLM登顶VideoMME:动态视觉令牌压缩技术刷新视频理解SOTA
长视频理解长期受困于‘计算爆炸’难题:传统VideoLLM将每帧采样为数百个视觉token,1分钟高清视频即产生超百万token,导致显存溢出与推理缓慢。2024年12月,由中科院自动化所、清华大学与
长视频理解长期受困于‘计算爆炸’难题:传统VideoLLM将每帧采样为数百个视觉token,1分钟高清视频即产生超百万token,导致显存溢出与推理缓慢。2024年12月,由中科院自动化所、清华大学与
国家知识产权局最新统计显示,截至2024年底,我国推理大模型领域活跃创新主体已达4987家,较2017年的250家增长近20倍,年均复合增长率达52.3%。这一爆发式增长源于2025年《关于深入实施“
边缘智能正经历从‘云端依赖’到‘端云协同’再到‘端侧原生’的关键跃迁。2026年3月23日,MITCSAIL与华为诺亚方舟实验室联合发布Mobile-O——一款面向移动设备原生设计的紧凑型视觉-语言-
随着具身智能与机器人自主决策需求激增,视觉-语言-动作(Vision-Language-Action,VLA)模型正成为AI前沿研究焦点。然而,现有VLA系统普遍受限于视觉语言模型(VLM)庞大的参数
2026年3月,由李飞飞、StuartRussell等14位斯坦福、微软、DeepMind顶尖学者联合撰写的80页权威综述《AGENTAI:ASurveyonMultimodalInteraction
视频理解长期受困于‘高分辨率-长时序-高计算’的三重矛盾:传统VideoLLM将整段视频均匀采样为固定数量视觉令牌,既无法适应动态场景复杂度差异,又造成静态背景区域冗余计算。2024年12月16日,上
知识产权已成为大模型时代国家战略竞争力的核心维度。据国家知识产权局2026年4月2日发布的《推理大模型全球专利态势分析报告》,我国推理大模型领域创新主体数量已从2017年的约250家飙升至2024年的
2026年4月9日,由NathanLambert与FlorianBrand联合发布的《TheATOMReport》(开源语言模型年度采纳度快照)引发全球AI界震动。报告显示,在覆盖2023年11月至2
2026年4月9日,由李飞飞教授领衔的WorldLabs实验室正式发布两大颠覆性模型——‘SceneCraft’(场景精构模型)与‘WorldGen’(世界生成模型),首次实现从单物体生成到城市级物理
2026年4月10日,网络研究机构Graphite发布《2026全球内容生态白皮书》,披露一项具有里程碑意义的数据:截至2026年第一季度末,全球互联网公开可索引内容中,由AI模型生成的文本、图像、音