DS-Agent正式开源:首个面向全流程机器学习建模的数据科学家智能体
2026年4月1日,吉林大学与上海交通大学联合发布DS-Agent(Data Scientist Agent)开源项目,这是全球首个完整覆盖‘需求理解—数据清洗—特征工程—模型选型—超参调优—部署监控—可视化解释’全生命周期的LLM智能体系统。不同于现有AutoML工具(如H2O.ai、AutoGluon)依赖预设规则与固定流水线,DS-Agent以大语言模型为认知中枢,深度融合案例推理(Case-Based Reasoning, CBR)引擎,使其能像资深数据科学家一样‘借鉴历史经验’解决新问题——当用户输入‘预测电商退货率’需求时,系统自动检索过往372个零售风控项目案例库,匹配出‘用户行为序列建模+时间窗滑动特征’最优实践,并生成可执行Python代码与部署Docker镜像。
技术架构上,DS-Agent采用三层协同框架:感知层调用定制化SQL解析器与Pandas Profiler实时理解数据Schema与质量缺陷;决策层基于CBR引擎匹配相似任务案例,并通过思维链(Chain-of-Thought)生成多方案对比分析;执行层则集成PyTorch、XGBoost、LightGBM等12类引擎,支持自动代码生成、单元测试注入与A/B实验编排。在Kaggle 2025年度数据科学挑战赛复现测试中,DS-Agent在87%的任务上达到Top 5%人类选手水平,平均建模周期从14人日压缩至3.2小时,且模型可解释性报告完整度提升300%。
其开源生态已形成显著影响力:截至2026年4月6日,GitHub Star数突破18,400,社区贡献的垂直领域案例库涵盖金融反欺诈(招商银行)、工业设备预测性维护(三一重工)、生物医药靶点发现(恒瑞医药)等23个行业。尤为关键的是,DS-Agent严格遵循GDPR与《中国人工智能算法备案管理办法》,所有数据处理均在本地沙箱完成,杜绝原始数据外泄风险。这标志着AI正从‘工具辅助’迈入‘角色代理’新阶段——当数据科学家这一高门槛职业可被智能体规模化复现,企业数据价值释放效率将迎来指数级跃升。