DS-Agent正式开源:首个专注机器学习全流程的LLM数据科学家智能体

2024年4月1日,吉林大学与上海交通大学联合团队正式开源DS-Agent——一个专精于端到端机器学习建模任务的大型语言模型智能体。与通用Agent不同,DS-Agent严格遵循数据科学工作流:接收原始数据与业务目标→自动执行探索性数据分析(EDA)→诊断数据质量问题→检索历史最佳实践→生成可执行Python代码→调用scikit-learn/XGBoost等库完成训练→评估模型性能→输出可视化报告并提出部署建议。其核心技术是基于案例的推理(Case-Based Reasoning, CBR)框架,内置覆盖金融风控、电商推荐、工业缺陷检测等17个领域的3200+高质量建模案例知识库,每个案例均标注数据特征、问题类型、算法选择依据及失败归因,使Agent具备‘举一反三’的工程判断力。

在真实企业测试中,DS-Agent在某银行信用卡欺诈检测项目中,仅用23分钟即完成从CSV数据加载到AUC=0.92模型上线的全流程,而资深数据科学家平均耗时14.5小时;在某新能源车企电池衰减预测任务中,Agent自主发现温度传感器采样频率不一致的关键缺陷,并生成时间对齐校正脚本,避免了后续模型偏差。更深远的意义在于范式变革:DS-Agent将‘数据科学家’角色从‘手艺人’转化为‘流程架构师’,人类专家只需定义高层约束(如合规性、可解释性要求),具体实现交由Agent协同完成,极大释放高端人才产能。

目前DS-Agent已支持LangChain与LlamaIndex生态,可通过自然语言指令调用Hugging Face Model Hub中超过8000个开源模型。团队强调,其设计哲学并非取代人类,而是构建‘人机共生’新协作界面——例如当Agent提出‘建议尝试图神经网络建模用户社交传播路径’时,会同步展示该决策对应的3个相似历史案例及其业务影响,确保每一步推理均可追溯、可审计、可干预。这一开源实践,正加速AI for Science与AI for Industry的深度融合进程。

Claude Opus 4.6 坐稳旗舰，长文本处理再攀新高

2026-03-07 16:00

DS-Agent正式开源:首个专注机器学习全流程的LLM数据科学家智能体

📚 相关推荐

GPT-5.4 正式发布：百万 Token 上下文 + 原生计算机操作能力升级

Gemini 3.1 Flash-Lite 上线，谷歌推出高性价比轻量化大模型

Claude Opus 4.6 坐稳旗舰，长文本处理再攀新高