DS-Agent正式开源:首个专注机器学习全流程的LLM数据科学家智能体

2026-04-08 11:10 👁 阅读

2024年4月1日,吉林大学与上海交通大学联合团队正式开源DS-Agent——一个专精于端到端机器学习建模任务的大型语言模型智能体。与通用Agent不同,DS-Agent严格遵循数据科学工作流:接收原始数据与业务目标→自动执行探索性数据分析(EDA)→诊断数据质量问题→检索历史最佳实践→生成可执行Python代码→调用scikit-learn/XGBoost等库完成训练→评估模型性能→输出可视化报告并提出部署建议。其核心技术是基于案例的推理(Case-Based Reasoning, CBR)框架,内置覆盖金融风控、电商推荐、工业缺陷检测等17个领域的3200+高质量建模案例知识库,每个案例均标注数据特征、问题类型、算法选择依据及失败归因,使Agent具备‘举一反三’的工程判断力。

在真实企业测试中,DS-Agent在某银行信用卡欺诈检测项目中,仅用23分钟即完成从CSV数据加载到AUC=0.92模型上线的全流程,而资深数据科学家平均耗时14.5小时;在某新能源车企电池衰减预测任务中,Agent自主发现温度传感器采样频率不一致的关键缺陷,并生成时间对齐校正脚本,避免了后续模型偏差。更深远的意义在于范式变革:DS-Agent将‘数据科学家’角色从‘手艺人’转化为‘流程架构师’,人类专家只需定义高层约束(如合规性、可解释性要求),具体实现交由Agent协同完成,极大释放高端人才产能。

目前DS-Agent已支持LangChain与LlamaIndex生态,可通过自然语言指令调用Hugging Face Model Hub中超过8000个开源模型。团队强调,其设计哲学并非取代人类,而是构建‘人机共生’新协作界面——例如当Agent提出‘建议尝试图神经网络建模用户社交传播路径’时,会同步展示该决策对应的3个相似历史案例及其业务影响,确保每一步推理均可追溯、可审计、可干预。这一开源实践,正加速AI for Science与AI for Industry的深度融合进程。