ml-intern 工具链围绕 Hugging Face 生态系统设计。它从 arXiv 和 HF Papers 检索论文,同时追踪引文链以便更深入阅读;在 HF Hub 上浏览数据集,验证质量,并将数据重新格式化以用于训练;当本地 GPU 资源不可用时,它会调用 HF Jobs 来启动基于云端的训练任务。训练完成后,代理会自动读取评估输出、诊断失败原因,并重新运行实验。默认情况下,它使用 Claude Sonnet 4.5 来驱动决策循环,每次运行最多 300 次迭代,并在超过 170k tokens 时自动进行上下文压缩。
Hugging Face 展示了三个使用案例。在科学推理任务中,代理通过引文链识别出 OpenScience 和 NemoTron-CrossThink 数据集;按难度等级从 ARC、SciQ 和 MMLU 中筛选出 7 个变体;并在 Qwen3-1.7B 上进行了 12 轮监督微调,使 GPQA 分数在 10 小时内从 10% 提升到 32%。在医疗应用中,代理判断现有数据集不足,编写脚本生成 1,100 个合成数据样本,并将其放大 50 倍用于训练,在 HealthBench 上相较 Codex 的表现提升了 60%。在竞争性的数学场景中,代理编写了一个 GRPO 训练脚本,并通过 HF Spaces 在 A100 GPU 上启动训练;随后在观察到奖励崩塌后开展了消融实验。
