2024年4月4日

微调 API 改进及定制模型计划扩展

我们正在推出一些新功能，以助力开发人员更精准地掌控模型微调，并宣布助力其与 OpenAI 携手打造定制模型的新途径。

正在加载…

2026 年 5 月 8 日更新：OpenAI 正在逐步关停微调平台。该平台已不再向新用户开放，但微调平台的现有用户在未来几个月内仍可创建训练任务。在基础模型弃用⁠（在新窗口中打开）之前，所有微调模型均可继续进行推理。完整时间表请参阅此处⁠（在新窗口中打开）。

开发者可以利用多种技术⁠（在新窗口中打开）来提升模型性能，从而降低延迟、提高准确性并减少成本。无论是通过检索增强生成 (RAG) 来扩展模型知识，通过微调来定制模型行为，还是利用特定领域的新知识构建定制化训练模型，我们都开发了一系列选项来支持客户的 AI 部署。今天，我们推出了多项新功能，让开发者能通过 API 更灵活地控制微调过程；同时，我们也引入了更多与我们的 AI 专家及研究人员合作构建定制模型的方式。

全新微调 API 功能

我们于 2023 年 8 月针对 GPT‑3.5 推出了自助式微调 API⁠（在新窗口中打开）。自那时起，已有数千家组织利用我们的 API 训练了数十万个模型。微调有助于模型深入理解内容，并强化模型在特定任务中的现有知识和能力。我们的微调 API 还支持处理超出单个提示限制的更多示例，从而在降低成本和延迟的同时得到更高质量的结果。微调的常见应用场景包括：训练模型使其在特定编程语言中生成更优质的代码、以特定格式总结文本，或根据用户行为生成个性化内容。

例如，全球职位匹配与招聘平台 Indeed⁠（在新窗口中打开）希望简化招聘流程。为此，Indeed 推出了一项功能，向求职者发送个性化推荐，根据他们的技能、经验和偏好突出显示相关职位。Indeed 对 GPT‑3.5 Turbo 进行了微调，以生成更高质量、更准确的解释。结果，Indeed 通过将提示中的令牌数量减少 80%，成功降低了成本和延迟。他们每月向求职者发送的消息数量从不到 100 万条增加到约 2,000 万条。

目前，我们正推出全新功能⁠（在新窗口中打开），让开发人员能更精细地掌控微调工作，具体包括：

基于轮次的检查点创建：在每个训练轮次中自动生成一个完整的微调模型检查点，减少后续重新训练的需求，特别是在过拟合的情况下。
对比 Playground：新增一个并排对比的 Playground 用户界面，用于比较模型质量和性能，允许人工评估多个模型的输出或根据单个提示微调快照。
第三方集成：支持与第三方平台集成（本周从 Weights and Biases⁠（在新窗口中打开）开始），让开发人员能够将详细的微调数据共享到其技术栈的其他部分。
全面的验证指标：能够在整个验证数据集上计算损失和准确率等指标，而非仅基于抽样批次，从而更深入地了解模型质量。
超参数配置：能够通过面板⁠（在新窗口中打开）配置可用的超参数（而不仅限于通过 API 或 SDK）。
微调面板改进：包括可以配置超参数、查看更详细的训练指标以及从之前的配置中重新运行作业。

扩展定制模型计划

辅助微调

在去年 11 月的开发者日 (DevDay) 上，我们宣布⁠了一项定制模型计划，旨在与 OpenAI 的一个专业研究人员团队合作，为特定领域训练和优化模型。自那时起，我们已与数十家客户会面，评估他们的定制模型需求，并不断完善我们的计划，以进一步提升模型性能。

今天，我们正式宣布推出辅助微调服务，作为定制模型计划的一部分。辅助微调是与我们技术团队合作开展的一个协作项目，目的是在更大规模上应用微调 API 之外的技术，如额外的超参数和各种参数高效微调 (PEFT) 方法。对于有些组织，他们需要获得支持以建立高效训练数据管道、评估系统以及定制参数和方法，从而最大程度发挥模型在其用例或任务中的性能。而辅助微调对他们来说尤其有帮助。

例如，SK Telecom⁠（在新窗口中打开）是一家韩国的电信运营商，为 3,000 多万用户提供服务。他们希望定制一个模型，使其成为电信领域的专家，而初期的重点是关注客户服务。他们与 OpenAI 合作，对 GPT‑4 进行微调，以提高其在韩语电信相关对话中的表现。经过 SKT 和 OpenAI 数周的努力，模型在电信客服任务中的表现取得了显著的提升 — 与 GPT‑4 相比，对话总结质量提高了 35%，意图识别准确率提高了 33%，满意度评分从 3.6 分（满分 5 分）提高到了 4.5 分。

定制训练模型

在某些情况下，有些组织需要从头开始训练一个专门为其业务、行业或领域而设计的模型。完全定制训练的模型通过使用新颖的中期训练和后训练技术，修改模型训练过程的关键步骤，从而将特定领域的新知识融入其中。那些成功应用完全定制训练模型的组织，通常拥有大量的专有数据 — 数百万个示例或数十亿个令牌，他们希望利用这些数据来向模型传授新知识或复杂、独特的行为，以满足高度特定的用例需求。

例如，Harvey⁠（在新窗口中打开）是一款面向律师的 AI 原生法律工具，该公司与 OpenAI 合作创建了一个针对判例法的定制训练大语言模型⁠。虽然基础模型在推理方面表现出色，但缺乏法律案例历史记录和其他法律工作所需的大量知识。在测试了我们的提示工程、 RAG 和微调之后，Harvey 与我们的团队合作，加入了模型所需的深度上下文 — 相当于 100 亿个令牌的数据。我们的团队修改了模型训练过程的每一个步骤，从针对特定领域的中期训练到定制后训练过程，并融入了专家律师的反馈意见。最终得到的模型在事实性回复方面实现了 83% 的提升，律师们在 97% 的时间内更倾向于使用定制模型的输出，而非 GPT‑4。

GPT-4 与 GPT-4 定制模型的比较。最终得到的模型在事实性回复方面实现了 83% 的提升，律师们在 97% 的时间内更倾向于使用定制模型的输出，而非 GPT-4。

模型定制的未来展望

我们相信，在未来，绝大多数组织都将开发出针对其行业、业务或用例进行个性化定制的模型。通过一系列可用于构建定制模型的技术，各种规模的组织都能开发出个性化模型，从而在 AI 应用中取得更具意义、更有针对性的影响。关键在于要明确界定用例范围，设计和实施评估系统，选择合适的技术，并做好准备持续迭代模型以实现最佳性能。

对于大多数组织来说，使用 OpenAI 的自助式微调 API 可以很快见到有意义的成效。而对于那些需要更深入地微调其模型或向模型中注入特定领域新知识的组织来说，我们的定制模型计划可以提供帮助。

欢迎获取我们的微调 API⁠（在新窗口中打开）文档，开始对模型进行微调。

查看全部