跳至主要内容
OpenAI

更新日期: 2025年4月30日

ChatGPT 与我们的基础模型是如何开发的?

了解更多有关我们如何开发模型并将其应用于 ChatGPT 等产品的信息

在开发基础模型(包括为 ChatGPT 提供支持的模型)时,OpenAI 使用了以下三个主要信息来源:(1) 互联网上可公开获得的信息,(2) 我们与第三方合作以获取的信息, 以及 (3) 我们的用户或人工培训师和研究人员提供或生成的信息。

本文章概述了我们为促成开发上述模型所使用的公开信息,以及我们如何在遵守隐私法的前提下收集和使用上述信息。欲了解我们如何收集和使用服务用户相关信息,包括如何选择不将·ChatGPT·对话用于促进我们的模型训练,请参阅我们的《隐私政策》本文章(在新窗口中打开)

何谓 ChatGPT,它是如何工作的?

ChatGPT 是一种您可以通过互联网获取的基于人工智能的服务。您可使用 ChatGPT 完成各种任务,例如,整合或总结信息、协助翻译、分析或生成图像、激发创造力和灵感以及协助处理日常任务。ChatGPT 的开发方式使其能够理解并回应用户的问题和指令。它通过查阅文本、图像、音频或视频等大量现有信息,并学习信息间的关系,来实现这一点。例如,模型会学习在与其他单词或词语构成的语境中某单词或词语的常见呈现规律,然后,利用所了解的内容来预测接下来最有可能出现的单词或词语,以回应用户请求,并预测其后出现的每个单词或词语。这些模型还可以通过学习构成训练数据中图像的像素之间的关系以及这些像素与描述这些图像的说明性文字之间的关系,来学习生成其他形式的信息(例如,图像)。

举个例子,在模型学习过程(下称”训练“)中,我们可能会让一个模型尝试完成以下句子: "她没有向左转,而是向______转"。在训练之前,模型会随意作出回应,但在阅读并学习多行文本后,模型能更好地理解这类句子,并能更准确地预测接下来出现的单词或词语。然后,它会在海量句子中重复这一过程。

鉴于在上述例句中,接下来可能出现的词语诸多(例如,她没有向左转,而是“向右转”、“转过身”或“向后转”),所以模型的响应方式存在一定的随机性,在很多情况下,我们的模型会对同一个问题作出不同答复。

机器学习模型由大串数字(下称“权重”或“参数”)以及解释和执行这些数字的代码组成。模型不会包含或存储其从中学到的信息副本。相反,随着模型的学习,组成模型的一些数字会发生细微变化,以反映模型所学到的内容。在上述示例中,所涉模型查阅了有助于优化其预测结果准确性(即,将随机预测的不当单词或词语优化为更为准确的单词或词语)的信息,但模型内部实际发生的仅仅是,组成模型的数字发生了细微变化。该模型没有存储或复制所查阅的句子、图像或音频。

我们使用哪类信息来训练 ChatGPT?

如上所述,在开发 ChatGPT 和其他服务时,我们使用了:(1) 互联网上可公开获得的信息,(2) 我们与第三方合作以获取的信息, 以及 (3) 我们的用户或人工培训师和研究人员提供或生成的信息。本文章重点讨论第一类信息:互联网上可公开获得的信息。

对于这类信息,我们只使用可在互联网上免费公开获取的公开信息,例如,我们不会主动付费购买信息或从“暗网”获取信息。我们会进行内容筛选,删除我们不希望我们的模型学习或输出的信息,如仇恨言论、成人内容、主要汇总个人信息的网站和垃圾邮件。然后,我们利用筛选后的信息来训练我们的模型。

是否会用个人信息来训练 ChatGPT?

互联网上的海量数据都与人有关,因此我们的训练信息也会偶然包含个人信息。我们不会主动寻找个人信息来训练我们的模型。

我们仅将训练信息用于训练我们的模型,使其具备智能化能力,例如预测、推理和解决问题的能力。不论是现在还是将来,我们都不会使用训练信息中的任何个人信息来建立个人档案、与他们联系、向他们宣传、试图向他们出售任何产品/服务、或出售他们的个人信息。

我们的模型可以从个人信息中学习,了解姓名和地址等信息如何与语言和句子相契合,或者了解名人和公众人物。这样,我们的模型就能更好地做出相应响应。

我们在训练我们的模型的同时也会采取相应措施减少对个人信息的处理。例如,我们会移除汇集了海量个人信息的网站,并训练我们的模型拒绝涉及个人隐私或敏感信息的请求。

ChatGPT 的开发在哪些方面符合隐私法?

我们合法使用训练信息。我们的基础模型拥有许多带来显著效益的应用程序,并且已经在帮助人们创建内容、改善客户服务、开发软件、定制教学内容、支持科学研究等。如果没有海量信息来训练模型,就无法实现这些效益。此外,我们使用训练信息无意对个人造成负面影响,而且我们已对外公布这些训练信息的主要来源。因此,我们对训练信息中的个人信息进行收集和使用是基于隐私法(如 《通用数据保护条例》)规定的合法权益,详情请参见我们的 《隐私政策》。我们还完成了数据保护影响评估,以帮助确保我们合法、负责任地收集和使用个人信息。

我们会对异议请求和类似权利做出回应。作为语言学习的结果,ChatGPT 所作回复有时可能包含多次出现在公共互联网上的相关主体(如公众人物)的个人信息。部分司法管辖区的个人可以通过我们的 隐私门户网站(在新窗口中打开)反对我们的模型处理其个人信息或提出其他数据主体权利请求。您也可以发送电子邮件至 dsar@openai.com 以行使这些权利。

请注意,根据隐私法,某些权利可能不是绝对的。如有合法理由,我们可以拒绝请求。然而,我们会致力于优先保护个人信息,并遵守所有适用的隐私法。如果您认为我们没有充分解决某个问题,您有权向当地监管机构投诉。

如需了解 OpenAI 如何处理在您使用我们的网站、应用程序和服务时我们从您那里收集的个人信息或所收集的有关您的个人信息,请参阅我们的《隐私政策》