ChatGPT 및 파운데이션 모델 개발 방법
OpenAI가 모델을 개발하고 이를 ChatGPT와 같은 제품에 적용하는 방법에 대해 자세히 알아보기
ChatGPT를 구동하는 모델을 포함한 OpenAI의 파운데이션 모델은 다음과 같은 세 가지 주요 정보 출처를 사용하여 개발됩니다. (1) 인터넷 상에서 공개적으로 이용 가능한 정보, (2) OpenAI가 제3자와 제휴하여 액세스하는 정보 및 (3) OpenAI의 이용자 또는 인간 트레이너 및 연구원이 제공하거나 생성하는 정보.
본 문서는 OpenAI가 이러한 모델을 개발하는 데 사용하는 공개적으로 이용 가능한 정보 및 개인정보 관련 법률에 따라 해당 공개정보를 수집하고 사용하는 방법에 대한 개괄적인 설명을 제공합니다. 모델 훈련에 ChatGPT 대화를 사용하지 않도록 배제하는 방법을 포함하여, OpenAI가 서비스 이용자로부터 정보를 수집하고 사용하는 방법을 알아보려면 개인정보 처리방침과 본 문서를 참조하십시오.
ChatGPT는 인터넷을 통해 접속할 수 있는 인공 지능 기반 서비스입니다. 이용자는 ChatGPT를 사용하여 정보 정리 또는 요약, 번역 지원, 이미지 분석 또는 생성, 창의력 고취 및 아이디어 도출, 일상 업무 지원 등 다양한 작업을 수행할 수 있습니다. ChatGPT는 이용자의 질문과 지시문을 이해하고 그에 응답하는 방식으로 개발되었습니다. 이는 텍스트, 이미지, 오디오 또는 비디오 등 방대한 양의 기존 정보를 검토하고 정보 내의 관계를 학습하여 이루어집니다. 예를 들어, 모델은 단어들이 문맥 내에서 다른 단어들과 함께 어떤 경향성을 띠며 나타나는지를 학습한 다음, 학습한 내용을 활용하여 이용자 요청에 대해 나타날 가능성이 가장 높은 다음 단어와 그 뒤로 이어질 단어를 예측하여 응답합니다. 또한, 이러한 모델은 훈련 데이터에서 이미지를 구성하는 픽셀 간의 상호 관련성과 이미지를 설명하는 캡션과의 관련성을 학습하여 이미지와 같은 기타 형태의 정보를 생성하는 방법을 학습할 수도 있습니다.
이 문장에서 다음에 나올 수 있는 단어들이 많기 때문에(예를 들어, 좌회전하지 않고 “우회전”, “회전” 또는 “뒤로”), 모델이 응답할 수 있는 방식에는 임의적 요소가 있고, 많은 경우 OpenAI의 모델들은 동일한 질문에 다른 방식으로 응답할 것입니다.
기계학습모델은 “가중치” 또는 “매개변수”라고 하는 긴 숫자 열과 이러한 숫자를 해석하고 실행하는 코드로 구성됩니다. 모델들은 학습하는 정보의 사본을 포함하거나 저장하지 않습니다. 그 대신, 모델이 학습하는 과정에서, 모델을 구성하는 숫자들 중 일부가 학습한 것을 반영하여 약간 변경됩니다. 위의 예에서, 모델은 정보를 검토하고 이를 통해 무작위의 부정확한 단어 예측에서 좀 더 정확한 단어 예측으로 개선되지만, 모델 자체에서 실제로 발생한 것은 숫자들이 약간 변경된다는 것입니다. 모델은 검토한 문장, 이미지 또는 오디오를 저장하거나 복사하지 않았습니다.
위에서 설명한 바와 같이, ChatGPT 및 OpenAI의 다른 서비스는 (1) 인터넷 상에서 공개적으로 이용 가능한 정보, (2) OpenAI가 제3자와 제휴하여 액세스하는 정보 및 (3) OpenAI의 이용자 또는 인간 트레이너 및 연구원이 제공하거나 생성하는 정보를 사용하여 개발됩니다. 이 문서는 첫 번째 경우, 즉 인터넷에서 공개된 정보에 주안점을 두고 있습니다.
이러한 정보의 경우, OpenAI는 인터넷상에서 자유롭고 공개적으로 이용 가능한 공개 정보만을 사용합니다. 예를 들어, 유료 사이트 또는 “다크 웹”에서의 정보는 학습용 데이터로 이용되지 않습니다. OpenAI는 필터를 적용하여 혐오 표현, 성인용 콘텐츠, 주로 개인정보를 수집하는 사이트 및 스팸 등 모델이 학습하거나 출력하지 않기를 원하는 정보를 제거합니다. 그런 다음 해당 정보를 사용하여 모델을 학습시킵니다.
인터넷상의 많은 양의 데이터가 사람과 관련된 정보이므로, OpenAI의 훈련 정보에는 부수적으로 개인정보가 포함될 수 있습니다. OpenAI는 모델을 훈련하기 위해 개인정보를 적극적으로 구하지는 않습니다.
OpenAI는 예측, 추론, 문제 해결 능력과 같은 모델 지능을 훈련시키기 위한 목적으로만 훈련 정보를 사용합니다. OpenAI는 훈련 정보에 포함된 개인정보를 사람들에 대한 프로필을 구축하고 이들과 연락하고, 광고하고, 무언가를 판매하거나 정보 자체를 판매하기 위해 사용하지 않으며 앞으로도 그러한 계획이 없습니다.
OpenAI의 모델들은 이름과 주소와 같은 것들이 언어와 문장에 배치되는 방식을 이해하고 유명인사와 공인에 대하여 배우기 위해 개인정보로부터 학습할 수 있습니다. 이를 통해 OpenAI의 모델이 관련성 있는 답변을 더 잘 제공할 수 있습니다.
또한, OpenAI는 모델을 훈련할 때 개인정보의 처리를 줄이기 위한 조치도 취하고 있습니다. 예를 들어, OpenAI는 대량의 개인정보를 집계하는 웹사이트를 삭제하고, 개인의 비공개 정보 또는 민감한 정보에 대한 요청을 거부하도록 모델을 훈련시킵니다.
OpenAI는 훈련 정보를 합법적으로 사용합니다. OpenAI의 파운데이션 모델에는 상당한 이점을 제공하는 많은 애플리케이션이 있으며, 이미 콘텐츠 생성, 고객 서비스 개선, 소프트웨어 개발, 맞춤형 교육, 과학 연구 지원 등 다양한 분야에서 활용되고 있습니다. 이러한 이점은 모델을 훈련하기 위한 대량의 정보 없이는 실현될 수 없습니다. 또한, OpenAI의 훈련 정보는 개인에게 부정적인 영향을 미치려는 의도로 이용되지 않으며, 훈련 정보의 주요 출처는 이미 공개적으로 이용 가능합니다. 이러한 이유로, OpenAI는 GDPR과 같은 개인정보 관련 법률에 따른 정당한 이익에 근거하여 훈련 정보에 포함된 개인정보를 수집 및 이용하며, 이는 개인정보 처리방침에 보다 자세히 설명되어 있습니다. 또한 OpenAI가 이러한 정보를 적법하고 책임감 있게 수집 및 사용한다는 잠을 보장하기 위해 데이터 보호 영향 평가를 완료하였습니다.
OpenAI는 이의신청 및 이와 유사한 권리에 대응합니다. 언어 학습의 결과, ChatGPT 응답에는 공개 인터넷에 여러 번 등장하는 개인(예: 공인)에 대한 개인 정보가 포함되기도 합니다. 특정 관할권의 개인은 개인정보보호 포털(새 창에서 열기)을 통해 OpenAI 모델의 개인 정보 처리에 이의를 제기하거나 기타 정보주체로서 권리 요청을 할 수 있습니다. 또한, 귀하는 dsar@openai.com으로 연락하여 이러한 권리를 행사할 수도 있습니다.
개인정보 관련 법률에 따라 일부 권리는 절대적이지 않을 수 있다는 점 유의하시기 바랍니다. OpenAI는 적법한 사유가 있는 경우 요청을 거부할 수 있습니다. 다만, OpenAI는 개인정보 보호를 최우선으로 하고 모든 개인정보 관련 법률을 준수하기 위해 노력하고 있습니다. OpenAI가 문제를 적절하게 해결하지 않았다고 판단될 경우, 귀하는 귀하의 현지 감독당국에 민원을 제기할 권리가 있습니다.
귀하가 OpenAI의 웹사이트, 애플리케이션 및 서비스를 이용할 때 귀하로부터 또는 귀하에 대하여 수집되는 개인정보에 관한 OpenAI의 처리 방식에 대한 자세한 내용은 개인정보 처리방침을 참조하십시오.