GPT‑4.5 소개
가장 강력한 GPT 모델 리서치 프리뷰를 만나보세요. 전 세계의 Pro 사용자와 개발자가 사용할 수 있습니다.
역사상 최대 규모이자 최고의 채팅 모델인 GPT‑4.5의 리서치용 프리뷰를 공개합니다. GPT‑4.5는 사전 훈련과 사후 훈련을 확장하는 데 있어 한 걸음 더 나아갔습니다. GPT‑4.5는 비지도 학습을 확장하여 추론 없이도 패턴을 인식하고, 연관성을 도출하고, 창의적인 인사이트를 생성하는 능력을 개선했습니다.
초기 테스트 결과에 따르면 GPT‑4.5와의 상호작용은 더욱 자연스러워졌습니다. 더 넓은 지식 기반, 향상된 사용자 의도 파악 능력, 발전한 “EQ”덕분에 항샹된 글쓰기, 프로그래밍, 실제 문제 해결과 같은 작업에 유용합니다. 또한 환각 현상이 덜 발생할 것으로 예상됩니다.
GPT‑4.5의 장점과 한계를 더 잘 이해할 수 있도록 리서치 프리뷰 버전을 공유하고 있습니다. 우리는 여전히 GPT‑4.5의 능력을 탐구하고 있으며, 사람들이 GPT‑4.5를 어떻게 예상하지 못한 방식으로 사용하는지 보고 싶습니다.
우리는 비지도 학습과 추론이라는 두 가지 상호 보완적인 패러다임을 확장하여 AI 기능을 개발합니다. 이 둘은 인텔리전스의 두 축을 이룹니다.
- 비지도 학습은 월드 모델의 정확성과 직관력을 높여줍니다. GPT‑3.5, GPT‑4, GPT‑4.5와 같은 모델은 이러한 패러다임을 발전시켰습니다.
- 반면 추론 확장은 모델이 반응하기 전에 사고하고, 연쇄적으로 사고하도록 가르쳐 복잡한 STEM 또는 논리 문제를 해결할 수 있습니다. OpenAI o1과 OpenAI o3‑mini와 같은 모델은 이러한 패러다임을 발전시킵니다.
GPT‑4.5는 아키텍처 최적화 혁신과 함께 컴퓨터와 데이터를 확장하여 비지도 학습을 확장한 사례입니다. GPT‑4.5는 Microsoft Azure AI 슈퍼컴퓨터를 통해 훈련되었습니다. 그 결과, 모델이 폭넓은 지식을 갖추고 세상에 대해 깊이 이해하면서 다양한 주제에 대한 환각 현상이 줄어들고 신뢰성이 높아집니다.
GPT 패러다임 확장
더 깊이 있는 세계의 지식
SimpleQA 정확도(높을수록 좋음)
SimpleQA 환각률(낮을수록 좋음)
SimpleQA는 복잡하지는 않지만 까다로운 지식 질문에 대한 LLM(대규모 언어 모델) 사실성을 측정합니다.
모델을 확장하고 모델이 점점 더 복잡한 문제를 해결함에 따라 인간의 요구와 의도를 더 잘 이해하도록 훈련하는 것이 점점 더 중요해지고 있습니다. 우리는 GPT‑4.5를 위해 더 작은 모델에서 파생된 데이터로 규모가 더 크고 강력한 모델을 훈련할 수 있는 확장 가능한 새로운 기술을 개발했습니다. 이러한 기술은 GPT‑4.5의 제어 가능성, 뉘앙스에 대한 이해, 자연스러운 대화 능력을 향상합니다.
인간 테스트 담당자와 비교 평가
인간 선호도는 테스터가 GPT‑4o.1보다 GPT‑4.5를 선호한 쿼리 비율을 측정한 것입니다.
세상에 대한 깊은 이해와 향상된 협업을 결합하면, 인간과의 협업에 더 잘 맞춰진 따뜻하고 직관적인 대화 속에서 아이디어를 자연스럽게 통합하는 모델이 탄생합니다. GPT‑4.5는 인간의 의도를 더 잘 이해하고, 더 섬세한 뉘앙스와 향상된 “EQ”로 미묘한 단서나 암묵적인 기대를 해석합니다. 또한 GPT‑4.5는 더 향상된 미적 직관력과 창의성을 보여줍니다. 이는 글쓰기와 디자인에 큰 도움을 줍니다.
사용 사례
GPT-4.5
더 높은 “EQ”를 보여주는 GPT‑4.5는 사용자에게 추가 대화를 유도할 때와 광범위한 정보를 제공할 때를 구분합니다.
GPT‑4.5는 응답하기 전에 생각하지 않기 때문에 특히 OpenAI o1과 같은 추론 모델과는 다른 강점을 지니고 있습니다. OpenAI o1과 OpenAI o3‑mini와 비교할 때 GPT‑4.5는 보다 일반적인 목적으로 사용하기에 적합하며, 본질적으로 더 스마트한 모델입니다. 우리는 추론이 미래 모델의 핵심 기능이 될 것이며, 사전 훈련과 추론이라는 확장에 대한 두 가지 접근 방식이 서로를 보완할 것이라고 생각합니다. GPT‑4.5와 같은 모델은 사전 훈련을 통해 더욱 스마트해지고 더 많은 지식을 습득함에 따라 추론 및 도구 사용 에이전트를 위한 더욱 강력한 기반이 될 것입니다.
모델 기능이 향상하는 때는 모델을 더 안전하게 만들 수 있는 기회이기도 합니다. GPT‑4.5는 GPT‑4o에 사용된 것과 같은 기존의 지도 파인 튜닝(SFT)과 인간 피드백을 통한 강화 학습(RLHF) 방법과 결합한 새로운 지도 기법으로 훈련되었습니다. 이러한 작업이 더욱 우수한 성능의 미래 모델을 만들어 나가는 데 기반이 되기를 바랍니다.
개선 사항을 스트레스 테스트하기 위해 준비성 프레임워크(새 창에서 열기)에 따라 배포하기 전 일련의 안전 테스트를 수행했습니다. 우리는 GPT 패러다임의 확장이 평가 전반에 걸쳐 역량 개선에 기여했다는 사실을 발견했습니다. 이러한 평가의 자세한 결과는 첨부된 시스템 카드에 게시하고 있습니다.
오늘부터 ChatGPT Pro 사용자는 웹, 모바일, 데스크톱의 모델 선택기에서 GPT‑4.5를 선택할 수 있습니다. 다음 주에는 Plus와 Team 사용자에게, 그다음 주에는 Enterprise와 Edu 사용자에게 점진적으로 공개할 예정입니다.
GPT‑4.5는 검색을 통해 최신 정보에 액세스하고, 파일과 이미지 업로드를 지원하고, 캔버스를 사용하여 글쓰기와 코딩 작업을 할 수 있습니다. 그러나 GPT‑4.5는 현재 ChatGPT에서 음성 모드, 동영상, 화면 공유와 같은 멀티 모달 기능을 지원하지 않습니다. 미래에는 사용자 경험을 단순화하여 AI가 사용자를 위해 “바로 작동”할 수 있도록 노력할 것입니다.
또한 모든 유료 사용 등급(새 창에서 열기)의 개발자들에게 채팅 완성 API, 어시스턴트 API, 배치 API에서 GPT‑4.5를 먼저 선보이고 있습니다. 이 모델은 함수 호출, 구조화된 출력, 스트리밍, 시스템 메시지와 같은 주요 기능을 지원합니다. 또한 이미지 입력을 통한 비전 기능도 지원합니다.
초기 테스트를 기반으로 개발자들은 글쓰기 지원, 커뮤니케이션, 학습, 코칭, 브레인스토밍 등 GPT‑4.5의 높은 감성 지능과 창의성이 필요한 애플리케이션에 GPT‑4.5가 특히 유용하다는 것을 알 수 있습니다. 또한 다단계 코딩 워크플로와 복잡한 작업 자동화를 포함하여 에이전트 계획 및 실행에서 강력한 성능을 보여줍니다.
GPT‑4.5는 규모가 매우 크고 연산 집약적인 모델로, GPT‑4o보다 비용이 비싸며, GPT‑4o를 대체할 수 없습니다. 따라서 현재의 기능 지원과 미래 모델 구축의 사이의 균형을 맞추면서 장기적으로 API를 계속 제공할지 여부를 평가하고 있습니다. 실제 환경에서의 강점, 기능, 잠재적 적용 가능성에 대해 더 자세히 알아볼 수 있기를 기대하고 있습니다. GPT‑4.5가 여러분의 사용 사례에 고유한 가치를 제공한다면, 여러분의 피드백(새 창에서 열기)은 결정을 내리는 데 중요한 역할을 할 것입니다.
컴퓨팅의 규모가 점차 커질수록 새로운 기능이 등장합니다. GPT‑4.5는 비지도 학습에서 가능한 한계를 넓히는 모델입니다. 우리는 새로운 기능과 예상치 못한 사용 사례를 발견해 내는 커뮤니티의 창의력에 계속해서 놀라고 있습니다. GPT‑4.5와 함께 비지도 학습의 한계를 탐색하고 새로운 기능을 발견해 보세요.
아래에서는 전통적으로 추론과 관련된 작업에 대한 현재 성능을 설명하기 위해 표준 학술 벤치마크에 대한 GPT‑4.5의 결과를 제공합니다. 비지도 학습을 순수하게 확장하는 것만으로도 GPT‑4.5는 GPT‑4o와 같은 이전 모델에 비해 의미 있는 개선을 보여줍니다. 그렇지만 학술 벤치마크가 항상 실제 유용성을 반영하는 것은 아니라는 것을 잘 알고 있기 때문에 이번 출시를 통해 GPT‑4.5의 기능을 더욱 완벽하게 파악할 수 있기를 기대합니다.
모델 평가 점수
GPT‑4.5 | GPT‑4o | OpenAI o3‑mini (high) | |
GPQA(과학) | 71.4% | 53.6% | 79.7% |
AIME ‘24(수학) | 36.7% | 9.3% | 87.3% |
MMMLU(다국어) | 85.1% | 81.5% | 81.1% |
MMMU(멀티 모달) | 74.4% | 69.1% | - |
SWE-Lancer Diamond(코딩)* | 32.6% $186,125 | 23.3% $138,750 | 10.8% $89,625 |
SWE-Bench Verified(코딩)* | 38.0% | 30.7% | 61.0% |
*표시된 숫자는 최고 내부 성능을 나타냅니다.
작성
기초 기여자
Adam Goucher, Alex Paino, Ali Kamali, Amin Tootoonchian, Andrew Tulloch, Ben Sokolowsky, Clemens Winter, Colin Wei, Daniel Kappler, Daniel Levy, Felipe Petroski Such, Geoff Salmon, Ian O’Connell, Jason Teplitz, Kai Chen, Nik Tezak, Prafulla Dhariwal, Rapha Gontijo Lopes, Sam Schoenholz, Youlong Cheng, Yujia Jin 및 Yunxing Dai
리서치
핵심 기여자
Aiden Low, Alec Radford, Alex Carney, Alex Nichol, Alexis Conneau, Ananya Kumar, Ben Wang, Charlotte Cole , Elizabeth Yang, Gabriel Goh, Hadi Salman, Haitang Hu, Heewoo Jun, Ian Sohl, Ishaan Gulrajani, Jacob Coxon, James Betker, Jamie Kiros, Jessica Landon, Kyle Luther, Lia Guy, Lukas Kondraciuk, Lyric Doshi, Mikhail Pavlov, Qiming Yuan, Reimar Leike, Rowan Zellers, Sean Metzger, Shengjia Zhao, Spencer Papay, Tao Wang
기여자
Adam Lerer, Adrien Ecoffet, Aidan McLaughlin, Alexander Prokofiev, Alexandra Barr, Allan Jabri, Andrew Gibiansky, Andrew Schmidt, Casey Chu, Chak Li, Chelsea Voss, Chris Hallacy, Chris Koch, Christine McLeavey, David Mely, Dimitris Tsipras, Eric Sigler, Erin Kavanaugh, Farzad Khorasani, Huiwen Chang, Ilya Kostrikov, Ishaan Singal, Ji Lin, Jiahui Yu, Jing Yu Zhang, John Rizzo, Jong Wook Kim, Joyce Lee, Juntang Zhuang, Leo Liu, Li Jing, Long Ouyang, Louis Feuvrier, Mo Bavarian, Nick Stathas, Nitish Keskar, Oleg Murk, Preston Bowman, Scottie Yan, SQ Mah, Tao Xu, Taylor Gordon, Valerie Qi, Wenda Zhou, Yu Zhang
스케일링
핵심 기여자
Alex Chow, Alex Renzin, Aleksandra Spyra, Avi Nayak, Ben Leimberger, Christopher Hesse, Duc Phong Nguyen, Dinghua Li, Eric Peterson, Francis Zhang, Gene Oden, Kai Fricke, Kai Hayashi, Larry Lv, Leqi Zou, Lin Yang, Madeleine Thompson, Michael Petrov, Miguel Castro, Natalia Gimelshein, Phil Tillet, Reza Zamani, Ryan Cheu Stanley Hsieh, Steve Lee, Stewart Hall, Thomas Raoux, Tianhao Zheng, Vishal Kuo, Yongjik Kim, Yuchen Zhang, Zhuoran Liu
기여자
Alvin Wan, Andrew Cann, Andrew Codispoti, Antoine Pelisse, Anuj Kalia, Aaron Hurst, Avital Oliver, Brad Barnes, Brian Hsu, Chen Ding, Chen Shen, Cheng Chang, Christian Gibson, Christopher Berner, Duncan Findlay, Fan Wang, Fangyuan Li, Gianluca Borello, Heather Schmidt, Henrique Ponde de Oliveira Pinto, Ikai Lan, Jiayi Weng, James Crooks, Jos Kraaijeveld, Junru Shao, Kenny Hsu, Kenny Nguyen, Kevin King, Leah Burkhardt, Leo Chen, Linden Li, Lu Zhang, Mahmoud Eariby, Marat Dukhan, Mateusz Litwin, Miki Habryn, Natan LaFontaine, Pavel Belov, Peng Su, Prasad Chakka, Rachel Lim, Rajkumar Samuel, Renaud Gaubert, Rory Carmichael, Sarah Dong, Shantanu Jain, Shuaiqi Xia, Stephen Logsdon, Todd Underwood, Tony Zhao, Weixing Zhang, Will Sheu, Weiyi Zheng, Yinghai Lu, Yunqiao Zhang
안전 시스템
Andrea Vallone, Andy Applebaum, Cameron Raymond, Chong Zhang, Dan Mossing, Elizabeth Proehl, Eric Wallace, Evan Mays, Grace Zhao, Ian Kivlichan, Irina Kofman, Joel Parish, Kevin Liu, Keren Gu-Lemberg, Kristen Ying, Lama Ahmad, Lilian Weng, Leon Maksin, Leyton Ho, Meghan Shah, Michael Lampe, Michele Wang, Miles Wang, Olivia Watkins, Phillip Guo, Samuel Miserendino, Sam Toizer, Sandhini Agarwal, Tejal Patwardhan, Tom Dupré la Tour, Tong Mu, Tyna Eloundou 및 Yunyun Wang
배포
Adam Brandon, Adam Perelman, Adele Li, Akshay Nathan, Alan Hayes, Alfred Xue, Alison Ben, Alec Gorge, Alex Guziel, Alex Iftimie, Ally Bennett, Andrew Chen, Andy Wang, Andy Wood, Angad Singh, Anoop Kotha, Antonia Woodford, Anuj Saharan, Ashley Tyra, Atty Eleti, Ben Schneider, Bessie Ji, Beth Hoover, Bill Chen, Blake Samic, Britney Smith, Brian Yu, Caleb Wang, Cary Bassin, Cary Hudson, Charlie Jatt, Chengdu Huang, Chris Beaumont, Christina Huang, Cristina Scheau, Dana Palmie, Daniel Levine, Daryl Neubieser, Dave Cummings, David Sasaki, Dibya Bhattacharjee, Dylan Hunn, Edwin Arbus, Elaine Ya Le, Enis Sert, Eric Kramer, Fred von Lohmann, Freddie Sulit, Gaby Janatpour, Garrett McGrath, Garrett Ollinger, Gary Yang, Hao Sheng, Harold Hotelling, Janardhanan Vembunarayanan, Jeff Harris, Jeffrey Sabin Matsumoto, Jennifer Robinson, Jessica Liang, Jessica Shieh, Jiacheng Yang, Joel Morris, Joseph Florencio, Josh Kaplan, Kan Wu, Karan Sharma, Karen Li, Katie Pypes, Kendal Simon, Kendra Rimbach, Kevin Park, Kevin Rao, Laurance Fauconnet, Lauren Workman, Leher Pathak, Liang Wu, Liang Xiong, Lien Mamitsuka, Lindsay McCallum, Lukas Gross, Manoli Liodakis, Matt Nichols, Michelle Fradin, Minal Khan, Mingxuan Wang, Nacho Soto, Natalie Staudacher, Nikunj Handa, Niko Felix, Ning Liu, Olivier Godement, Oona Gleeson, Philip Pronin, Raymond Li, Reah Miyara, Robert Xiong, Rohan Nuttall, R.J. Marsan, Sara Culver, Scott Ethersmith, Sean Fitzgerald, Shamez Hemani, Sherwin Wu, Shiao Lee, Shuyang Cheng, Siyuan Fu, Spug Golden, Steve Coffey, Steven Heidel, Sundeep Tirumalareddy, Tabarak Khan, Thomas Degry, Thomas Dimson, Tom Stasi, Tomo Hiratsuka, Trevor Creech, Uzair Navid Iftikhar, Victoria Chernova, Victoria Spiegel, Wanning Jiang, Wenlei Xie, Yaming Lin, Yara Khakbaz, Yilei Qian, Yilong Qin, Yo Shavit 및 Zhi Bie
경영 리더십
Aidan Clark, Bob McGrew, David Farhi, Greg Brockman, Hannah Wong, Jakub Pachocki, Johannes Heidecke, Joanne Jang, Kate Rouch, Kevin Weil, Lauren Itow, Liam Fedus, Mark Chen, Mia Glaese, Mira Murati, Nick Ryder, Sam Altman, Srinivas Narayanan 및 Tal Broda