12 września 2024

Przedstawiamy OpenAI o1‑preview

Nowa seria modeli rozumowania służących do rozwiązywania trudnych problemów. Dostępne teraz

Ładowanie…

Aktualizacja z 17 września 2024 r.: Limity liczby zapytań wynoszą obecnie 50 zapytań tygodniowo dla o1‑preview i 50 zapytań dziennie dla o1‑mini.

Opracowaliśmy nową serię modeli sztucznej inteligencji, które są zaprojektowane tak, aby poświęcać więcej czasu na myślenie, zanim udzielą odpowiedzi. Potrafią rozumować, analizować złożone zadania i rozwiązywać trudniejsze problemy niż poprzednie modele w dziedzinie nauk ścisłych, kodowania i matematyki.

Dzisiaj udostępniamy pierwszą część tej serii w ChatGPT i naszym interfejsie API. Jest to wersja poglądowa i spodziewamy się regularnych aktualizacji i udoskonaleń. Razem z tą wersją udostępniamy również wersje próbne kolejnej aktualizacji, nad którą obecnie pracujemy.

Jak to działa

Wyszkoliliśmy te modele tak, aby poświęcały więcej czasu na przemyślenie problemów, zanim udzielą odpowiedzi, podobnie jak zrobiłby to człowiek. Dzięki uczeniu się udoskonalają one swój proces myślenia, wypróbowują różne strategie i rozpoznają swoje błędy.

W naszych testach kolejna aktualizacja modelu wypadła podobnie jak w przypadku doktorantów rozwiązujących trudne zadania testowe z fizyki, chemii i biologii. Odkryliśmy również, że model radzi sobie świetnie z matematyką i kodowaniem. Na egzaminie kwalifikacyjnym do Międzynarodowej Olimpiady Matematycznej (IMO) GPT‑4o prawidłowo rozwiązał tylko 13% zadań, podczas gdy model rozumowania uzyskał wynik 83%. Ich umiejętności kodowania były oceniane w konkursach i osiągnęły 89. percentyl w konkursach Codeforces. Więcej na ten temat można znaleźć w naszym artykule poświęconym badaniom technicznym.

Ponieważ jest to wczesny model, nie posiada on jeszcze wielu funkcji, które czynią ChatGPT użytecznym, takich jak przeglądanie sieci w celu znalezienia informacji czy przesyłanie plików i obrazów. W wielu typowych przypadkach GPT‑4o stanie się w niedalekiej przyszłości bardziej skuteczny.

Jednak w przypadku złożonych zadań wymagających rozumowania jest to znaczący postęp, który odzwierciedla nowy poziom możliwości AI. Biorąc to pod uwagę, resetujemy licznik do 1 i nadajemy tej serii nazwę OpenAI o1.

Bezpieczeństwo

W ramach opracowywania tych nowych modeli zastosowaliśmy nowe podejście do szkolenia z zakresu bezpieczeństwa, wykorzystujące zdolność rozumowania modeli, aby pomóc im w przestrzeganiu wytycznych dotyczących bezpieczeństwa i zgodności z przepisami. Dzięki umiejętności rozumowania na temat zasad bezpieczeństwa w określonym kontekście model może je skuteczniej stosować.

Jednym ze sposobów pomiaru bezpieczeństwa jest testowanie, na ile nasz model zachowuje zgodność z zasadami bezpieczeństwa, gdy użytkownik próbuje je ominąć (tzw. „jailbreaking”). W jednym z naszych najtrudniejszych testów omijania zabezpieczeń GPT‑4o uzyskał 22 punkty (w skali od 0 do 100), podczas gdy nasz model o1‑preview uzyskał 84 punkty. Więcej na ten temat można przeczytać w karcie systemu i naszym poście badawczym.

Aby sprostać nowym możliwościom tych modeli, wzmocniliśmy nasze działania w zakresie bezpieczeństwa, zarządzania wewnętrznego i współpracy z rządem federalnym. Obejmuje to rygorystyczne testy i oceny z wykorzystaniem naszych Ram gotowości⁠(otwiera nowe okno), najlepszych w swojej klasie zespołów ds. bezpieczeństwa oraz procesów przeglądu na poziomie zarządu, w tym przeprowadzanych przez nasz Komitet ds. bezpieczeństwa.

Aby wzmocnić nasze zaangażowanie w bezpieczeństwo AI, niedawno sformalizowaliśmy umowy z amerykańskimi i brytyjskimi instytutami bezpieczeństwa AI. Rozpoczęliśmy już wdrażanie tych umów, m.in. udzielając instytutom wcześniejszego dostępu do wersji badawczej tego modelu. Był to ważny pierwszy krok w naszej współpracy, który pomógł nam ustanowić proces badań, oceny i testowania przyszłych modeli przed ich publicznym udostępnieniem oraz po udostępnieniu.

Komu to się przyda

Te udoskonalone możliwości rozumowania mogą być szczególnie przydatne, gdy rozwiązujesz złożone problemy z zakresu nauk ścisłych, kodowania, matematyki lub podobnych dziedzin. Na przykład o1 może posłużyć badaczom zajmującym się opieką zdrowotną do dodawania adnotacji do danych sekwencjonowania komórek, fizykom do generowania skomplikowanych wzorów matematycznych potrzebnych w optyce kwantowej, a programistom ze wszystkich dziedzin do tworzenia i wykonywania wieloetapowych przepływów pracy.

OpenAI o1-mini

Seria o1 doskonale nadaje się do precyzyjnego generowania i debugowania złożonego kodu. Aby zapewnić programistom bardziej wydajne rozwiązanie, udostępniamy również OpenAI o1‑mini, szybszy i tańszy model rozumowania, który jest szczególnie skuteczny podczas kodowania. o1‑mini, jako mniejszy model, jest o 80% tańszy niż o1‑preview, co czyni go wydajnym i ekonomicznym modelem dla aplikacji, w których wymagane jest rozumowanie, ale nie szeroka wiedza o świecie.

Jak używać OpenAI o1

Użytkownicy ChatGPT Plus i Team będą mogli uzyskać dostęp do modeli o1 w ChatGPT już dziś. Zarówno o1‑preview, jak i o1‑mini można wybrać ręcznie w selektorze modeli. Po uruchomieniu tygodniowe limity wysyłania wiadomości będą wynosić 30 wiadomości dla o1‑preview i 50 dla o1‑mini. Pracujemy nad zwiększeniem tych wartości i umożliwieniem usłudze ChatGPT automatycznego wybierania właściwego modelu dla danego polecenia.

Obraz nowego menu rozwijanego ChatGPT, które wyświetla nową opcję modelu „o1-preview” na jasnożółtym i niebieskim abstrakcyjnym tle

Użytkownicy ChatGPT Enterprise i Edu uzyskają dostęp do obu modeli od przyszłego tygodnia.

Programiści kwalifikujący się do poziomu 5 użytkowania interfejsu API⁠(otwiera nowe okno) mogą już dziś rozpocząć tworzenie prototypów z wykorzystaniem obu modeli w interfejsie API, z limitem 20 RPM. Pracujemy nad zwiększeniem tych limitów po przeprowadzeniu dodatkowych testów. Obecnie interfejs API tych modeli nie obejmuje wywoływania funkcji, przesyłania strumieniowego, obsługi komunikatów systemowych i innych funkcji. Aby rozpocząć, zapoznaj się z dokumentacją API⁠(otwiera nowe okno).

Planujemy również udostępnić o1‑mini wszystkim użytkownikom ChatGPT Free.

Co dalej

Jest to wczesna wersja poglądowa tych modeli rozumowania w ChatGPT i interfejsie API. Oprócz aktualizacji modeli spodziewamy się dodania funkcji przeglądania, przesyłania plików i zdjęć oraz innych funkcji, które uczynią je bardziej przydatnymi dla wszystkich.

Planujemy również kontynuować rozwój i wdrożenia modeli z serii GPT, oprócz nowej serii OpenAI o1.

Autorzy

OpenAI