Pensar com imagens
O OpenAI o3 e o o4-mini simbolizam uma transformação importante na percepção visual por reflexão com imagens na linha de raciocínio.
O OpenAI o3 e o4-mini são os modelos de raciocínio visual mais recentes de nossa série o. Pela primeira vez, nossos modelos conseguem pensar com a presença de imagens na linha de raciocínio. Ou seja: agora, eles não apenas observam as imagens, mas fazem coisas a partir delas.
Assim como o modelo anterior OpenAI o1, os modelos o3 e o4-mini foram treinados para pensar por mais tempo antes de dar uma resposta, gerando uma linha de raciocínio interna mais longa. Além disso, os novos modelos ampliaram esse recurso e agora contam com as imagens na linha de raciocínio: as imagens carregadas pelos usuários são transformadas com ferramentas que cortam, aproximam e giram, além de outras técnicas simples de processamento. E o mais importante é que são recursos nativos, que não usam modelos especializados de terceiros.
A inteligência visual avançada do ChatGPT ajuda você a resolver problemas mais complexos, pois consegue analisar imagens com mais detalhes, precisão e confiabilidade do que nunca. Agora, nossa tecnologia consegue integrar um raciocínio avançado com ferramentas como buscas na web e manipulação de imagens, executando automaticamente operações como zoom, cortes, giros ou melhorias nas imagens. Isso tudo permite obter insights mesmo a partir de fotos imperfeitas. Por exemplo: você pode carregar a foto de um conjunto de problemas de economia e receber explicações detalhadas, ou então mostrar uma captura de tela com um erro no build para obter uma análise rápida.
Essa abordagem habilita um novo eixo de escala de computação para teste-tempo, mesclando raciocínio visual e textual, como se vê no desempenho incomparável em várias áreas de referência multimodais. É mais um grande passo em direção ao raciocínio multimodal.
O pensamento em imagens facilita a interação dos usuários com o ChatGPT. Agora, você pode tirar uma foto para fazer uma pergunta e não precisa mais se preocupar com o posicionamento dos objetos ou do texto. Também não precisa mais se preocupar com a presença de outros elementos na imagem. Mesmo que os objetos não sejam óbvios à primeira vista, a reflexão visual permite que o modelo aproxime e visualize a imagem com mais clareza.
Todos os exemplos usaram o OpenAI o3.
Nossos modelos de raciocínio visual mais recentes funcionam em conjunto com outras ferramentas, como análise de dados Python, pesquisas na internet e geração de imagens. É assim que conseguem resolver problemas mais complexos com criatividade e eficiência, oferecendo aos nossos usuários a primeira experiência de agência multimodal.
Para destacar a melhora do raciocínio visual em relação aos nossos modelos multimodais anteriores, testamos o OpenAI o3 e o 04-mini com diversos testes humanos e referências de aprendizado de máquina. O desempenho desses novos modelos de raciocínio visual é significativamente melhor do que o dos antecessores, em todas as tarefas multimodais avaliadas.
Todos os modelos foram avaliados com a configuração de "esforço de reflexão" alta, como nas variantes "o4-mini-high" do ChatGPT.
Em particular, pensar em imagens, sem depender de pesquisas online, traz ganhos consideráveis em todas as referências de percepção que foram avaliadas. Nossos modelos estabeleceram novos níveis de desempenho em perguntas científicas (MMMU, MathVista), leitura e análise de gráficos (CharXiv), primitivos de percepção (VLMs are Blind) e pesquisa visual (V*). No V*, nossa abordagem de raciocínio visual atingiu 95,7% de precisão.
Atualmente, o pensamento com imagens apresenta as seguintes limitações:
- Linhas de raciocínio longas demais: os modelos podem fazer uso redundante ou desnecessário de ferramentas e manipulações das imagens, prolongando demais as linhas de raciocínio.
- Erros de percepção: os modelos ainda cometem erros básicos de percepção. Mesmo quando a ferramenta usada desenvolve corretamente o processo de reflexão, erros de interpretação visual podem gerar respostas incorretas.
- Confiabilidade: os modelos podem tentar processos de reflexão diferentes em cada tentativa de solução de um mesmo problema, às vezes gerando resultados incorretos.
O OpenAI o3 e o o4-mini desenvolveram consideravelmente os recursos mais avançados de raciocínio visual e representam um grande passo para o desenvolvimento da reflexão multimodal como um todo. Esses modelos oferecem a melhor precisão em tarefas de percepção visual, permitindo a resolução de questões que antes estavam fora de alcance.
Estamos continuamente redefinindo os recursos de reflexão dos modelos com imagens, pois queremos que eles sejam mais concisos e confiáveis e menos redundantes. Será um prazer continuar essa pesquisa no raciocínio multimodal e ver as pessoas explorarem essas melhorias em seu trabalho.
Atualização de 16 de abril: os resultados do o3 no Charxiv-r, Mathvista e vlmsareblind foram atualizados com uma alteração no prompt do sistema que não estava na avaliação original.
Autoria
Contributors
Aditya Ramesh, Aidan Clark, Aleksandra Spyra, Alex Tachard Passos, Alexander Kirillov, Ali Kalami, Amy McDonald Sandjideh, Andrei Gheorghe, Andrew Gibiansky, Andrew Tulloch, Angela Baek, Anubha Srivastava, Avital Oliver, Behrooz Ghorbani, Ben Leimberger, Borys Minaiev, Bowen Cheng, Brandon McKinzie, Carpus Chang, Cary Hudson, Casey Chu, Charlotte Cole, Chen Shen, Dan Roberts, Dana Palmie, Daniel Kappler, David Medina, Edmund Wong, Eric Mitchell, Eric Ning, Freddie Sulit, Haiming Bao, Haitang Hu, Hongyu Ren, Hyeonwoo Noh, Jakub Pachocki, James Betker, James Qin, Jamie Kiros, Jason Ai, Jerry Tworek, Jessica Liang, Ji Lin, Jiahui Yu, Jianfeng Wang, Joseph Mo, Kenji Hata, Kevin King, Kristian Georgiev, Kshitij Gupta, Lauren Yang, Li Jing, Lin Yang, Linden Li, Mark Chen, Martin Li, Max Schwarzer, Mia Glaese, Michael Malek, Minnia Feng, Nacho Soto, Nat McAleese, Niko Felix, Peter Faiman, Prafulla Dhariwal, Rajkumar Samuel, Rapha Gontijo Lopes, Ravi Teja Mullapudi, Reiichiro Nakano, Rennie Song, Ricky Xu, Sam Altman, Sean Fitzgerald, Shengjia Zhao, Shengli Hu, Shuchao Bi, Spencer Papay, Szi-chieh Yu, Wenda Zhou, Yang Lu, Yara Khakbaz, Yunxing Dai, Zhishuai Zhang








