HealthBench is a new evaluation benchmark for AI in healthcare which evaluates models in realistic scenarios. Built with input from 250+ physicians, it aims to provide a shared standard for model performance and safety in health.
OpenAI o3 and OpenAI o4-mini combine state-of-the-art reasoning with full tool capabilities—web browsing, Python, image and file analysis, image generation, canvas, automations, file search, and memory.
OpenAI o3 y o4-mini representan un avance importante en la percepción visual al razonar con imágenes en su cadena de pensamiento.
Nuestros modelos más inteligentes y competentes hasta el momento, y con acceso completo a todas las herramientas
Sharing our updated framework for measuring and protecting against severe harm from frontier AI capabilities.
Introducing GPT-4.1 in the API—a new family of models with across-the-board improvements, including major gains in coding, instruction following, and long-context understanding. We’re also releasing our first nano model. Available to developers worldwide starting today.
BrowseComp: a benchmark for browsing agents.
We introduce PaperBench, a benchmark evaluating the ability of AI agents to replicate state-of-the-art AI research.
En OpenAI, hemos creído durante mucho tiempo que la generación de imágenes debería ser una capacidad principal de nuestros modelos de lenguaje. Es por eso que hemos incorporado nuestro generador de imágenes más avanzado hasta el momento en GPT-4o. El resultado: una generación de imágenes que no solo son hermosas, sino que también son útiles.