El modelo de generación de imágenes más avanzado de OpenAI con Thinking Mode nativo, más del 95 % de precisión en renderizado de texto, búsqueda web durante la generación y soporte para hasta 16 imágenes de referencia. Genere visuales listos para producción con tipografía precisa, personajes consistentes y soporte de texto multilingüe.
GPT Image 2 (ChatGPT Images 2.0) es el modelo de imágenes más reciente de OpenAI, lanzado en abril de 2026 como sucesor de la generación de imágenes de GPT-4o. Es el primer modelo de imágenes de OpenAI con razonamiento integrado, logrando más del 95 % de precisión en renderizado de texto en escrituras latinas y no latinas. El modelo admite resolución de salida 2K, relaciones de aspecto continuas de 3:1 a 1:3 y genera hasta 8 imágenes consistentes a partir de un solo prompt. Con Thinking Mode, puede buscar en la web durante la generación, analizar guías de marca subidas y auto-verificar los resultados antes de renderizar.

Primer modelo de imágenes de OpenAI con razonamiento integrado. Busca en la web, analiza materiales subidos como PDFs y guías de marca, razona sobre el diseño antes de dibujar y auto-verifica los resultados antes de devolverlos.
Un avance en el renderizado de texto que trata la tipografía como un elemento de primera clase. Titulares nítidos, leyendas pequeñas legibles, SKUs y precios precisos — sin más texto ilegible en sus generaciones.
Renderizado de texto de calidad nativa en japonés, coreano, chino, hindi, bengalí y todas las escrituras latinas. Manejo de escrituras mixtas para materiales de marketing globales, menús y creaciones internacionales.
Sube hasta 16 imágenes de referencia para consistencia de personajes, retención de detalles de producto, fusión de múltiples elementos y alineación de estilo en todas las salidas generadas.
Resolución de salida de hasta 2048x2048 (2K) con soporte de relación de aspecto continua desde 3:1 ultra panorámica hasta 1:3 ultra alta. Sin más ajustes predefinidos — especifique cualquier proporción que necesite.
Genere hasta 8 imágenes coherentes a partir de un solo prompt con personajes, objetos e iluminación consistentes mantenidos en todo el conjunto — ideal para storyboards, variaciones y producción por lotes.
GPT Image 2 FAQ
GPT Image 2 (ChatGPT Images 2.0) es el modelo de generación de imágenes más reciente de OpenAI, lanzado en abril de 2026. A diferencia de DALL-E 3, cuenta con Thinking Mode nativo con razonamiento, más del 95 % de precisión en renderizado de texto, búsqueda web durante la generación, hasta 16 imágenes de referencia, resolución de salida 2K y soporte de texto multilingüe para japonés, coreano, chino, hindi y bengalí.
Thinking Mode añade un paso de razonamiento antes de la generación de imágenes. El modelo puede buscar en la web referencias actuales, analizar materiales subidos como PDFs y guías de marca, planificar el diseño y la composición, y luego auto-verificar los resultados antes de renderizar. Esto toma hasta 2 minutos para prompts complejos pero produce resultados significativamente mejores para solicitudes creativas que requieren cumplimiento de marca, ricas en información o de múltiples pasos.
GPT Image 2 alcanza más del 95 % de precisión en renderizado de texto en todas las escrituras soportadas, en comparación con aproximadamente el 60-70 % en modelos anteriores. Los titulares, leyendas pequeñas, SKUs, precios y etiquetas siguen los prompts con precisión. Es el primer modelo de imágenes IA donde el renderizado de texto es lo suficientemente fiable para uso en producción.
GPT Image 2 proporciona renderizado de texto de calidad nativa en japonés, coreano, chino (simplificado y tradicional), hindi, bengalí y todas las escrituras basadas en latín, incluyendo inglés, francés, alemán, español y más. Maneja contenido de escritura mixta en una sola generación.
GPT Image 2 soporta hasta 16 imágenes de referencia en una sola solicitud. Las referencias se procesan automáticamente en alta fidelidad sin necesidad de ajustar configuraciones separadas. Esto ayuda a mantener la consistencia de personajes, los detalles del producto y el estilo visual en todas las salidas generadas.
GPT Image 2 soporta resolución de salida de hasta 2048x2048 (2K), con relaciones de aspecto continuas desde 3:1 (ultra panorámica) hasta 1:3 (ultra alta). A diferencia de modelos anteriores con ajustes predefinidos, puede especificar cualquier proporción dentro de este rango. También soporta exportaciones con fondo transparente para integración directa en flujos de trabajo.
GPT Image 2 utiliza precios basados en tokens. Con resolución estándar de 1024x1024, los costos oscilan entre aproximadamente $0.006 por imagen (baja calidad) y $0.211 por imagen (alta calidad). Los tokens de entrada cuestan $8 por millón y los tokens de salida $30 por millón. El ID del modelo es 'gpt-image-2' con un alias de actualización automática 'chatgpt-image-latest'.
Sí. Thinking Mode de GPT Image 2 puede calcular la codificación de código QR antes de renderizar, produciendo códigos QR funcionales que se escanean con cualquier cámara de teléfono. Puede estilizarlos con colores de marca, incrustar logotipos en el centro y colocarlos dentro de carteles completamente diseñados — colapsando tres pasos en un solo prompt.
Sí. Puede subir imágenes existentes y modificarlas mediante prompts de lenguaje natural en el mismo chat. Esto incluye transferencia de estilo, reemplazo de elementos, mejora de detalles, actualizaciones de diseño y combinación de múltiples imágenes. Tanto los flujos de trabajo de texto a imagen como de imagen a imagen son compatibles en un solo endpoint.
GPT Image 2 es ideal para equipos de marketing que crean anuncios publicitarios y gráficos para redes sociales, vendedores de comercio electrónico que producen catálogos de productos, diseñadores que trabajan en infografías y presentaciones, creadores de contenido que hacen miniaturas y carteles, artistas de manga que necesitan personajes consistentes con globos de diálogo legibles, y cualquier persona que necesite imágenes IA de calidad profesional con texto preciso.
“El renderizado de texto por sí solo justifica la actualización. Por fin puedo generar mockups de productos con etiquetas y precios precisos de una sola vez, sin tener que añadir texto después en Photoshop.”
“Usar 16 imágenes de referencia para fotografía de producto significa que cada artículo en nuestro catálogo tiene iluminación y estilo consistentes. Hemos reducido los costos de sesiones fotográficas en un 80 %.”
“El renderizado de texto por sí solo justifica la actualización. Por fin puedo generar mockups de productos con etiquetas y precios precisos de una sola vez, sin tener que añadir texto después en Photoshop.”
“Usar 16 imágenes de referencia para fotografía de producto significa que cada artículo en nuestro catálogo tiene iluminación y estilo consistentes. Hemos reducido los costos de sesiones fotográficas en un 80 %.”
“El renderizado de texto por sí solo justifica la actualización. Por fin puedo generar mockups de productos con etiquetas y precios precisos de una sola vez, sin tener que añadir texto después en Photoshop.”
“Usar 16 imágenes de referencia para fotografía de producto significa que cada artículo en nuestro catálogo tiene iluminación y estilo consistentes. Hemos reducido los costos de sesiones fotográficas en un 80 %.”
“El renderizado de texto por sí solo justifica la actualización. Por fin puedo generar mockups de productos con etiquetas y precios precisos de una sola vez, sin tener que añadir texto después en Photoshop.”
“Usar 16 imágenes de referencia para fotografía de producto significa que cada artículo en nuestro catálogo tiene iluminación y estilo consistentes. Hemos reducido los costos de sesiones fotográficas en un 80 %.”
Experimente GPT Image 2 — el generador de imágenes IA más avanzado de OpenAI, gratis
Arrastra y suelta imágenes de referencia o explorar archivos
Formatos compatibles: JPG, PNG, WEBP • MAX 10MB