Blog

GPT-4o: El nuevo modelo de OpenAI trae grandes novedades

24 May 2024

Tabla de Contenidos

Los usuarios de la versión gratuita (y los de la versión de pago también) de ChatGPT están de enhorabuena. OpenAI ha introducido un nuevo modelo insignia, GPT-4o, junto con importantes modificaciones en su interfaz de usuario.

En su evento Spring Update, OpenAI presentó el último modelo GPT-4o, ahora disponible tanto en la versión gratuita como en la premium de ChatGPT. Esta actualización introduce un asistente de voz más natural y con mayor resonancia emocional, junto con capacidades de visión mejoradas.

Primer vistazo de GPT-4o

Este modelo avanzado ofrece razonamiento en tiempo real a través de texto, audio y entradas visuales, marcando un salto significativo hacia interacciones más naturales entre humanos y ordenadores. GPT-4o puede procesar cualquier combinación de entradas de texto, audio, imagen y vídeo, generando las salidas correspondientes sin problemas.

El tiempo de respuesta a las entradas de audio con GPT-4o rivaliza con el de las reacciones humanas, ofreciendo respuestas en sólo 232 milisegundos y con una media de unos 320 milisegundos. Aunque iguala la eficacia de GPT-4 Turbo en el manejo de texto y código en inglés, le supera notablemente en el procesamiento de idiomas distintos del inglés. Además, es significativamente más rápido y cuesta un 50% menos a través de la API.

GPT-4o también cuenta con funciones avanzadas de visión y comprensión de audio, superando a los modelos anteriores en estos ámbitos.

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN

Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) May 13, 2024

Características

Gratuito

GPT-4o rompe con la exclusividad del servicio Premium Plus de 20 dólares al mes al ofrecer acceso sin restricciones a todos los usuarios. La decisión de OpenAI garantiza que los avances de GPT-4o estén disponibles para un público más amplio. Además de las funciones y mejoras inherentes a GPT-4o, los usuarios pueden utilizar recursos adicionales sin coste alguno. Estos recursos incluyen chatbots personalizados y la entrada a la tienda ChatGPT, donde los usuarios pueden explorar varios modelos y herramientas creados por la comunidad.

Los usuarios gratuitos también pueden aprovechar herramientas avanzadas de análisis de datos, capacidades de reconocimiento de imágenes y Memory, una función que permite a ChatGPT retener interacciones pasadas.

Habla conversacional

Las demostraciones en directo de OpenAI mostraron los intercambios vocales interactivos de ChatGPT, destacando sus capacidades conversacionales en tiempo real. Los usuarios pueden intervenir, cambiar el tono y recibir respuestas personalizadas. Los presentadores emplearon ChatGPT en tareas como la narración de historias, demostrando su adaptabilidad a tonos naturales, dramáticos y robóticos, así como su versatilidad para cantar e intensificar narraciones.

Traducciones en directo

Las funciones mostradas del asistente de voz dejaron una impresión duradera, en particular la herramienta de traducción en directo, que realmente destacó.

A lo largo de las demostraciones, Mira Murati, directora de tecnología de OpenAI, se comunicó en italiano con el asistente de voz, mientras Mark Chen probaba su capacidad para traducir sin problemas entre inglés e italiano, con resultados prometedores.

Ver esta publicación en Instagram

Una publicación compartida de OpenAI (@openai)

Vídeos y capturas de pantalla

Además de las entradas de voz, ChatGPT ofrece ahora modos ampliados de participación, como compartir vídeos. Esto significa que puedes retransmitir en directo un problema matemático y pedir ayuda directamente. ChatGPT está ahí para ayudarte, tanto si buscas una solución como si necesitas orientación para resolverlo por ti mismo.

Además, los usuarios pueden intercambiar fácilmente capturas de pantalla, imágenes y documentos que contengan texto y elementos visuales. Además, ChatGPT facilita el acceso sin problemas a conversaciones anteriores y la recuperación de información en tiempo real dentro de las discusiones en curso, e incluso admite tareas avanzadas de análisis de datos.

Podemos cargar gráficos o código e integrarlos sin problemas en nuestras consultas para obtener información mejorada.

Ver esta publicación en Instagram

Una publicación compartida de OpenAI (@openai)

Medidas de seguridad

GPT-4o da prioridad a la seguridad en sus diversas modalidades mediante la aplicación de medidas como el filtrado de datos y el perfeccionamiento del comportamiento tras la formación. Se han desarrollado nuevos sistemas de seguridad para regular las salidas de voz, garantizando la seguridad del usuario. Las evaluaciones realizadas de acuerdo con el Marco de Preparación y los compromisos voluntarios indican que el GPT-4o no plantea un riesgo superior a Medio en ciberseguridad, CBRN, persuasión y autonomía del modelo.

Se ha llevado a cabo un amplio trabajo externo en el que han participado más de 70 expertos para identificar y abordar los riesgos asociados a las nuevas modalidades añadidas. Aunque las modalidades de audio plantean nuevos riesgos, se están tomando medidas para mejorar la infraestructura técnica, la facilidad de uso y las medidas de seguridad antes de su lanzamiento. A pesar de las mejoras en curso, existen limitaciones en todas las modalidades, que se están abordando mediante pruebas e iteraciones.

¿Qué podemos esperar?

Debemos estar atentos a los próximos anuncios, ya que el lanzamiento de ChatGPT-5 está previsto para este año y promete la próxima generación de integración de la IA.