OpenAI sigue avanzando en el desarrollo de inteligencia artificial y presentó su modelo más reciente. Se trata de Chat GPT-4o, un chatbot que permite el procesamiento y la creación de texto, audios y videos.
Desde la compañía destacaron que “es un paso hacia una interacción persona-computadora mucho más natural”, ya que la inteligencia artificial puede ofrecer respuestas a entradas de audio en tan solo 232 milisegundos, “similar al tiempo de respuesta humano”.
“GPT-4o es especialmente mejor en cuanto a visión y comprensión de audio en comparación con los modelos existentes”, resaltaron, ya que cuenta con un rendimiento igual al de GPT-4 Turbo en texto en inglés y código, pero con una mejora significa en textos en otros idiomas y un 50% más económico en la API.
“Entrenamos un único modelo nuevo de extremo a extremo en texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal. Debido a que GPT-4o es nuestro primer modelo que combina todas estas modalidades, todavía estamos apenas rascando la superficie de la exploración de lo que el modelo puede hacer y sus limitaciones”, explicaron.
Con respecto a la seguridad del modelo, desde OpenAI señalaron que “tiene seguridad incorporada por diseño en todas las modalidades, a través de técnicas como filtrar datos de entrenamiento y refinar el comportamiento del modelo mediante el entrenamiento posterior”.
Además, mencionaron que las evaluaciones de la IA en ciberseguridad, QBRN, persuasión y autonomía del modelo muestran que “no obtiene una puntuación superior al riesgo medio en ninguna de estas categorías”. “Probamos las versiones del modelo antes y después de la mitigación de seguridad, utilizando ajustes e indicaciones personalizados, para obtener mejor las capacidades del modelo”, agregaron.
Por otro lado, dado que se busca una comunicación más “natural” con los humanos, fue sometido a un equipo conformado por más de 70 expertos externos en dominios como psicología social, prejuicios y equidad, e información errónea para identificar los riesgos que introducen o amplifican las modalidades recién agregadas.
“Reconocemos que las modalidades de audio de GPT-4o presentan una variedad de riesgos novedosos. Durante las próximas semanas y meses, trabajaremos en la infraestructura técnica, la usabilidad a través del entrenamiento posterior y la seguridad necesaria para lanzar las otras modalidades”, advirtieron.
Con respecto a cómo se podrá utilizar esta nueva inteligencia artificial, adelantaron que la misma estará disponible de forma gratuita y para usuarios Plus “con límites de mensajes hasta 5 veces mayores”.
Además, lanzarán una nueva versión del Modo de Voz con GPT-4o en alfa dentro de ChatGPT Plus en las próximas semanas. Esta herramienta puede conseguirse en la página oficial de OpenAI.