OpenAI ha cedido otro paso en el campo de los modelos de jerigonza con el emanación de GPT-4.5, una lectura mejorada de su predecesor (GPT-4o), y el postrero que lanzará antaño de que GPT-5 fusione la ristra de los GPTs con los modelos razonadores (como o1 y o3).
Eso sí, no tengas prisa en probarlo si tienes presupuesto pequeño: los usuarios que quieran estar entre los primeros en probar la preview de GPT-4.5 deberán respaldar por la suscripción ChatGPT Pro, de 200 dólares mensuales.
¿Qué mejoras trae bajo el valedor GPT-4.5? Pues, por lo que ha revelado la compañía, no solo multiplica por 10 la eficiencia computacional de su predecesor, sino que amplía la capacidad de razonamiento, e incorpora avances en materia de seguridad y de reducción de sesgos y alucinaciones.
Innovaciones en el maniquí y su entrenamiento
GPT-4.5 representa un avance en dos áreas esencia:
- Enseñanza no supervisado escalado: OpenAI desafío cachas por este método de entrenamiento basado en grandes volúmenes de datos sin etiquetar, lo que permite una mejor comprensión de contexto y achicar las 'alucinaciones'.
- Progreso de la prisión de razonamiento: GPT-4.5 puede tocar problemas complejos en STEM (ciencia, tecnología, ingeniería y matemáticas) con maduro precisión.
Los primeros prospección indican que GPT-4.5 sobresale en múltiples áreas de aplicación, incluyendo:
- Escritura creativa y diseño: El maniquí ha demostrado una maduro capacidad estética e intuición creativa, ayudando a escritores, diseñadores y artistas a crear contenido de reincorporación calidad.
- Programación avanzadilla: Con una mejor capacidad para comprender y crear código, GPT-4.5 es una utensilio valiosa para desarrolladores, ofreciendo soluciones más precisas y minimizando errores.
Encima, OpenAI ha desarrollado nuevas técnicas de alineamiento escalable: entrenamiento que usa datos derivados de modelos más pequeños para optimizar su comportamiento... y hacerlo así más intuitivo y adaptado a la interacción humana.
Gracias a eso, los prospección muestran una maduro capacidad de asesoramiento y apoyo emocional: retener mejor cuándo ofrecer consejos, cuándo escuchar y cuándo simplemente proporcionar información relevante.
Su rendimiento, eso sí, está por debajo del de o1 y o3-mini
Avances frente a errores, sesgos y problemas de seguridad
Uno de los aspectos más críticos del emanación de GPT-4.5 es su seguridad y resistor a abusos. OpenAI anuncia mejoras en múltiples frentes:
- Contenido no permitido: El maniquí ha sido probado para respaldar que no genere información ilegal, incite al odio o proporcione asesoramiento no competente (médico o admitido). En comparación con GPT-4o, se han observado mejoras en la precisión de los rechazos, aunque sigue existiendo ganancia de prosperidad en ciertos escenarios de sobre-rechazo (cuando se niega a contestar incluso preguntas legítimas).
- Robustez delante intentos de "jailbreak": Los investigadores han probado estrategias de entretenimiento para forzar a GPT-4.5 a proporcionar respuestas que incumplan sus restricciones. Aunque el maniquí es más resistente que sus predecesores, sigue mostrando vulnerabilidades en ciertos casos específicos.
- Reducción de alucinaciones: GPT-4.5 ha demostrado una reducción en la engendramiento de información errónea, especialmente en lo que se refiere a preguntas sobre datos verificables.
- Evaluación de sesgos: Las pruebas de equidad han demostrado que GPT-4.5 mantiene un desempeño similar a GPT-4o en la neutralidad de sus respuestas. Sin requisa, el maniquí o1 sigue siendo el menos propenso a respuestas sesgadas.
Riesgos potenciales
OpenAI nos advierte todavía de que ha identificado ciertos riesgos de uso malvado de GPT-4.5, en las siguientes áreas:
- Persuasión e ingeniería social: Los tests han mostrado que GPT-4.5 es en extremo efectivo en tácticas de manipulación, como en los experimentos MakeMePay y MakeMeSay, donde logró persuadir a otro maniquí de IA a realizar acciones específicas en más del 50% de los casos.
- Ciberseguridad: Se realizaron pruebas con ejercicios de Capture The Flag (CTF) en diferentes niveles, y aunque el maniquí tuvo éxito en desafíos básicos, su capacidad para explotar vulnerabilidades reales sigue siendo limitada.
- Biotecnología y amenazas químicas: Se encontró que GPT-4.5 podría asistir a expertos en la planificación de experimentos biológicos.
En cualquier caso, para predisponer usos malintencionados del maniquí, OpenAI ha implementado diversas estrategias: filtrado innovador de datos, monitorización en tiempo existente, etc.
Imagen | OpenAI
En Genbeta | En Google ya sabían en 2023 que poco como DeepSeek era irremediable: "no tenemos superioridad competitiva... y OpenAI siquiera"