
ARTDEPARTMENT

El emanación de DeepSeek ya se ha convertido en un hito extraordinario en la transformación de los modelos de IA, uno que demuestra que la comunidad 'oepn source' es capaz de igualar (o, al menos, de acercarse mucho), el rendimiento de los modelos propietarios de OpenAI, Google y Anthropic.
Su crónica técnico (un PDF de 53 páginas) ofrece una gran cantidad de información detallada sobre cómo lo ha conseguido; más interesante aún: de cómo lo ha conseguido con medios informáticos limitados.
En el competitivo mundo de la IA, la eficiencia computacional es un aspecto secreto, sobre todo cuando estás sometido a limitaciones de hardware. DeepSeek ha conseguido optimizar el rendimiento del suyo sin infringir las restricciones de exportación de chips impuestas por los EE.UU. a China.
Su secreto radica en tener en cuenta que innovar en materia de software puede ser tan útil como hacerlo en el campo del hardware: DeepSeek ha recurrido a un código de bajo nivel mucho efectivo que maximiza la diligencia de la memoria y la comunicación entre los nodos (bloques de GPUs), logrando que estos procesen información y se comuniquen al mismo tiempo, sin crear 'atascos de datos'. Esta técnica se denomina 'Cross-Node All-to-All Communication'.

DeepSeek ha desarrollado una técnica innovadora para entrenar modelos de verbo de gran tamaño de forma más rápida y económica. En emplazamiento de procesar toda la información de un maniquí en cada paso del entrenamiento (lo que consume mucha energía y medios computacionales), DeepSeek se enfoca en las partes más importantes:
Así, DeepSeek ha escaso en un 95% el uso de GPUs necesario para el entrenamiento de sus modelos de verbo, y logra entrenarlos en mucho menos tiempo
DeepSeek igualmente ha desarrollado una nueva técnica para acortar drásticamente los costos de intervenir sus modelos, centrada en optimizar la memoria utilizada durante el proceso de inferencia, es sostener, cuando el maniquí genera texto o realiza predicciones.
DeepSeekMLA (Multi-head Latent Attention) es una tecnología que permite al maniquí no cargar en memoria toda la 'ventana de contexto' (cuanto longevo es, longevo cantidad de datos podemos pedirle a un chatbot que procese). Las ventanas de contexto ampliar son especialmente costosas: cada token requiere contar con un almacén de combinaciones secreto/valencia... un almacén que esta técnica permite hacer mucho más pequeño.
Ayuda a esto que DeepSeek logre acortar significativamente el tamaño de los datos que el maniquí necesita juntar en su memoria durante dicho proceso, todo gracias a una técnica matemática (FP8 Mixed Precision Training) que permite representar una gran cantidad de información en un espacio mucho más pequeño.
Lo logra usando números más pequeños (de 8 bits) para hacer la mayoría de los cálculos, pero pasando selectivamente a otros más grandes (de 16/32 bits) en los pasos donde se necesita más precisión. De esta forma, se ahorra memoria y tiempo de cálculo sin perder mucha exactitud.
Esta compresión de la cantidad de datos que necesita juntar, reduce el costo y tiempo necesarios para crear resultados. Adicionalmente, esta optimización no compromete la calidad de las predicciones y permite a DeepSeek intervenir modelos grandes en hardware más asequible.
Este nuevo maniquí de IA utiliza una técnica (preexistente) convocatoria aprendizaje por refuerzo, que reduce el costo y el tiempo de entrenamiento gracias a que no requiere de grandes cantidades de datos etiquetados para su entrenamiento, lo cual es un cuello de botella global en el incremento de IA.

¿Cómo funciona?
Esto se complementa con un mecanismo complementario, denominado 'Auxiliary-Loss-Free Load Balancing', que permite al maniquí organizar de forma cibernética y efectivo el trabajo de cada 'entendido', asegurándose de que todas contribuyan en su lucha medida, sin condición de procesos extras.
Adicionalmente, DeepSeek ha incorporado otro enfoque denominado 'destilación de modelos', que permite entrenar modelos pequeños para que imiten a otros más grandes, logrando resultados equivalentes con pequeño costo computacional.
El heredero de X @wordgrammer, entendido en IA, ha sido elocuente en una de sus últimas publicaciones a la hora de valorar qué hay exactamente detrás del éxito de DeepSeek:
"No creo que haya carencia mágico aquí. Efectivamente creo que han conseguido dos grandes innovaciones para acortar costos, lo que les permitió realizar más experimentos, lo que a su vez les permitió replicar más rápidamente el maniquí 'o1' de OpenAI".
Igualmente, cree que la forma en que se han planteado las sanciones estadounidenses ha sido un poco chapucera... pero no cree, ni por asomo, que eso signifique que Estados Unidos esté perdiendo la enfrentamiento de la IA contra China
"Las restricciones de exportación no los afectaron tanto como pensamos, probablemente [porque] eran positivamente malas: los H800 [no restringidos] sólo son peores que los H100 [restringidos] en lo que respecta al ufano de costado entre chips".
"[...] DeepSeek tuvo unos pocos grandes avances, nosotros hemos tenido cientos de pequeños avances. Si adoptamos la edificación de DeepSeek, nuestros modelos serán mejores. Porque tenemos más capacidad de cuenta y más datos".
Imagen | Marcos Merino mediante IA
En Genbeta | DeepSeek no tenía suficiente con hacer explotar Wall Street: acaba de editar una IA que analiza y genera imágenes
Compartir este artículo
Consultoria Personalizada
¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!