ARTDEPARTMENT

Solicitar una consulta

los expertos explican cómo DeepSeek ha revolucionado partes de la IA que no se creían posibles

Publicado el 
enero 28, 2025

El emanación de DeepSeek ya se ha convertido en un hito extraordinario en la transformación de los modelos de IA, uno que demuestra que la comunidad 'oepn source' es capaz de igualar (o, al menos, de acercarse mucho), el rendimiento de los modelos propietarios de OpenAI, Google y Anthropic.

Su crónica técnico (un PDF de 53 páginas) ofrece una gran cantidad de información detallada sobre cómo lo ha conseguido; más interesante aún: de cómo lo ha conseguido con medios informáticos limitados.

Así esquiva las restricciones de exportación estadounidenses

En el competitivo mundo de la IA, la eficiencia computacional es un aspecto secreto, sobre todo cuando estás sometido a limitaciones de hardware. DeepSeek ha conseguido optimizar el rendimiento del suyo sin infringir las restricciones de exportación de chips impuestas por los EE.UU. a China.

Su secreto radica en tener en cuenta que innovar en materia de software puede ser tan útil como hacerlo en el campo del hardware: DeepSeek ha recurrido a un código de bajo nivel mucho efectivo que maximiza la diligencia de la memoria y la comunicación entre los nodos (bloques de GPUs), logrando que estos procesen información y se comuniquen al mismo tiempo, sin crear 'atascos de datos'. Esta técnica se denomina 'Cross-Node All-to-All Communication'.

NVIDIA ha triunfado este año gracias a sus chips para IA. Pero AMD es un serio rival que solo necesita una mejora en su software

Sólo se estudia 'los temas que van a salir'

DeepSeek ha desarrollado una técnica innovadora para entrenar modelos de verbo de gran tamaño de forma más rápida y económica. En emplazamiento de procesar toda la información de un maniquí en cada paso del entrenamiento (lo que consume mucha energía y medios computacionales), DeepSeek se enfoca en las partes más importantes:

  • Predicción inteligente: DeepSeek recurre a la técnica denominada 'Multi-token Prediction Training Objective' para "adivinar" qué parámetros de cada token son más relevantes en cada momento y así activar sólo estos últimos (lo que viene a ser como estudiar para un examen sólo los temas que probablemente salgan, en emplazamiento de todo el temario).
  • Distribución efectivo de la carga de trabajo: DeepSeek divide el trabajo de entrenamiento entre diferentes 'expertos' interiormente del mismo maniquí. A esto se le denomina 'Mixture of Experts', una técnica de la que ya hacen uso otros modelos de IA anteriores, como Mixtral.

Así, DeepSeek ha escaso en un 95% el uso de GPUs necesario para el entrenamiento de sus modelos de verbo, y logra entrenarlos en mucho menos tiempo

Una persona más comprimida para pensar más rebajado y mejor

DeepSeek igualmente ha desarrollado una nueva técnica para acortar drásticamente los costos de intervenir sus modelos, centrada en optimizar la memoria utilizada durante el proceso de inferencia, es sostener, cuando el maniquí genera texto o realiza predicciones.

DeepSeekMLA (Multi-head Latent Attention) es una tecnología que permite al maniquí no cargar en memoria toda la 'ventana de contexto' (cuanto longevo es, longevo cantidad de datos podemos pedirle a un chatbot que procese). Las ventanas de contexto ampliar son especialmente costosas: cada token requiere contar con un almacén de combinaciones secreto/valencia... un almacén que esta técnica permite hacer mucho más pequeño.

Ayuda a esto que DeepSeek logre acortar significativamente el tamaño de los datos que el maniquí necesita juntar en su memoria durante dicho proceso, todo gracias a una técnica matemática (FP8 Mixed Precision Training) que permite representar una gran cantidad de información en un espacio mucho más pequeño.

Lo logra usando números más pequeños (de 8 bits) para hacer la mayoría de los cálculos, pero pasando selectivamente a otros más grandes (de 16/32 bits) en los pasos donde se necesita más precisión. De esta forma, se ahorra memoria y tiempo de cálculo sin perder mucha exactitud.

Esta compresión de la cantidad de datos que necesita juntar, reduce el costo y tiempo necesarios para crear resultados. Adicionalmente, esta optimización no compromete la calidad de las predicciones y permite a DeepSeek intervenir modelos grandes en hardware más asequible.

El posterior ingrediente: estudios por refuerzo

Este nuevo maniquí de IA utiliza una técnica (preexistente) convocatoria aprendizaje por refuerzo, que reduce el costo y el tiempo de entrenamiento gracias a que no requiere de grandes cantidades de datos etiquetados para su entrenamiento, lo cual es un cuello de botella global en el incremento de IA.

DeepSeek ha cambiado en un día el modelo que teníamos de IA de 'cuanto más mejor': su primera víctima ha sido Nvidia

¿Cómo funciona?

  • Preguntas y respuestas: El maniquí se enfrenta a preguntas complejas y genera respuestas.
  • Autoevaluación: El maniquí evalúa sus propias respuestas en grupos, sin condición de una calificación humana.
  • Progreso continua: Basado en esta evaluación, el maniquí ajusta su forma de crear respuestas para mejorar en el futuro.

Esto se complementa con un mecanismo complementario, denominado 'Auxiliary-Loss-Free Load Balancing', que permite al maniquí organizar de forma cibernética y efectivo el trabajo de cada 'entendido', asegurándose de que todas contribuyan en su lucha medida, sin condición de procesos extras.

Adicionalmente, DeepSeek ha incorporado otro enfoque denominado 'destilación de modelos', que permite entrenar modelos pequeños para que imiten a otros más grandes, logrando resultados equivalentes con pequeño costo computacional.

¿Cómo valoramos todo esto?

El heredero de X @wordgrammer, entendido en IA, ha sido elocuente en una de sus últimas publicaciones a la hora de valorar qué hay exactamente detrás del éxito de DeepSeek:

"No creo que haya carencia mágico aquí. Efectivamente creo que han conseguido dos grandes innovaciones para acortar costos, lo que les permitió realizar más experimentos, lo que a su vez les permitió replicar más rápidamente el maniquí 'o1' de OpenAI".

Igualmente, cree que la forma en que se han planteado las sanciones estadounidenses ha sido un poco chapucera... pero no cree, ni por asomo, que eso signifique que Estados Unidos esté perdiendo la enfrentamiento de la IA contra China

"Las restricciones de exportación no los afectaron tanto como pensamos, probablemente [porque] eran positivamente malas: los H800 [no restringidos] sólo son peores que los H100 [restringidos] en lo que respecta al ufano de costado entre chips".

"[...] DeepSeek tuvo unos pocos grandes avances, nosotros hemos tenido cientos de pequeños avances. Si adoptamos la edificación de DeepSeek, nuestros modelos serán mejores. Porque tenemos más capacidad de cuenta y más datos".

Imagen | Marcos Merino mediante IA

En Genbeta | DeepSeek no tenía suficiente con hacer explotar Wall Street: acaba de editar una IA que analiza y genera imágenes

Source link

Compartir este artículo

[social_warfare]

Consultoria Personalizada

¡Si aun no tienes presencia en internet o 
necesitas ayuda con tus proyectos, por favor, escribenos!

Enviar Consulta Gratis

Más para leer

En ARTDEPARTMENT nos especializamos en brindar soluciones para que tu negocio, empresa o proyecto sea visible en internet.

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

cloud-syncearthbullhorn linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram