
ARTDEPARTMENT

Puntual cuando OpenAI parecía acontecer poliedro un conmoción sobre la mesa en el sector de los chatbots, la industria de la IA china -que, recordemos, lleva tiempo intentando vencer la carrera a sus rivales estadounidenses- ha contestado lanzando DeepSeek-V3, un maniquí de jerga que no solo promete aventajar a gigantes como ChatGPT, sino que incluso ha sorprendido a la comunidad tecnológica por el bajo costo de su expansión y entrenamiento.
DeepSeek proviene de una fuente poco convencional: High-Flyer Haber Management, un fondo de inversiones que ha dominado el sector financiero chino desde su creación en 2015. Con activos gestionados de aproximadamente 8.000 millones de dólares, High-Flyer viene utilizando IA y algoritmos para identificar patrones que afectan los precios de las acciones.
Esta experiencia ha sido la almohadilla para desarrollar ahora un maniquí de IA que ha captado la atención de los expertos: diversos tests ya posicionaban a DeepSeek-V2 entre los mejores modelos de jerga a nivel mundial. Investigadores de la Universidad de Waterloo (Canadá) lo clasificaron internamente de los diez mejores modelos, solo por detrás de GPT-4 de OpenAI, Claude de Anthropic y de su rival chino 01.AI.
La compañía ha invertido cerca de 25,42 millones de euros en su primer clúster de computación y está destinando aproximadamente 127,1 millones de euros para la construcción de un segundo clúster que ocupa un ámbito similar al tamaño de un campo de fútbol: conecta más de 10.000 procesadores Nvidia de última gestación, proporcionando la potencia computacional necesaria para entrenar modelos de gran envergadura.

A pesar de las restricciones impuestas por Washington en 2022 sobre la exportación de chips Nvidia a China, High-Flyer logró conseguir los chips A100 ayer de la prohibición, asegurándose así una delantera tecnológica crucial para el expansión de DeepSeek.
Ahora, DeepSeek ha audaz su maniquí V3 con 671.000 millones de parámetros, y basado en la técnica MoE ('mezcla de expertos diversos'), con lo que ha mejorado claramente su velocidad de procesamiento y capacidades con respecto a la interpretación V-2. A pesar de entrenar este maniquí con sólo 2.048 GPUs durante dos meses y un presupuesto de 6 millones de dólares, DeepSeek-V3 ha demostrado un rendimiento impresionante, acercándose a modelos desarrollados con posibles mucho mayores.
Junto a señalar que Andrej Karpathy, cofundador de Tesla, ha definido dicha cantidad como "un presupuesto de risa".

vía DeepSeek
Otra de las características más llamativas de DeepSeek es su costo eficaz, significativamente último que el de sus competidores: con un precio de aproximadamente 13 céntimos de euro por cada millón de tokens de salida (palabras generadas por consulta), DeepSeek ha desencadenado una desavenencia de precios entre los proveedores chinos de IA. En respuesta, gigantes tecnológicos como ByteDance, Alibaba y Baidu han escaso drásticamente sus precios, haciendo que los modelos de IA sean más accesibles para desarrolladores y empresas.
A pesar de sus éxitos, DeepSeek enfrenta varios desafíos. La táctica de precios bajos ha llevado a la empresa a actuar con márgenes reducidos, que plantean dudas sobre su sostenibilidad a abundante plazo. Adicionalmente, la continua proceso de las tecnologías de Nvidia mientras se mantienen las limitaciones en el acercamiento a hardware progresista podrían afectar la capacidad de DeepSeek para mantenerse a la vanguardia.
No obstante, High-Flyer ha notorio que sus ingenieros están decididos a ser los primeros en alcanzar la IA universal (AGI) y aventajar las capacidades cognitivas humanas.
Imagen | Marcos Merino mediante IA
En Genbeta | China tiene cientos de IAs que podemos probar gratuitamente desde España: cómo consentir a ellas y todo lo que necesitas
Compartir este artículo
Consultoria Personalizada
¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!