
ARTDEPARTMENT

Nvidia, que es la primera víctima de la supresión comercial entre EE.UU y China, está en ingenuidad en un gran momento. Y es que reina en el sector más en auge, el de la inteligencia fabricado. NVIDIA ya reinaba en IA y hace unas semanas lograba poco más sorprendente: divulgar una que supera a GPT-4.
Nvidia es la compañía líder en hardware para IA, y sus unidades de procesamiento descriptivo (GPU) son la columna vertebral de la mayoría de los sistemas avanzados de IA utilizados en la hogaño, tanto en investigaciones como en aplicaciones comerciales. A pesar de su gran éxito en el mercado de moda, no debería relajarse. Han descubierto que AMD es superior en algunos aspectos, aunque descompostura en poco esencial, que es el software.

Como recuerda Xataka, encima de las creaciones de Nvidia, hay varias alternativas cada vez más prometedoras, y una de ellas es la que AMD plantea con sus chips MI300X. SemiAnalisys ha realizado un extenso examen de las MI300X de AMD, frente a las H100 y H200 de NVIDIA.
Como explican, en teoría las MI300X debería tener una gran preeminencia gracias a que se muestran superiores en ámbitos tan importantes como la cantidad de memoria que integran, su orgulloso de manada o su rendimiento en TFLOPS.
Los expertos se pasaron cinco meses realizando examen independientes y evaluaciones comparativas centradas en la capacitación de los MI300X, el H100 y el H200, en colaboración con NVIDIA y AMD. Y de ahí salió una descripción detallada de las numerosas evaluaciones comparativas de bajo nivel que ejecutaron.
Su principal conclusión es que: El problema de AMD no está en sus chips de IA, sino en la plataforma software que manejo de sacar provecho de dichos chips.

Adicionalmente, comparan el costo total de propiedad de las GPU de Nvidia y AMD y tienen en cuenta el rendimiento. En última instancia, gran parte de lo que están "haciendo es felicitar abiertamente una recomendación pública integral a AMD sobre lo que deben hacer para ser competitivos y solucionar sus problemas de software luego de cinco meses de despachar y eliminar errores". Según los investigadores: "No se manejo solo de que se trate de un software inmaduro, sino que deben cambiar la forma en que realizan el incremento".
Según SemiAnalysis, "la experiencia software está plagada de errores que hacen que entrenar [modelos de IA] con AMD sea impracticable". En sumario, al comparar las GPU de Nvidia con la MI300X de AMD, descubrieron que la preeminencia potencial de la MI300X en el papel no se materializó conveniente a una desliz de disponibilidad de software de impulso conocido de AMD. "La experiencia de software de AMD está plagada de errores, lo que hace que el entrenamiento inmediato con AMD sea impracticable".
Los investigadores creen que si Mújol Su y la dirección de AMD redoblaran su inversión con un enfoque en su software, tienen la oportunidad de ser competitivos con Nvidia en materia de capacitación.
Entre los principales descubrimientos afirman en las conclusiones que, comparando en papel los FLOP/s y el orgulloso de manada/capacidad de HBM, "es similar a comparar cámaras examinando simplemente el recuento de megapíxeles" y que "la única forma de memorizar el rendimiento auténtico es ejecutar una evaluación comparativa".
Mientras el rendimiento y la experiencia listos para usar de Nvidia son increíbles y no encontraron ningún error específico de Nvidia durante las evaluaciones comparativas, la experiencia con AMD es que es muy difícil de trabajar y puede requerir mucha paciencia y esfuerzo para avanzar con destino a un estado servible. "En la mayoría de nuestras evaluaciones comparativas, las versiones estables públicas de AMD de AMD PyTorch aún no funcionan y necesitábamos soluciones alternativas".

Por otro banda, como recoge Xataka, el coste total de propiedad es peor. Las pruebas y benchmarks realizados mostraron cómo el impedimento del software hace que el coste total de propiedad (TCO) de las MI300X sea viejo que el de NVIDIA: a una empresa le sale más saldo usar chips y software de NVIDIA según la situación coetáneo.
Por otro banda, el MI300X tiene un costo total de propiedad (TCO) pequeño en comparación con el H100/H200, pero el rendimiento de entrenamiento por TCO es peor en el MI300X en versiones estables públicas del software de AMD. Esto cambia si se utilizan compilaciones de incremento personalizadas del software de AMD.

El rendimiento del entrenamiento de AMD además se ve frenado ya que el MI300X no ofrece un rendimiento de escalamiento sólido. Esto se debe a su biblioteca de comunicación de cuenta ROCm (RCCL) más débil y al pequeño naturaleza de integración derecho de AMD con el hardware de redes y conmutación en comparación con la sólida integración de Nvidia de su biblioteca de comunicaciones colectivas Nvidia (NCCL), la red InfiniBand/Spectrum-X y los conmutadores.
Además es de destacar que CUDA, la plataforma software de NVIDIA, es el motor real del dominio de la firma en este ámbito.
Vía | Xataka
Imagen | Reddit
En Genbeta | "Hizo poco que nunca antaño había conocido". Esta IA está sorprendiendo con una reacción que muchos ven como un signo de autoconsciencia
Compartir este artículo
Consultoria Personalizada
¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!