ARTDEPARTMENT

Solicitar una consulta

OpenAI está revolucionando la transcripción de audio a texto con Whisper mientras todos seguimos centrados en ChatGPT y DALL-E

Publicado el 
noviembre 23, 2024

Hace un año, los protagonistas del evento DevDay de OpenAI fueron el tirada de GPT-4 Turbo y de los GPTs personalizados (y su correspondiente 'store'). Estas fueron las novedades que acapararon el interés mediático y la atención del beneficiario… pero había un 'tapado', una nueva IA que, con el tiempo, ha demostrado que merecía mucha más atención que la recibida en su momento.

Os hablamos de la IA de trascripción de audio a texto Whisper V3, una IA open source (al contrario que ChatGPT o DALL·E), por lo que está acondicionado para su uso online tirado a través de plataformas como Hugging Face o Replicate, y de varios clientes de escritorio (como el tirado Buzz o el cliente de suscripción WhisperScript).

Un ayer y un posteriormente

Hasta hace no mucho, la transcripción de audio a texto siempre había sido un desafío para la mayoría de los usuarios, pues las herramientas gratuitas a las que podían disponer acostumbraban a cometer numerosos errores. Whisper V2 fue la primera útil gratuita que convenció a muchos usuarios…

…pero con Whisper V3 ya tenemos la sensación de que es el equivalente en su campo a ChatGPT —excepto por la parte de ser 100% tirado—, una IA que los desarrolladores de software van a aparecer a breve a implementar en sus propias aplicaciones.

Por otra parte, su versatilidad lo hace ideal tanto para tareas simples de transcripción como para aplicaciones más complejas en el campo de la afluencia por voz.

Whisper1
Whisper1

¿Qué nos ofrece Whisper V3?

Whisper V3 ha sido entrenado con más de un millón de horas de audio etiquetado y más de 4 millones de horas de audio pseudoetiquetado. Si lo comparamos con su lectura inicial, Whisper V3 ha conseguido aminorar los errores entre un 10 y un 20%. En el caso del idioma gachupin, su tasa de error se encuentra por debajo del 5%, lo que lo convierte en uno de los idiomas mejor comprendidos por este maniquí.

Una de las características más destacadas de Whisper V3 es su capacidad multitarea: puede utilizarse para aceptar y traducir múltiples idiomas. Por otra parte, este maniquí es capaz de identificar automáticamente cuando se cambia de un idioma a otro en una misma conversación, lo que lo convierte en una útil enormemente versátil.

Por otra parte, OpenAI ha puesto a disposición de los usuarios modelos de Whisper V3 de distintos tamaños (y, por ello, de distintos niveles de rendimiento), desde una lectura minúscula con menos de 1 GB de VRAM hasta el maniquí large, entrenado con 1.550 millones de parámetros y con requisitos de unos 10 GB de VRAM. Esto permite que Whisper V3 se adapte a diferentes aplicaciones y micción, brindando flexibilidad a los usuarios.

Imagen | Marcos Merino mediante IA

En Genbeta | He probado LuzIA, una inteligencia fabricado que transcribe audios y da respuestas adentro de WhatsApp. Y todo rapidísimo

Source link

Compartir este artículo

Consultoria Personalizada

¡Si aun no tienes presencia en internet o 
necesitas ayuda con tus proyectos, por favor, escribenos!

Enviar Consulta Gratis

Más para leer

En ARTDEPARTMENT nos especializamos en brindar soluciones para que tu negocio, empresa o proyecto sea visible en internet.

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

cloud-syncearthbullhorn linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram