
ARTDEPARTMENT

La inteligencia fabricado ya forma parte de muchas tareas cotidianas, y una de las más bártulos es la transcripción de audios almacenados en nuestros dispositivos. Servicios como ChatGPT pueden convertir horas de voz en texto en cuestión de minutos. Sin secuestro, este proceso no es tirado: transcribir audios con IA tiene un coste asociado, que se cuenta en función de los llamados tokens. A más duración del audio, más tokens se consumen y más tiempo se requiere para obtener la transcripción.
Pero… ¿y si pudiéramos hacer los minutos "más cortos"? Esta fue la pregunta que se hizo el desarrollador George Mandis, quien ha compartido en su blog un truco sorprendentemente sencillo y eficaz para disminuir tanto el coste como el tiempo de las transcripciones con inteligencia fabricado, como la de OpenAI. Y lo más interesante es que lo descubrió por casualidad.
Mandis quería transcribir y resumir una charla del investigador de IA Andrej Karpathy. Normalmente utilizaba las transcripciones automáticas de YouTube, pero esta vez no estaban disponibles. Encima, al intentar usar GPT-4o, se topó con una cortapisa: solo podía subir audios de 25 minutos como mayor. Una opción clásica habría sido dividir el archivo en partes más pequeñas. Pero antaño de hacerlo, decidió probar poco diferente.


Usó FFmpeg, una herramienta de código abierto que permite procesar archivos de audio y vídeo mediante comandos, para acelerar el audio. Probó a duplicar e incluso triplicar la velocidad. El resultado fue mejor de lo esperado: la pérdida de calidad fue mínima, y la IA fue capaz de transcribir el contenido acelerado sin problemas. Así logró eludir la cortapisa de tiempo y, encima, gastó menos tokens.
Eso sí, Mandis advierte que a partir de una velocidad 4x la calidad se resiente demasiado, y la IA comienza a tener dificultades para comprender el contenido.
Los modelos de transcripción como Whisper —incluso utilizado por Mandis— están entrenados para distinguir patrones de voz, de forma similar a cómo lo hace el cerebro humano. Incluso si la voz no es perfectamente clara, estos modelos son capaces de "rellenar los huecos" y deducir lo que se dijo.
Cuando aceleramos el audio, reducimos su duración en minutos, y luego la cantidad de datos que la IA necesita procesar. Esto no solo acorta el tiempo necesario para la transcripción, sino que reduce el coste.

Mandis compartió las cifras de su examen:
Un peculio trascendente, especialmente para profesionales como periodistas, investigadores o estudiantes que trabajan asiduamente con grabaciones de voz.
Para replicar este truco, lo primero de todo es estar cómodo trabajando con líneas de comandos, que es lo que explica este desarrollador en su entrada. Para ello, se necesitan tres herramientas:
Una vez llegados hasta aquí, el comando que se debe introducir en ffmpeg para poder aumentar la velocidad es el próximo:
ffmpeg -i audio.mp3 -filter:a "atempo=3.0" audio_3x.mp3


Luego solo quedará cursar el audio a ChatGPT para iniciar la transcripción. Aunque lógicamente se pueden usar otras herramientas que puedan ser más accesibles para poder acelerar el audio, aunque siempre que estemos seguros que no se sacrifica mucho la calidad.
Imágenes | Kelly Sikkema Salah Darwish Solen Feyissa
En Genbeta | Así puedes descargar y convertir vídeos de YouTube a MP3 con VLC
Compartir este artículo
Consultoria Personalizada
¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!