OpenAI cobra por cada minuto que transcribe su IA, así que alguien inventó el 'hack' definitivo para ahorrar al usarla

Publicado el

junio 26, 2025

Notice: La función wp_get_loading_optimization_attributes ha sido llamada de forma incorrecta. Una imagen no debería ser diferida y marcada como alta prioridad al mismo tiempo. Por favor, ve depuración en WordPress para más información. (Este mensaje fue añadido en la versión 6.3.0). in /home/artdepartment.com.ar/public_html/wp-includes/functions.php on line 6131

Notice: La función wp_get_loading_optimization_attributes ha sido llamada de forma incorrecta. Una imagen no debería ser diferida y marcada como alta prioridad al mismo tiempo. Por favor, ve depuración en WordPress para más información. (Este mensaje fue añadido en la versión 6.3.0). in /home/artdepartment.com.ar/public_html/wp-includes/functions.php on line 6131

La inteligencia fabricado ya forma parte de muchas tareas cotidianas, y una de las más bártulos es la transcripción de audios almacenados en nuestros dispositivos. Servicios como ChatGPT pueden convertir horas de voz en texto en cuestión de minutos. Sin secuestro, este proceso no es tirado: transcribir audios con IA tiene un coste asociado, que se cuenta en función de los llamados tokens. A más duración del audio, más tokens se consumen y más tiempo se requiere para obtener la transcripción.

Pero… ¿y si pudiéramos hacer los minutos "más cortos"? Esta fue la pregunta que se hizo el desarrollador George Mandis, quien ha compartido en su blog un truco sorprendentemente sencillo y eficaz para disminuir tanto el coste como el tiempo de las transcripciones con inteligencia fabricado, como la de OpenAI. Y lo más interesante es que lo descubrió por casualidad.

Un truco fundamental para transcribir audios con eficiencia

Mandis quería transcribir y resumir una charla del investigador de IA Andrej Karpathy. Normalmente utilizaba las transcripciones automáticas de YouTube, pero esta vez no estaban disponibles. Encima, al intentar usar GPT-4o, se topó con una cortapisa: solo podía subir audios de 25 minutos como mayor. Una opción clásica habría sido dividir el archivo en partes más pequeñas. Pero antaño de hacerlo, decidió probar poco diferente.

Usó FFmpeg, una herramienta de código abierto que permite procesar archivos de audio y vídeo mediante comandos, para acelerar el audio. Probó a duplicar e incluso triplicar la velocidad. El resultado fue mejor de lo esperado: la pérdida de calidad fue mínima, y la IA fue capaz de transcribir el contenido acelerado sin problemas. Así logró eludir la cortapisa de tiempo y, encima, gastó menos tokens.

Eso sí, Mandis advierte que a partir de una velocidad 4x la calidad se resiente demasiado, y la IA comienza a tener dificultades para comprender el contenido.

¿Por qué funciona este truco?

Los modelos de transcripción como Whisper —incluso utilizado por Mandis— están entrenados para distinguir patrones de voz, de forma similar a cómo lo hace el cerebro humano. Incluso si la voz no es perfectamente clara, estos modelos son capaces de "rellenar los huecos" y deducir lo que se dijo.

Cuando aceleramos el audio, reducimos su duración en minutos, y luego la cantidad de datos que la IA necesita procesar. Esto no solo acorta el tiempo necesario para la transcripción, sino que reduce el coste.

Este es mi truco para convertir de YouTube a MP3 sin instalar nada

Mandis compartió las cifras de su examen:

Audio a velocidad 1x (diferente): 0,24 dólares en tokens de entrada.
Audio a velocidad 2x: 0,07 dólares en tokens de entrada.
Audio a velocidad 3x: 0,04 dólares en tokens de entrada (un 33% de peculio).

Un peculio trascendente, especialmente para profesionales como periodistas, investigadores o estudiantes que trabajan asiduamente con grabaciones de voz.

Cómo puedes hacerlo tú mismo

Para replicar este truco, lo primero de todo es estar cómodo trabajando con líneas de comandos, que es lo que explica este desarrollador en su entrada. Para ello, se necesitan tres herramientas:

yt-dlp para descargar el audio de una plataforma como YouTube.
ffmpeg que actúa como una auténtica cortaplumas suiza para procesar audio y vídeo que se encarga, entre otras cosas, de acelerar el audio.

Una vez llegados hasta aquí, el comando que se debe introducir en ffmpeg para poder aumentar la velocidad es el próximo:

ffmpeg -i audio.mp3 -filter:a "atempo=3.0" audio_3x.mp3

Luego solo quedará cursar el audio a ChatGPT para iniciar la transcripción. Aunque lógicamente se pueden usar otras herramientas que puedan ser más accesibles para poder acelerar el audio, aunque siempre que estemos seguros que no se sacrifica mucho la calidad.

Imágenes | Kelly Sikkema Salah Darwish Solen Feyissa

En Genbeta | Así puedes descargar y convertir vídeos de YouTube a MP3 con VLC

Source link

Compartir este artículo

[social_warfare]

Consultoria Personalizada

¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!

Enviar Consulta Gratis

Más para leer

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

En ARTDEPARTMENT nos especializamos en brindar soluciones para que tu negocio, empresa o proyecto sea visible en internet.

OpenAI cobra por cada minuto que transcribe su IA, así que alguien inventó el 'hack' definitivo para ahorrar al usarla

Un truco fundamental para transcribir audios con eficiencia

¿Por qué funciona este truco?

Cómo puedes hacerlo tú mismo

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

Nuestras Redes

OpenAI cobra por cada minuto que transcribe su IA, así que alguien inventó el 'hack' definitivo para ahorrar al usarla

Un truco fundamental para transcribir audios con eficiencia

¿Por qué funciona este truco?

Cómo puedes hacerlo tú mismo

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

Por favor, complete este formulario, a la brevedad no estaremos contactando con usted.

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

Nuestras Redes