ARTDEPARTMENT

Solicitar una consulta

Amazon presenta Nova Sonic, un modelo de voz basado en IA

Publicado el 
abril 8, 2025

Amazon anunció Nova Sonic, un maniquí de inteligencia químico (IA) capaz de procesar y difundir voz de forma nativa con un sonido más natural. La propuesta promete pasar el rendimiento de productos similares de OpenAI y Google en pruebas de tiempo de respuesta, inspección de voz y calidad conversacional.

La compañía fundada por Jeff Bezos afirma que su nuevo cálculo “simplifica el ampliación de aplicaciones de voz, como la automatización de llamadas de atención al cliente y agentes conversacionales, en una amplia variedad de sectores como viajes, educación, sanidad, entretenimiento y más”.


El logotipo y las letras de la empresa global de venta por correo en línea Amazon se pueden ver bajo el cielo azul en la fachada de la sede de Amazon Alemania en Parkstadt Schwabing en Múnich.
El nuevo laboratorio de Amazon presenta su primer gran fruto: agentes de IA avanzados

Dirigido por un antiguo ejecutante de OpenAI, el laboratorio de inteligencia químico de Amazon se centra en las capacidades de toma de decisiones de la próxima reproducción de agentes de software, y toma prestados conocimientos de los robots físicos.


Los especialistas de Amazon explican que los métodos tradicionales para crear aplicaciones de voz requieren la integración de múltiples modelos independientes, especializados en tareas como inspección de voz, comprensión del idioma y conversión de texto a voz. Esta fragmentación, indican, complica el ampliación e impide conservar el contexto auditivo y los matices del acento necesarios para conseguir interacciones naturales.

En contraste, Nova Sonic destaca por su inmueble unificada, que integra transcripción, comprensión y reproducción vocal. Esto le permite adaptar sus respuestas tanto al contexto auditivo como a las características sonoras de las voces entrantes. Según Amazon, el maniquí “comprende los matices de la conversación humana, incluyendo pausas y vacilaciones naturales del hablante. Adicionalmente, retraso para intervenir en el momento oportuno y maneja eficazmente las interrupciones”.

X content

This content can also be viewed on the site it originates from.

El nuevo sistema asimismo transcribe la voz del favorecido a texto, facilitando a los desarrolladores la creación de agentes conversacionales más sofisticados, capaces de interactuar con otras herramientas y APIs.

Amazon desafía a OpenAI

Amazon asegura que la tasa de error de Nova Sonic es considerablemente pequeño en comparación con otras IA similares. En la evaluación Multilingual LibriSpeech, que mide el inspección de voz en distintos idiomas y dialectos, el maniquí alcanzó una tasa de error de palabras (WER, por sus siglas en inglés) de 4.2% en promedio en inglés, francés, italiano, tudesco y castellano. Esto equivale a que aproximadamente cuatro de cada 100 palabras generadas por el maniquí difieren respecto a una transcripción humana en dichos idiomas.

Asimismo, en el benchmark Augmented Multiparty Interaction, que analiza interacciones de detención cuerpo con múltiples interlocutores, la nueva IA fue un 46.7% más precisa en términos de WER que el maniquí de transcripción GPT-4o de OpenAI. Nova Sonic asimismo destaca por su velocidad, con una latencia percibida promedio de 1.09 segundos, lo que supera a GPT-4o, que argumenta en 1.18 segundos, según un disección comparativo de Fabricado Analysis.

La aparejo ya está acondicionado a través de Bedrock, la plataforma de Amazon para el ampliación de aplicaciones empresariales de IA, mediante una nueva API de streaming bidireccional. De acuerdo con la empresa, Nova Sonic se posiciona como el maniquí de voz más rentable del mercado, con un costo 80% pequeño frente a GPT-4o.

El impulso de Nova Sonic se enmarca en una ambiciosa táctica de Amazon para recuperar contorno en la carrera por liderar el mercado de la IA. En los últimos meses, la compañía ha intensificado sus esfuerzos por someter la brecha con otras big tech mediante mejoras a sus servicios. Un ejemplo nuevo es Alexa+, una traducción actualizada del asistente imaginario que incorpora IA destacamento para sostener conversaciones en idioma natural, realizar disección multimodales y demostrar comprensión contextual.

Source link

Compartir este artículo

Consultoria Personalizada

¡Si aun no tienes presencia en internet o 
necesitas ayuda con tus proyectos, por favor, escribenos!

Enviar Consulta Gratis

Más para leer

En ARTDEPARTMENT nos especializamos en brindar soluciones para que tu negocio, empresa o proyecto sea visible en internet.

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

cloud-syncearthbullhorn linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram