ARTDEPARTMENT
Amazon anunció Nova Sonic, un maniquí de inteligencia químico (IA) capaz de procesar y difundir voz de forma nativa con un sonido más natural. La propuesta promete pasar el rendimiento de productos similares de OpenAI y Google en pruebas de tiempo de respuesta, inspección de voz y calidad conversacional.
La compañía fundada por Jeff Bezos afirma que su nuevo cálculo “simplifica el ampliación de aplicaciones de voz, como la automatización de llamadas de atención al cliente y agentes conversacionales, en una amplia variedad de sectores como viajes, educación, sanidad, entretenimiento y más”.
Los especialistas de Amazon explican que los métodos tradicionales para crear aplicaciones de voz requieren la integración de múltiples modelos independientes, especializados en tareas como inspección de voz, comprensión del idioma y conversión de texto a voz. Esta fragmentación, indican, complica el ampliación e impide conservar el contexto auditivo y los matices del acento necesarios para conseguir interacciones naturales.
En contraste, Nova Sonic destaca por su inmueble unificada, que integra transcripción, comprensión y reproducción vocal. Esto le permite adaptar sus respuestas tanto al contexto auditivo como a las características sonoras de las voces entrantes. Según Amazon, el maniquí “comprende los matices de la conversación humana, incluyendo pausas y vacilaciones naturales del hablante. Adicionalmente, retraso para intervenir en el momento oportuno y maneja eficazmente las interrupciones”.
This content can also be viewed on the site it originates from.
El nuevo sistema asimismo transcribe la voz del favorecido a texto, facilitando a los desarrolladores la creación de agentes conversacionales más sofisticados, capaces de interactuar con otras herramientas y APIs.
Amazon asegura que la tasa de error de Nova Sonic es considerablemente pequeño en comparación con otras IA similares. En la evaluación Multilingual LibriSpeech, que mide el inspección de voz en distintos idiomas y dialectos, el maniquí alcanzó una tasa de error de palabras (WER, por sus siglas en inglés) de 4.2% en promedio en inglés, francés, italiano, tudesco y castellano. Esto equivale a que aproximadamente cuatro de cada 100 palabras generadas por el maniquí difieren respecto a una transcripción humana en dichos idiomas.
Asimismo, en el benchmark Augmented Multiparty Interaction, que analiza interacciones de detención cuerpo con múltiples interlocutores, la nueva IA fue un 46.7% más precisa en términos de WER que el maniquí de transcripción GPT-4o de OpenAI. Nova Sonic asimismo destaca por su velocidad, con una latencia percibida promedio de 1.09 segundos, lo que supera a GPT-4o, que argumenta en 1.18 segundos, según un disección comparativo de Fabricado Analysis.
La aparejo ya está acondicionado a través de Bedrock, la plataforma de Amazon para el ampliación de aplicaciones empresariales de IA, mediante una nueva API de streaming bidireccional. De acuerdo con la empresa, Nova Sonic se posiciona como el maniquí de voz más rentable del mercado, con un costo 80% pequeño frente a GPT-4o.
El impulso de Nova Sonic se enmarca en una ambiciosa táctica de Amazon para recuperar contorno en la carrera por liderar el mercado de la IA. En los últimos meses, la compañía ha intensificado sus esfuerzos por someter la brecha con otras big tech mediante mejoras a sus servicios. Un ejemplo nuevo es Alexa+, una traducción actualizada del asistente imaginario que incorpora IA destacamento para sostener conversaciones en idioma natural, realizar disección multimodales y demostrar comprensión contextual.
Compartir este artículo
Consultoria Personalizada
¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!