
ARTDEPARTMENT

Mientras el sabido adjudicatario parece estar satisfecho con la gestación de texto e imagen en sus interacciones con sus chatbots favoritos, Google quiere apostarle a la voz como la interacción de preferencia en los modelos de IA generativa de próxima gestación. Es por ello que Google Cloud anunció la incorporación de Chirp 3 a su plataforma de inteligencia sintético, Vertex AI.
Chirp 3 es la más fresco lectura del maniquí de gestación de audio de Google. Esta plataforma combina tecnologías de registro de voz (speech-to-text) y gestación de voz en ingreso definición (HD text-to-speech), y ahora cuenta con ocho nuevas voces en 31 idiomas (es asegurar, 248 “hablantes”).
Equipado con “inflexiones emotivas” y “una entonación realista”, una representante de Google Cloud indicó que Chirp 3 es la utensilio perfecta para crear asistentes de voz, audiolibros y narración de podcasts, así como agentes de soporte y voz en off para contenidos de medios. Como parte de Vertex AI, Chirp 3 estará adecuado a partir de la próxima semana.
Al unir estas capacidades a Vertex AI, usuarios pueden incorporar funciones de voz avanzadas al progreso de sus aplicaciones; no obstante, Chirp 3 estará sujeto a ciertas restricciones por el momento, esto con el fin de evitar el uso inapropiado de la plataforma generadora de audio.
“Nuestra visión universal para la IA ha sido ofrecer una amplia serie de modelos; nos centraremos en Gemini, pero asimismo ofrecemos Imagen, Veo y Chirp, unido con [otros] modelos científicos”, dijo Thomas Kurian, director ejecutante de Google Cloud, en un evento en las oficinas de DeepMind en Londres.
A diferencia del más amable y obvio de usar Gemini, una utensilio valiosa para usuarios casuales que simplemente desean mejorar su productividad, Vertex AI es una plataforma más compleja porque se centra en la creación y trámite de aplicaciones de IA personalizadas, más conforme a las deposición de desarrolladores y científicos de datos.
This content can also be viewed on the site it originates from.
Aunque los comandos a almohadilla de texto siguen siendo la guisa habitual de interacción con los modelos de la IA generativa, las grandes empresas del Big Tech, así como diversas start-ups, llevan tiempo experimentando con las interfaces de voz en sus plataformas.
En octubre de 2024, Google anunció que su chatbot, Gemini Live, ya puede procesar consultas y respuestas en castellano a través de dispositivos Android. Ese mismo mes, Microsoft anunció que Copilot será capaz de conversar con los usuarios con varias voces similares a las humanas, gestionando las interrupciones y las pausas con nacionalidad.
En enero de este año, el modo de voz de ChatGPT fue presentado como un chatbot que no tiene dificultades para interpretar intenciones y entonaciones de las consultas, el registro de objetos y la resolución de problemas matemáticos, por otra parte de permitir conversaciones más fluidas y naturales.
En la carrera por ofrecer un servicio más innovador a los usuarios, uno de los enfoques consiste en acelerar la percepción universal de que estamos interactuando, no con una computadora o un autómata, sino con una persona, un amigo incluso, siempre dispuesto a ayudar; se alcahuetería de restarle lo “sintético” a la inteligencia sintético del asistente. Para muchas empresas, aventajar la barrera de voz parece ser el próximo paso metódico en la progresiva humanización de la máquina.
Compartir este artículo
Consultoria Personalizada
¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!