Las empresas crean asistentes de voz personalizados, gracias a los servicios cognitivos de Microsoft Azure AI

Custom Neural Voice es un servicio con el que los desarrolladores pueden crear voces personalizadas para reforzar la estrategia de su marca e interactuar con sus clientes.
Para un uso responsable de la IA, Microsoft ofrece este servicio con acceso limitado y, así, proteger los derechos de las personas y la sociedad, fomentando la transparencia y contrarrestando la proliferación de contenidos engañosos.
De la mano de Microsoft y Warner Bros, Bugs Bunny ha sido el primer personaje animado al que la compañía de telecomunicaciones AT&T ha dado vida con Custom Neural Voice.

Editor en La Ecuación Digital. Consultor de Innovación y Estrategia…

Microsoft ha anunciado la disponibilidad de Custom Neural Voice, un servicio cognitivo de la plataforma de Azure AI -dentro del servicio de Speech- con el que los desarrolladores podrán crear voces personalizadas aprovechando el lenguaje natural y a través de innovadores modelos neuronales “Text-to-Speech” (TTS) de Microsoft.

De esta manera, Microsoft cubre la necesidad de que las empresas puedan comunicarse con sus clientes por medio de asistentes de voz de forma más efectiva, reforzando su estrategia de marca y aumentando la conexión emocional con sus audiencias. De la misma forma, la compañía lleva a cabo un gran avance dejando atrás las voces robóticas que se han estado utilizando hasta ahora y consiguiendo que sean totalmente naturales; todo ello gracias al 5G, la realidad aumentada, la inteligencia artificial y Microsoft Azure.

El proceso consiste en la grabación de miles de frases de la mano de actores de voz expertos en doblaje. A partir de ahí, las grabaciones se utilizan para crear una fuente de sonidos y fonemas, algo parecido a una fuente que contiene letras y caracteres que se combinan para formar palabras y frases. Aun así, la conversión neural de texto a voz va mucho más allá de juntar sonidos para formar palabras.

El verdadero avance tecnológico es el uso eficiente del aprendizaje profundo para procesar el texto y asegurarse de que la prosodia sea precisa y correcta. La prosodia es lo que se conoce como lo que debe ser el tono y la duración de cada fonema. Los combinamos de una manera fluida para que puedan reproducir la voz que suena como la de la persona original.Xuedong Huang, miembro técnico de Microsoft y director de tecnología de Azure AI Cognitive Services.

IA, un compromiso de responsabilidad

Microsoft ha realizado una investigación en la que ha consultado a profesionales del mundo del doblaje, locutores y expertos en ética para establecer una serie de directrices a la hora de usar esta tecnología. En este sentido, y como parte del guion que los clientes envían para crear las voces personalizadas, el profesional que pone su voz a disposición de la plataforma declara que entiende la tecnología y el uso que se va a hacer de su voz. Esa grabación se compara con las frases obtenidas del entrenamiento que se ha hecho anteriormente, utilizando la tecnología de verificación de diálogo, para asegurarse de que las voces coinciden antes de que el cliente pueda utilizarlas. Por su parte, Microsoft también exige que los clientes obtengan el consentimiento de los locutores.

Se trata de un servicio de acceso limitado con el objetivo de ayudar a proteger los derechos de las personas y la sociedad, fomentar la transparencia y contrarrestar la proliferación de contenidos engañosos. Esto significa que los clientes interesados deben solicitar y recibir la aprobación de Microsoft para utilizar la tecnología. Así, la compañía pone en práctica los principios de la IA responsable con funciones como Fairlearn, InterpretML y SmartNoise, ayudando a los clientes a crear modelos de aprendizaje automático que sean fáciles de entender, proteger y controlar.

Aunque muchos usos de Custom Neural Voice implican un personaje de ficción, a veces los clientes quieren que la voz sea de una persona real. Según explica Sarah Bird, responsable de IA de los Servicios Cognitivos dentro de Azure AI, la compañía exige a los clientes que dejen muy claro que se trata de una voz sintética o, cuando no sea obvio en el contexto, que lo revelen explícitamente de una manera que sea perceptible para los usuarios. Aun así, la compañía está trabajando también en una forma de incrustar una marca de agua digital en las mismas voces para indicar que el contenido se ha creado con su servicio.

Te puede interesar

Google lanza Gemini 2.5 Pro con mejoras en razonamiento y codificación

Azure AI da vida a personajes emblemáticos

Sin ir más lejos, la compañía de telecomunicaciones estadounidense AT&T ha dado vida a su primer personaje animado por medio de Custom Neural Voice: Bugs Bunny. En una de sus tiendas de Dallas (EE.UU.), los clientes pueden interactuar en tiempo real con el dibujo del célebre conejo a tamaño natural y en alta definición por todo el establecimiento.

Para crear la voz personalizada, un actor de doblaje aprobado por Warner Bros acudió al estudio para grabar 2.000 frases aproximadamente. El equipo trabajó con Microsoft para repetir la voz, asegurándose de que reflejara con precisión la personalidad de Bugs Bunny y todas sus inflexiones.

Etiquetas

azure azure ai custom neural voice inteligencia artificial microsoft microsoft azure