Xiaomi, compañía líder de tecnología a nivel global, ha presentado su última aplicación de algoritmos avanzados y tecnología de voz de desarrollo propio para aplicarla al campo de la accesibilidad. La tecnología Text-To-Speech, desarrollada por Xiaomi AI Lab, permite generar una voz única y personalizada para usuarios con trastornos del habla.
Gracias a estos avances, los usuarios pueden comunicarse utilizando «su propia voz», en lugar de la típica y monótona voz electrónica. El proyecto de pre investigación «Own My Voice«, dirigido por el Comité Técnico de Xiaomi, este exitoso avance demuestra el compromiso de Xiaomi con «Tech for Good» y con la consecución de su misión de «ofrecer la posibilidad de que todos disfruten de una vida mejor a través de la innovación tecnológica».
¿Por qué ha lanzado Xiaomi este proyecto?
Xiaomi se preocupa por las personas y se esfuerza por satisfacer sus diferentes necesidades mediante la innovación tecnológica. La compañía comprendió el deseo de muchos usuarios con trastornos del habla de poseer sus “propias voces” y formó el equipo del proyecto «Own My Voice».
¿Cómo ha llevado a cabo Xiaomi este proyecto?
Para generar la voz más adecuada y personalizada para el destinatario, el equipo del proyecto reclutó a más de 200 voluntarios de Xiaomi para que “donaran sus voces”. Utilizaron el algoritmo de coincidencia de la huella vocal para comparar las características de las voces de los voluntarios con las de la voz del receptor. De este modo, encontraron la voz más adecuada como sonido básico de referencia para el destinatario. Teniendo en cuenta la personalización y la protección de la privacidad, la voz real elegida se manipuló con una compleja modificación acústica para formar un sonido de voz nuevo y original.
Después utilizaron la tecnología Text-To-Speech para entrenar el modelo de IA, haciendo que esta nueva voz adquiriera gradualmente un ritmo y una entonación naturales que pudieran expresar con veracidad la emoción y el tono de un ser humano.
El proyecto «Own My Voice» combina los algoritmos más avanzados con la tecnología de voz desarrollada por Xiaomi para garantizar la especificidad, seguridad y autenticidad de la voz sintetizada, creando una nueva idea de síntesis de voz personalizada para los usuarios con trastornos del habla.
¿Cuál es la importancia del proyecto?
La columna vertebral de este proyecto está formada por un grupo de expertos en tecnología del habla de Xiaomi AI Lab. Desde 2017, han publicado 37 artículos sobre el habla en las actas de las principales conferencias internacionales, como la Conferencia Internacional sobre Acústica, Habla y Procesamiento de Señales (ICASSP). El éxito de «Own My Voice» depende principalmente de la tecnología Text-To-Speech de estilo espontáneo desarrollada por ellos.
La tecnología Text-To-Speech de estilo espontáneo hace que la voz sintetizada se parezca a la de un humano real en su entonación, pausa, velocidad y otras características. Así se sustituye la sensación monótona y antinatural de la voz electrónica por otra más natural. Actualmente, esta tecnología se aplica a muchos dispositivos inteligentes equipados con Xiaoai, el asistente de voz de IA de Xiaomi. El proyecto «Own My Voice» demuestra que la tecnología de texto a voz de estilo espontáneo también puede adoptarse ampliamente en áreas de accesibilidad y mejorar la experiencia del usuario.
Zhu Xi añadió: «Si advertimos y atendemos las necesidades de los grupos minoritarios en una fase temprana, el proceso de difusión de la tecnología podría acortarse en gran medida. Esto permite que los beneficios de las nuevas tecnologías sean accesibles a los usuarios con necesidades especiales”.
En el futuro, Xiaomi seguirá recibiendo las opiniones de los destinatarios de la voz y estudiará la viabilidad de este proyecto en un ámbito más amplio. Xiaomi seguirá potenciando la accesibilidad a través de la tecnología de vanguardia, esforzándose por satisfacer las diversas necesidades de las personas a través de la innovación tecnológica.