Google detalla el trabajo de inteligencia artificial detrás del reconocimiento de voz más inclusivo del Proyecto Euphonia

Como parte de los nuevos esfuerzos hacia la accesibilidad, Google anunció el Proyecto Euphonia en I / O en mayo: un intento de hacer que el reconocimiento de voz sea capaz de comprender a las personas con voces o impedimentos para hablar no estándar. La compañía acaba de publicar una publicación y su artículo que explica parte del trabajo de inteligencia artificial que habilita la nueva capacidad.

El problema es simple de observar: las voces que hablan las personas con discapacidades motoras, como las producidas por enfermedades degenerativas como la esclerosis lateral amiotrófica (ELA), simplemente no son comprendidas por los sistemas de procesamiento del lenguaje natural existentes.

Puede verlo en acción en el siguiente video del científico investigador de Google Dimitri Kanevsky, quien él mismo tiene problemas del habla, intentando interactuar con uno de los productos de la compañía (y finalmente haciéndolo con la ayuda del trabajo relacionado Parrotron):

El equipo de investigación lo describe de la siguiente manera:

ASR [automatic speech recognition] Los sistemas se entrenan con mayor frecuencia a partir del habla “típica”, lo que significa que los grupos subrepresentados, como aquellos con impedimentos del habla o acentos fuertes, no experimentan el mismo grado de utilidad.

… Los modelos actuales de ASR de vanguardia pueden producir altas tasas de error de palabras (WER) para hablantes con solo una discapacidad moderada del habla debido a ALS, lo que impide de manera efectiva el acceso a tecnologías que dependen de ASR.

Es notable que, al menos en parte, culpen al conjunto de entrenamiento. Ese es uno de esos sesgos implícitos que encontramos en los modelos de IA que pueden conducir a altas tasas de error en otros lugares, como el reconocimiento facial o incluso darse cuenta de que una persona está presente. Si bien no incluir a los grupos principales, como las personas de piel oscura, no es un error comparable en escala con la creación de un sistema que no incluya a las personas con habla afectada, ambos pueden abordarse con datos de origen más inclusivos.

Para los investigadores de Google, eso significó recopilar docenas de horas de audio hablado de personas con ELA. Como era de esperar, cada persona se ve afectada de manera diferente por su condición, por lo que adaptarse a los efectos de la enfermedad no es el mismo proceso que adaptarse, por ejemplo, a un acento poco común.

La transcripción en vivo y los subtítulos en Android son una bendición para las personas con discapacidad auditiva

Se usó un modelo estándar de reconocimiento de voz como línea de base, luego se ajustó de algunas formas experimentales, entrenándolo en el nuevo audio. Esto por sí solo redujo drásticamente las tasas de error de palabras, y lo hizo con relativamente pocos cambios en el modelo original, lo que significa que hay menos necesidad de cálculos pesados ​​cuando se ajusta a una nueva voz.

Los investigadores encontraron que el modelo, cuando todavía está confundido por un fonema dado (que es un sonido de voz individual como una “e” o una “f”), tiene dos tipos de errores. Primero, está el hecho de que no reconoce el fonema para lo que se pretendía y, por lo tanto, no reconoce la palabra. Y segundo, el modelo tiene que adivinar qué fonema el hablante hizo intente, y podría elegir la incorrecta en los casos en que dos o más palabras suenen más o menos similares.

El segundo error en particular es uno que se puede manejar de manera inteligente. Tal vez diga: “Voy a volver a entrar a la casa” y el sistema no reconoce la “b” en la parte de atrás y la “h” en la casa; no es igualmente probable que tuvieras la intención de decir “Voy a virar dentro del mouse”. El sistema de inteligencia artificial puede usar lo que sabe del lenguaje humano y de su propia voz o el contexto en el que está hablando para llenar los vacíos de manera inteligente.

Pero eso queda para futuras investigaciones. Por ahora, puede leer el trabajo del equipo hasta ahora en el documento “Personalización de ASR para disartrosis y habla acentuada con datos limitados”, que se presentará en la conferencia Interspeech en Austria el próximo mes.