Inteligencia artificial

Software: logran reconocer emociones automáticamente

Miércoles 1 de octubre de 2008

El sistema desarrollado por investigadores de la UNL y el CONICET es capaz de identificar automáticamente siete estados emocionales diferentes. Se trata de una innovación que puede mejorar la interacción entras las personas y las máquinas.

Un grupo de científicos desarrolló un sistema de inteligencia artificial que roza con la inteligencia emocional. Cuando uno habla dice mucho más que palabras porque hay características de la forma de hablar que delatan nuestro enojo, miedo o alegría. El software diseñado por investigadores de la Universidad Nacional del Litoral (UNL) y el CONICET procesa la señal de la voz del hablante para identificar automáticamente la emoción que transmite esa alocución.
A diferencia de los modelos de reconocimiento del habla –como los que permiten el marcado por voz en los celulares- este sistema no trata de identificar qué se dice sino cómo se lo dice. Es decir, intenta descifrar la información implícita en la señal que refiere al estado emocional de la persona que habla.
Luego de experimentar con dos modelos estadísticos de procesamiento diferentes, los investigadores obtuvieron resultados satisfactorios logrando hasta un 76% de reconocimientos correctos al utilizar siete emociones y un 97% cuando usar sólo tres.
“Es un área de investigación que ha cobrado fuerte interés en los últimos años y aún no hay ningún desarrollo comercial disponible. Particularmente el reconocimiento de las emociones es de gran interés para mejorar la interacción hombre – máquina.”, explicó la estudiante de ingeniería Belén Crolla, una joven miembro del Grupo de investigación de Señales e Inteligencia Computacional de la Facultad de Ingeniería y Ciencias Hídricas (FICH) de la UNL y el CONICET.
El trabajo fue presentado en la 34º Conferencia Latinoamericana de Informática organizada por la UNL, la UTN – FRSF, el INTEC, el INGAR, el CLEI y la SADIO.

El trabajo
El proyecto emprendido por los investigadores consistió en estudiar la información implícita en las señales de voz. Para ello generaron un modelo de reconocimiento automático de las emociones clasificadas como primarias. Ellas son: alegría, ira, miedo, aburrimiento, tristeza y disgusto; además del estado neutral.
El modelo consiste en una primera etapa de procesamiento de la señal del habla y una segunda de clasificación que constituye el sistema inteligente propiamente dicho. Del total de datos que presenta la señal, el clasificador diseñado toma en cuenta 12 características para ser evaluadas. “El mayor desafío para este proyecto fue lograr que el sistema funcione con diferentes hablantes manteniendo un alto porcentaje de acierto”, contó Crolla.
Para testear el funcionamiento, los investigadores realizaron experimentos con un importante conjunto de frases registradas por la Universidad de Berlín. En total disponían de 535 alocuciones que incluían frases expresadas en las seis emociones primarias y la emoción natural.
“Trabajamos con este corpus de emociones porque son muy costosos y difíciles de conseguir. Éste en particular es muy completo, está grabado con gran calidad y, fundamentalmente, porque cuenta con diez voces de locutores diferentes, cinco femeninos y cinco masculinos. Además la naturalidad de las emociones fue testeada con un estudio de percepción con 20 personas”, detalló la estudiante.

A prueba
Para poder seleccionar el método estadístico más eficiente para el reconocimiento de las emociones, los investigadores diseñaron dos modelos diferentes. Se trata de sistemas inteligentes, es decir, que tienen un proceso de aprendizaje o entrenamiento que les permiten resolver situaciones nuevas a partir de las experiencias anteriores.
Gran parte de las grabaciones del corpus fueron procesadas y suministradas al sistema inteligente para el entrenamiento de los modelos. Luego, se usaron las grabaciones restantes para evaluar el grado de acierto y de confusión de cada sistema operando con tres y siete emociones. “El desafío era mantener la eficiencia a medida que crecía el número de emociones. Uno de los modelos demostró ser más adecuado porque mejora su desempeño y tiene una mayor tasa de aciertos en casos más complejos”, señaló Crolla.
“El cambio estructural del modelo respecto al de reconocimiento del habla es grande, pero a nivel del pre procesamiento de señales, las diferencias son mínimas”, comentó el Dr. Diego Milone, docente e investigador de la FICH que dirigió el trabajo, junto con el Ing. Marcelo Albornoz.
“Para el reconocimiento del habla en una frase puede haber hasta 300 estados, nosotros acá estamos trabajando en un modelo de hasta siete estados. Este modelo no usa un modelo de lenguaje ni un diccionario porque estamos modelando otra cosa muy diferente”, agregó.

Lo que viene
A fin de mejorar las características del reconocedor, los investigadores plantean modificaciones y nuevas experiencias para optimizar su eficiencia. “Vamos a incorporar características prosódicas para mejorar el reconocedor y poder obtener una mayor tasa de precisión. También se va a evaluar este mismo sistema en otros idiomas”, adelantó Crolla.
Dado que no se encuentra disponible un corpus de emociones en español, el equipo encontró una solución ingeniosa: trabajar con fragmentos de películas. “Vamos a armar un corpus con películas argentinas. Sacaremos fragmentos de distintas emociones para ver si logramos la misma tasa de reconocimiento. Si varía de acuerdo al idioma, vamos a adaptar el reconocedor para que pueda aplicarse al español”, explicó.


Agenda