El sistema informático transcribe palabras que los usuarios “hablan en silencio”

Arnav Kapur, un investigador en el grupo de Interfaces de fluidos en el MIT Media Lab, demuestra el proyecto AlterEgo.
Arnav Kapur, un investigador en el grupo de Interfaces de fluidos en el MIT Media Lab, demuestra el proyecto AlterEgo. Imagen: Lorrie Lejeune / MIT

 

Larry Hardesty | Oficina de Noticias del MIT

Los electrodos en la cara y la mandíbula captan señales neuromusculares indetectables desencadenadas por verbalizaciones internas.

Los investigadores del MIT han desarrollado una interfaz de computadora que puede transcribir palabras que el usuario verbaliza internamente, pero que en realidad no hablan en voz alta.

El sistema consiste en un dispositivo portátil y un sistema informático asociado. Los electrodos en el dispositivo captan señales neuromusculares en la mandíbula y en la cara que se desencadenan mediante verbalizaciones internas, diciendo palabras “en tu cabeza”, pero son indetectables para el ojo humano. Las señales se alimentan a un sistema de aprendizaje automático que ha sido entrenado para correlacionar señales particulares con palabras particulares.

El dispositivo también incluye un par de auriculares de conducción ósea, que transmiten las vibraciones a través de los huesos de la cara hacia el oído interno. Debido a que no obstruyen el canal auditivo, los auriculares permiten que el sistema transmita información al usuario sin interrumpir la conversación ni interferir con la experiencia auditiva del usuario.

El dispositivo es, por lo tanto, parte de un completo sistema de computación silenciosa que permite al usuario plantear y recibir indetectablemente respuestas a problemas de computación difíciles. En uno de los experimentos de los investigadores, por ejemplo, los sujetos usaron el sistema para informar silenciosamente los movimientos de los oponentes en un juego de ajedrez y de forma silenciosa recibir respuestas recomendadas por la computadora.

“La motivación para esto fue construir un dispositivo IA, un dispositivo de aumento de inteligencia”, dice Arnav Kapur, un estudiante graduado en el MIT Media Lab, quien dirigió el desarrollo del nuevo sistema. “Nuestra idea era: ¿Podríamos tener una plataforma informática que sea más interna, que fusione humanos y máquinas de alguna manera y que se sienta como una extensión interna de nuestra propia cognición?”

“Básicamente no podemos vivir sin nuestros teléfonos celulares, nuestros dispositivos digitales”, dice Pattie Maes, profesora de artes y ciencias de los medios y asesora de tesis de Kapur. “Pero por el momento, el uso de esos dispositivos es muy perturbador. Si quiero buscar algo que sea relevante para una conversación que estoy teniendo, tengo que encontrar mi teléfono y escribir el código de acceso, abrir una aplicación y escribir una palabra clave de búsqueda, y todo requiere que cambie completamente la atención de mi entorno y las personas con las que estoy con el teléfono. Por lo tanto, mis alumnos y yo hemos estado experimentando durante mucho tiempo con nuevos factores de forma y nuevos tipos de experiencia que permiten a las personas aún beneficiarse de todos los maravillosos conocimientos y servicios que estos dispositivos nos brindan, pero hágalo de una manera que nos permita ellos permanecen en el presente “.

Los investigadores describen su dispositivo en un documento que presentaron en la conferencia ACM Intelligent User Interface de la Association for Computing Machinery. Kapur es el primer autor del artículo, Maes es el autor principal, y están acompañados por Shreyas Kapur, estudiante de pregrado en ingeniería eléctrica y ciencias de la computación.

Señales sutiles

La idea de que las verbalizaciones internas tienen correlatos físicos ha existido desde el siglo XIX, y se investigó seriamente en la década de 1950. Uno de los objetivos del movimiento de lectura rápida de la década de 1960 era eliminar la verbalización interna, o “subvocalización”, como se la conoce.

Pero la subvocalización como una interfaz de computadora es en gran parte inexplorada. El primer paso de los investigadores fue determinar qué ubicaciones en la cara son las fuentes de las señales neuromusculares más confiables. Así que llevaron a cabo experimentos en los que se les pidió a los mismos sujetos que subvocalizaran la misma serie de palabras cuatro veces, con un conjunto de 16 electrodos en diferentes localizaciones faciales cada vez.

Los investigadores escribieron el código para analizar los datos resultantes y encontraron que las señales de siete ubicaciones de electrodos particulares eran consistentemente capaces de distinguir las palabras subvocalizadas. En el documento de la conferencia, los investigadores informan un prototipo de una interfaz portátil de voz silenciosa, que se envuelve alrededor de la parte posterior del cuello como un auricular de teléfono y tiene apéndices curvos tipo tentáculo que tocan la cara en siete lugares a ambos lados de la boca y a lo largo de las mandíbulas.

Pero en los experimentos actuales, los investigadores obtienen resultados comparables usando solo cuatro electrodos a lo largo de una mandíbula, lo que debería conducir a un dispositivo portátil menos molesto.

Una vez que seleccionaron las ubicaciones de los electrodos, los investigadores comenzaron a recopilar datos sobre algunas tareas computacionales con vocabularios limitados, unas 20 palabras cada una. Una era la aritmética, en la cual el usuario subvocalizaba grandes problemas de suma o multiplicación; otra era la aplicación de ajedrez, en la cual el usuario informaría movimientos usando el sistema estándar de numeración de ajedrez.

Luego, para cada aplicación, usaron una red neuronal para encontrar correlaciones entre señales neuromusculares particulares y palabras particulares. Al igual que la mayoría de las redes neuronales, la que utilizaron los investigadores está dispuesta en capas de nodos de procesamiento simples, cada uno de los cuales está conectado a varios nodos en las capas superiores e inferiores. Los datos se introducen en la capa inferior, cuyos nodos la procesan y pasan a la siguiente capa, cuyos nodos la procesan y pasan a la siguiente capa, y así sucesivamente. El rendimiento de los rendimientos finales de la capa es el resultado de alguna tarea de clasificación.

La configuración básica del sistema de los investigadores incluye una red neuronal entrenada para identificar palabras subvocalizadas a partir de señales neuromusculares, pero puede personalizarse para un usuario particular a través de un proceso que reacondiciona solo las dos últimas capas.

Cuestiones prácticas

Utilizando la interfaz prototipo portátil, los investigadores realizaron un estudio de usabilidad en el que 10 sujetos pasaron unos 15 minutos cada uno personalizando la aplicación aritmética a su propia neurofisiología, y luego pasaron otros 90 minutos usándolo para ejecutar cálculos. En ese estudio, el sistema tenía una precisión de transcripción promedio de aproximadamente el 92 por ciento.

Pero, Kapur dice, el rendimiento del sistema debería mejorar con más datos de capacitación, que podrían recopilarse durante su uso ordinario. Aunque no ha cruzado los números, estima que el sistema mejor entrenado que usa para las demostraciones tiene una tasa de precisión más alta que la informada en el estudio de usabilidad.

En el trabajo en curso, los investigadores están recopilando una gran cantidad de datos en conversaciones más elaboradas, con la esperanza de crear aplicaciones con vocabularios mucho más expansivos. “Estamos en el medio de recopilar datos, y los resultados se ven bien”, dice Kapur. “Creo que lograremos una conversación completa algún día”.

“Creo que están rebajando un poco lo que creo que es un potencial real para el trabajo”, dice Thad Starner, profesor de la Facultad de informática de Georgia Tech. “Como, digamos, controlar los aviones en la pista del aeropuerto de Hartsfield aquí en Atlanta. Tienes ruido de avión a tu alrededor, estás usando estas grandes protecciones para los oídos: ¿no sería genial comunicarse con la voz en un entorno donde normalmente no podrías? Puede imaginar todas estas situaciones en las que tiene un entorno de alto ruido, como la cabina de vuelo de un portaaviones, o incluso lugares con mucha maquinaria, como una planta de energía o una imprenta. Este es un sistema que tendría sentido, especialmente porque a menudo en este tipo de situaciones las personas ya están usando equipo de protección. Por ejemplo, si eres un piloto de combate,

“La otra cosa donde esto es extremadamente útil es operaciones especiales”, agrega Starner. “Hay muchos lugares en los que no es un entorno ruidoso, sino un entorno silencioso. Mucho tiempo, las personas con operaciones especiales tienen gestos con las manos, pero no siempre se pueden ver. ¿No sería genial tener un discurso silencioso para la comunicación entre estas personas? El último es personas con discapacidades en las que no pueden vocalizar normalmente. Por ejemplo, Roger Ebert no tenía la capacidad de hablar más porque perdió la mandíbula debido al cáncer. ¿Podría hacer este tipo de discurso silencioso y luego tener un sintetizador que diga las palabras?

Fuente: news.mit.edu