Un nuevo banco de datos podría enseñar a las computadoras a decirle a las personas invidentes lo que necesitan saber

Sus creadores plantean un desafío para los investigadores de visión artificial: utilizar la información para mejorar la tecnología asistencial.

por Emerging Technology from the arXiv

Una de las tareas más difíciles para las computadoras es “responder preguntas visuales”, es decir, responder una pregunta sobre una imagen. Y este no es un avance teórico: estas habilidades podrían ser cruciales para la tecnología que ayuda a las personas ciegas a tener una vida diaria.

Las personas invidentes pueden usar aplicaciones para tomar una foto, grabar una pregunta como “¿De qué color es esta camisa?” O “¿Cuándo vence esta leche?”, Y luego pedir voluntarios para que respondan. Pero las imágenes a menudo están mal definidas, mal enfocadas o carecen de la información necesaria para responder la pregunta. Después de todo, los fotógrafos no pueden ver.

Los sistemas de visión artificial podrían ayudar, por ejemplo, filtrando las imágenes inadecuadas y sugiriendo que el fotógrafo intente de nuevo. Pero las máquinas no pueden hacer esto todavía, en parte porque no existe un conjunto significativo de datos de imágenes del mundo real que puedan usarse para capacitarlos.

 Distribution of the first six words for all questions in VizWiz. The innermost ring represents the first word and each subsequent ring represents a subsequent word. The arc size is proportional to the number of questions with that initial word/phrase.
Distribution of the first six words for all questions in VizWiz. The innermost ring represents the first word and each subsequent ring represents a subsequent word. The arc size is proportional to the number of questions with that initial word/phrase.

 

Entra Danna Gurari en la Universidad de Texas en Austin y algunos colegas, que hoy publican una base de datos de 31,000 imágenes junto con preguntas y respuestas sobre ellas. Al mismo tiempo, Gurari y compañía crearon un desafío para la comunidad de la visión artificial: usar su conjunto de datos para entrenar máquinas como asistentes efectivos para este tipo de problemas de la vida real.

El conjunto de datos proviene de una aplicación existente llamada VizWiz, desarrollada por Jeff Bigham y sus colegas de la Universidad Carnegie Mellon en Pittsburgh para ayudar a las personas invidentes. Bigham también es miembro de este equipo de investigación.

Al usar la aplicación, una persona invidente puede tomar una fotografía, grabar una pregunta verbalmente y luego enviar ambas a un equipo de voluntarios que responden lo mejor que pueden.

Pero la aplicación tiene una serie de deficiencias. Los voluntarios no siempre están disponibles, por ejemplo, y las imágenes no siempre hacen posible una respuesta.

En su esfuerzo por encontrar una mejor manera, Gurari y compañía comenzaron analizando más de 70,000 fotos recopiladas por VizWiz de usuarios que habían aceptado compartirlas. El equipo eliminó todas las fotos que contenían información personal, como información de tarjetas de crédito, direcciones o desnudos. Eso dejó unas 31,000 imágenes y las grabaciones asociadas con ellas.

Luego, el equipo presentó las imágenes y las preguntas a los trabajadores del servicio de crowdsourcing Mechanical Turk de Amazon, pidiéndoles a cada trabajador que respondiera con una breve oración. El equipo reunió 10 respuestas para cada imagen para verificar la consistencia.

Estas 31,000 imágenes, preguntas y respuestas conforman la nueva base de datos de VizWiz, que Gurari y compañía están poniendo a disposición del público.

El equipo también ha llevado a cabo un análisis preliminar de los datos, que proporciona información única sobre los desafíos que enfrenta la visión artificial al proporcionar este tipo de ayuda.

Las preguntas son a veces simples, pero de ninguna manera siempre. Muchas preguntas se pueden resumir como “¿Qué es esto?” Sin embargo, solo el 2 por ciento solicita una respuesta de sí o no, y menos del 2 por ciento se puede responder con un número.

Y hay otras características inesperadas. Resulta que aunque la mayoría de las preguntas comienzan con la palabra “qué”, casi una cuarta parte comienza con una palabra mucho más inusual. Esto es casi seguramente el resultado del proceso de grabación recortando el comienzo de la pregunta.

Pero las respuestas a menudo son aún posibles. Haga preguntas como “Vender o utilizar por fecha de esta caja de cartón de leche” o “¿El horno está configurado para agradecer?”. Ambos son fáciles de responder si la imagen proporciona la información correcta.

El equipo también analizó las imágenes. Más de un cuarto no son aptos para obtener una respuesta, porque no son claros o no contienen la información relevante. Ser capaz de detectar estos de forma rápida y precisa sería un buen comienzo para un algoritmo de visión artificial.

Y ahí está el desafío para la comunidad de visión artificial. “Presentamos este conjunto de datos para alentar a una comunidad más grande a desarrollar algoritmos más generalizados que puedan ayudar a las personas invidentes”, dicen Gurari y compañía. “Mejorar los algoritmos en VizWiz puede simultáneamente educar a más personas sobre las necesidades tecnológicas de las personas invidentes, al tiempo que ofrece una oportunidad nueva y emocionante para que los investigadores desarrollen tecnologías de asistencia que eliminen las barreras de accesibilidad para las personas invidentes”.

Sin duda, un objetivo digno.

Ref: arxiv.org/abs/1802.08218 : Gran desafío de VizWiz: respuesta a preguntas visuales de personas invidentes.

Fuente: technologyreview.com