Información versus conocimiento: cuando una imagen contiene más de mil palabras
Publicado el 16/11/2016
Post de Josep Lladós, Centro de Visión por Computador – Departamento de Informática, Universidad Autónoma de Barcelona.
Internet está cambiando los hábitos de consumo de información y permite definir nuevos paradigmas en los que los ciudadanos pueden acceder a ella de manera ubicua, universal e inmediata. Sin embargo, el volumen de información que se genera, con la dificultad para ser procesada y conocer la reputación de la fuente, hace que el paso de información a conocimiento sea todo un reto y una necesidad.
Cada minuto se realizan 278.000 tuits, se generan 3.600 fotografías en Instagram, se cuelgan 72 horas de vídeo en Youtube, se envían 204 millones de correos electrónicos y se hacen 2 millones de búsquedas en Google. Para que esta información sea efectiva es necesario convertirla en conocimiento. Es decir, los receptores deben recibirla tratada y relacionada. Las técnicas de inteligencia artificial para extraer la semántica de la información son cada vez más necesarias.
Interpretando la información de las imágenes
El caso de la interpretación de la información contenida en imágenes es un ejemplo apasionante. La visión por computador se puede definir como la disciplina de la informática que hace programas de ordenador para que las máquinas vean. Ver es interpretar la información visual; por lo tanto, convertir los píxeles, como unidad elemental de información, en conocimiento. La visión por computador se ha convertido en los últimos años en una tecnología emergente y ubicua. En nuestra vida cotidiana usamos a menudo dispositivos con cámaras que contienen programas de visión (por ejemplo, las cámaras nocturnas para vigilar a los bebés, las incorporadas en consolas de videojuegos que detectan nuestros gestos y que hacen que los avatares del juego se muevan, las que leen matrículas en la entrada de aparcamientos y aquellas que detectan si una pelota ha entrado en un partido de tenis, etc.).La visión es una tecnología facilitadora en sectores como la automoción, los deportes, el entretenimiento, las telecomunicaciones, la robótica, la manufactura avanzada, la salud o la seguridad, donde aparecen constantemente nuevos productos y servicios. Se calcula que el mercado de la visión crecerá un 40% anualmente hasta el año 2020.
Análisis y reconocimiento de imágenes de documentos
Cuando las imágenes digitales corresponden a documentos fotografiados o escaneados nos referimos a la subárea denominada análisis y reconocimiento de imágenes de documentos que aborda el problema de reconocer de forma automática el contenido del documento, sea un texto impreso o escrito a mano, sean elementos gráficos. El origen se remonta a la década de 1960 cuando aparecieron los primeros sistemas de reconocimiento óptico de caracteres. Los archivos históricos y bibliotecas formados por millones de documentos, muchos de ellos manuscritos, contienen la memoria histórica de las sociedades. Desde hace años se han emprendido campañas de digitalización masiva para permitir, al menos, su publicación en los portales web de las instituciones que los custodian. Sin embargo, poner las imágenes al alcance sin un cierto grado de estructuración e indexación es altamente ineficiente. Hay que transcribir los contenidos y estructurarlos para que el público interesado pueda consumir el conocimiento que contienen.
Esto es lo que hacemos en el proyecto EINES, impulsado por el programa RecerCaixa de la Obra Social «la Caixa», donde nos hemos centrado en documentos que contienen información demográfica. Este proyecto ha reunido a un equipo multidisciplinar de investigadores del Centro de Visión por Computador, especializado en ingeniería informática, y del Centro de Estudios Demográficos, especializado en ciencias sociales, ambos en la Universidad Autónoma de Barcelona.
Fotografia del grupo de investigación del proyecto EINES
Proyecto EINES, transcripción de los contenidos gracias a la ciencia ciudadana
El objetivo de este proyecto es el vaciado de información a partir de las imágenes digitalizadas de padrones históricos de más de cien años y su análisis subsecuente. El vaciado debe ir más allá de la transcripción literal e identificar las entidades nominales (nombres, lugares, fechas, oficios, etc.). Las bases de datos resultantes, con información estructurada e indexada, son la fuente de conocimiento sobre el pasado. A partir de estas, los ciudadanos pueden reconstruir la evolución de comunidades, genealogías, trayectorias individuales de personas, etc. Podemos afirmar, por lo tanto, que una imagen contiene más de mil palabras. Interpretarlas permite, en este contexto, interpretar el pasado.
En este proyecto el proceso de extracción de contenidos de las imágenes se hace de dos maneras. Las tecnologías de visión por computador permiten leer los documentos de manera automática. Sin embargo, la tecnología no tiene todavía suficiente madurez para garantizar una transcripción totalmente automática y, por lo tanto, es necesaria la participación de otros agentes. Las redes digitales ofrecen la posibilidad de democratizar la generación de conocimiento mediante plataformas colaborativas. Así, en el proyecto, varios ciudadanos voluntarios participan en el proceso de vaciado. Esto no es un trabajo altruista, sino el fomento de la innovación social. En los nuevos modelos de innovación, emergen los ecosistemas en los que los retos se afrontan con la inclusión activa de la ciudadanía. En el escenario de la recuperación de la memoria a partir de fuentes documentales históricas, los ciudadanos, como archivos naturales, aportan conocimiento complementario de gran valor.
En conclusión, las nuevas tecnologías son instrumentos al servicio de los retos que genera el aumento exponencial de información en la red y su transformación en conocimiento. En el mundo de las imágenes, la interpretación de los contenidos es fundamental, y la visión por computador emerge como una tecnología facilitadora. Los nuevos modelos de innovación alrededor de la llamada ciencia ciudadana empoderan a los ciudadanos y los hacen sujetos de la generación de conocimiento. El ejemplo de las humanidades digitales y la interpretación de grandes volúmenes de imágenes de documentos de archivos en procesos de transcripción asistida por la tecnología son un ejemplo de ello.
Más información
Reportaje sobre el proyecto EINES en el programa ‘Som el que fem’ (TV3)