Informació versus coneixement: quan una imatge conté més de mil paraules

Dimecres 16

Informació versus coneixement: quan una imatge conté més de mil paraules

Publicat el 16/11/2016

Post de Josep Lladós, Centre de Visió per Computador – Departament d’Informàtica, Universitat Autònoma de Barcelona.

Internet està canviant els hàbits de consum d’informació i permet definir nous paradigmes en què els ciutadans hi poden accedir de manera ubiqua, universal i immediata. Tanmateix, el volum d’informació que es genera, amb la dificultat per ser processada i conèixer la reputació de la font, fa que el pas d’informació a coneixement sigui tot un repte i una necessitat.

Cada minut es fan 278.000 tuits, es generen 3.600 fotografies a Instagram, es pengen 72 hores de vídeo a Youtube, s’envien 204 milions de correus electrònics i es fan 2 milions de cerques a Google. Perquè aquesta informació sigui efectiva cal convertir-la en coneixement. És a dir, els receptors l’han de rebre tractada i relacionada. Les tècniques d’intel·ligència artificial per extreure la semàntica de la informació són cada vegada més necessàries.

Interpretant la informació de les imatges

El cas de la interpretació de la informació continguda en imatges és un exemple apassionant. La visió per computador es pot definir com la disciplina de la informàtica que fa programes d’ordinador perquè les màquines hi vegin. Veure-hi és interpretar la informació visual; per tant, convertir els píxels, com a unitat elemental d’informació, en coneixement. La visió per computador ha esdevingut en els últims anys una tecnologia emergent i ubiqua. En la nostra vida quotidiana usem sovint dispositius amb càmeres que contenen programes de visió (per exemple, les càmeres nocturnes per vigilar els nadons, les incorporades en consoles de videojocs que detecten el nostres gestos i que fan que els avatars del joc es moguin, les que llegeixen matrícules a l’entrada d’aparcaments i aquelles que detecten si una pilota ha entrat en un partit de tenis, etc.). La visió és una tecnologia facilitadora en sectors com l’automoció, els esports, l’entreteniment, les telecomunicacions, la robòtica, la manufactura avançada, la salut o la seguretat, on apareixen constantment nous productes i serveis. Es calcula que el mercat de la visió creixerà un 40% anualment fins a l’any 2020.

Anàlisi i reconeixement d’imatges de documents

Quan les imatges digitals corresponen a documents fotografiats o escanejats ens referim a la subàrea denominada anàlisi i reconeixement d’imatges de documents que aborda el problema de reconèixer de manera automàtica el contingut del document, sigui un text imprès o un d’escrit a mà, siguin elements gràfics. L’origen es remunta a la dècada de 1960 quan van aparèixer els primers sistemes de reconeixement òptic de caràcters. Els arxius històrics i les biblioteques formats per milions de documents, molts d’ells manuscrits, contenen la memòria històrica de les societats. Des de fa anys s’han endegat campanyes de digitalització massiva per permetre’n, almenys, la publicació en els portals web de les institucions que els custodien. Tanmateix, posar les imatges a l’abast sense un cert grau d’estructuració i indexació és altament ineficient. Cal transcriure els continguts i estructurar-los perquè el públic interessat pugui consumir el coneixement que contenen.

Això és el que fem al projecte EINES, impulsat pel Programa RecerCaixa de l’Obra Social “la Caixa”, on ens hem centrat en documents que contenen informació demogràfica. Aquest projecte ha aplegat un equip multidisciplinari d’investigadors del Centre de Visió per Computador, especialitzat en enginyeria informàtica, i del Centre d’Estudis Demogràfics, especialitzat en ciències socials, ambdós a la Universitat Autònoma de Barcelona.

Fotografia del grup de recerca del projecte EINES

Projecte EINES, transcripció dels continguts gràcies a la ciència ciutadana

L’objectiu d’aquest projecte és el buidat d’informació a partir de les imatges digitalitzades de padrons històrics de més de cent anys i l’anàlisi subseqüent. El buidat ha d’anar més enllà de la transcripció literal i identificar les entitats nominals (noms, llocs, dates, oficis, etc.). Les bases de dades resultants, amb informació estructurada i indexada, són la font de coneixement sobre el passat. A partir d’aquestes, els ciutadans poden reconstruir l’evolució de comunitats, genealogies, trajectòries individuals de persones, etc. Podem afirmar, per tant, que una imatge conté més de mil paraules. Interpretar-les permet, en aquest context, interpretar el passat.

En aquest projecte el procés d’extracció de continguts de les imatges es fa de dues maneres. Les tecnologies de visió per computador permeten llegir els documents de manera automàtica. Tanmateix, la tecnologia no té encara prou maduresa per garantir una transcripció totalment automàtica i, per tant, cal la participació d’altres agents. Les xarxes digitals ofereixen la possibilitat de democratitzar la generació de coneixement mitjançant plataformes col·laboratives. Així, al projecte, diversos ciutadans voluntaris participen en el procés de buidat. Això no és un treball altruista, sinó el foment de la innovació social. En els nous models d’innovació, emergeixen els ecosistemes en els quals els reptes s’afronten amb la inclusió activa de la ciutadania. En l’escenari de la recuperació de la memòria a partir de fonts documentals històriques, els ciutadans, en tant que arxius naturals, aporten coneixement complementari de gran vàlua.

En conclusió, les noves tecnologies són instruments al servei dels reptes que genera l’augment exponencial d’informació a la xarxa i la seva transformació a coneixement. En el món de les imatges, la interpretació dels continguts és fonamental, i la visió per computador emergeix com una tecnologia facilitadora. Els nous models d’innovació a l’entorn de l’anomenada ciència ciutadana apoderen els ciutadans i els fan subjectes de la generació de coneixement. L’exemple de les humanitats digitals i la interpretació de grans volums d’imatges de documents d’arxius en processos de transcripció assistida per la tecnologia en són un exemple.

Més informació

Programa RecerCaixa

Reportatge sobre el projecte al programa ‘Som el que fem’ (TV3)

Informació versus coneixement: quan una imatge conté més de mil paraules

Publicat el 16/11/2016

Search

Arxiu

Informació versus coneixement: quan una imatge conté més de mil paraules

Publicat el 16/11/2016

Search

Etiquetes

Arxiu