Conference PaperPDF Available

Abstract

La visita a musei o a luoghi di interesse di città d'ar-te può essere completamente reinventata attraverso modalità di fruizione moderne e dinamiche, basa-te su tecnologie di riconoscimento e localizzazione visuale, ricerca per immagini e visualizzazioni in realtà aumentata. Da anni il gruppo di ricerca AI-MIR porta avanti attività di ricerca su queste temati-che ricoprendo anche ruoli di responsabilità in pro-getti nazionali ed internazionali. Questo contributo riassume alcune delle attività di ricerca svolte e del-le tecnologie utilizzate, nonché la partecipazione a progetti che hanno utilizzato tecnologie di intelli-genza artificiale per la valorizzazione e la fruizione del patrimonio culturale. 1 Introduzione Il gruppo di ricerca Artificial Intelligence for Multimedia Information Retrieval (AIMIR) studia soluzioni di intelligen-za artificiale per l'analisi, ricerca e riconoscimento visuale in database di immagini di grandi dimensioni, tramite disposi-tivi mobili, sistemi informativi e motori di ricerca multime-diali. Negli ultimi anni, ha partecipato a numerosi progetti nazionali ed internazionali in ambito Beni Culturali, svilup-pando sistemi che consentono di riconoscere automaticamen-te, a partire da un'immagine, opere d'arte quali quadri, statue , edifici, iscrizioni antiche, effettuarne ricerche visuale su larga scala e visualizzazioni in realtà aumentata. Si consi-derino, ad esempio, il sistema http://art.isti.cnr.it/ capace di riconoscere e fornire informazioni su più di 100 mila quadri, o http://www.eagle-network.eu/image-search/ capace di rico-noscere visivamente iscrizioni antiche, in un database di più di un milione di immagini, anche da dispositivi mobili. Le tecniche sviluppate tengono in considerazione sia le problematiche di accuratezza che di scalabilità, garantendo lo sviluppo di sistemi con tempi di risposta fluidi e natura-li anche in situazioni e contesti dove la quantità di elementi da riconoscere, localizzare visivamente, e rendere aumentati è enorme, come all'interno di musei, o in zone di interesse di importanti città d'arte (piazze storiche, cattedrali, etc.). 2 Attività Scientifica L'attività scientifica portata avanti dal gruppo AIMIR sfrut-ta una sinergia di tecniche di analisi delle immagini, deep learning, strutture dati ed algoritmi di ricerca per similarità scalabili. I prototipi di ricerca sviluppati sono stati applica-ti con successo nell'ambito dei beni culturali, ad esempio, per riconoscere opere d'arte o edifici storici, per accedere ad informazioni in realtà aumentata, e per generare descri-zione automatiche di materiale digitale non adeguatamente annotato. Nell'ambito del riconoscimento visuale sono stati investi-gati sia approcci basati su aggregazioni (per es. BoW, VLAD, FV) di feature locali di immagini (quali SIFT ed ORB), sia feature estratte da reti neurali convoluzionali (CNN feature), che approcci ibridi (quale la combinazione di FV con CNN feature). Gli approcci ibridi basati sulla combinazione di aggregazioni di feature locali e CNN feature, per esempio, hanno mostrato una elevata efficacia nel riconoscimento di iscrizioni antiche [Amato et al., 2016b]. Approcci basati su "hand-crafted" feature e deep learning sono stati studiati ed utilizzati anche per la classifi-cazione automatica, il retrieval di immagini, la localizza-zione visuale ed applicazioni di realtà aumentata [Amato et al., 2015; Bolettieri et al., 2015; Amato et al., 2017b; Amato et al., 2017a]. Inoltre, per poter effettuare ricer-che visuali anche in datatabase di enormi dimensioni, sono state sviluppati innovativi algoritmi di ricerca per similari-tà approssimata [Amato et al., 2014; Amato et al., 2016a; Amato et al., 2018]. 3 Progetti in Ambito Beni Culturali Negli ultimi anni, il gruppo AIMIR ha partecipato a numerosi progetti nazionali ed internazionali su tematiche relative ai beni culturali e all'analisi del contenuto delle immagini per l'estrazione automatica di informazioni che ne permettano la descrizione automatica, il riconoscimento, la classificazione, la ricerca su larga scala, ed il loro accesso in realtà aumentata. Si citano a titolo d'esempio: VISECH-Visual Engines for Cultural Heritage, progetto regionale che ha lo scopo di avanzare lo stato dell'arte nel-l'ambito dell'analisi automatica delle immagini, sviluppando tecniche di riconoscimento e localizzazione visuale per effet-tuare realtà aumentata, mediante algoritmi altamente scala
Intelligenza Artificiale, Retrieval e Beni Culturali
Lucia Vadicamo, Giuseppe Amato, Paolo Bolettieri, Fabrizio Falchi,
Claudio Gennaro, Fausto Rabitti
Istituto di Scienza e Tecnologie dell’Informazione “A. Faedo” (ISTI), CNR, Pisa
nome.cognome@isti.cnr.it
Abstract
La visita a musei o a luoghi di interesse di città d’ar-
te può essere completamente reinventata attraverso
modalità di fruizione moderne e dinamiche, basa-
te su tecnologie di riconoscimento e localizzazione
visuale, ricerca per immagini e visualizzazioni in
realtà aumentata. Da anni il gruppo di ricerca AI-
MIR porta avanti attività di ricerca su queste temati-
che ricoprendo anche ruoli di responsabilità in pro-
getti nazionali ed internazionali. Questo contributo
riassume alcune delle attività di ricerca svolte e del-
le tecnologie utilizzate, nonché la partecipazione a
progetti che hanno utilizzato tecnologie di intelli-
genza artificiale per la valorizzazione e la fruizione
del patrimonio culturale.
1 Introduzione
Il gruppo di ricerca Artificial Intelligence for Multimedia In-
formation Retrieval (AIMIR) studia soluzioni di intelligen-
za artificiale per l’analisi, ricerca e riconoscimento visuale in
database di immagini di grandi dimensioni, tramite disposi-
tivi mobili, sistemi informativi e motori di ricerca multime-
diali. Negli ultimi anni, ha partecipato a numerosi progetti
nazionali ed internazionali in ambito Beni Culturali, svilup-
pando sistemi che consentono di riconoscere automaticamen-
te, a partire da un’immagine, opere d’arte quali quadri, sta-
tue, edifici, iscrizioni antiche, effettuarne ricerche visuale su
larga scala e visualizzazioni in realtà aumentata. Si consi-
derino, ad esempio, il sistema http://art.isti.cnr.it/ capace di
riconoscere e fornire informazioni su più di 100 mila quadri,
o http://www.eagle-network.eu/image-search/ capace di rico-
noscere visivamente iscrizioni antiche, in un database di più
di un milione di immagini, anche da dispositivi mobili.
Le tecniche sviluppate tengono in considerazione sia le
problematiche di accuratezza che di scalabilità, garantendo
lo sviluppo di sistemi con tempi di risposta fluidi e natura-
li anche in situazioni e contesti dove la quantità di elementi
da riconoscere, localizzare visivamente, e rendere aumentati
è enorme, come all’interno di musei, o in zone di interesse di
importanti città d’arte (piazze storiche, cattedrali, etc.).
2 Attività Scientifica
L’attività scientifica portata avanti dal gruppo AIMIR sfrut-
ta una sinergia di tecniche di analisi delle immagini, deep
learning, strutture dati ed algoritmi di ricerca per similarità
scalabili. I prototipi di ricerca sviluppati sono stati applica-
ti con successo nell’ambito dei beni culturali, ad esempio,
per riconoscere opere d’arte o edifici storici, per accedere
ad informazioni in realtà aumentata, e per generare descri-
zione automatiche di materiale digitale non adeguatamente
annotato.
Nell’ambito del riconoscimento visuale sono stati investi-
gati sia approcci basati su aggregazioni (per es. BoW, VLAD,
FV) di feature locali di immagini (quali SIFT ed ORB), sia
feature estratte da reti neurali convoluzionali (CNN feature),
che approcci ibridi (quale la combinazione di FV con CNN
feature). Gli approcci ibridi basati sulla combinazione di
aggregazioni di feature locali e CNN feature, per esempio,
hanno mostrato una elevata efficacia nel riconoscimento di
iscrizioni antiche [Amato et al., 2016b].
Approcci basati su "hand-crafted" feature e deep lear-
ning sono stati studiati ed utilizzati anche per la classifi-
cazione automatica, il retrieval di immagini, la localizza-
zione visuale ed applicazioni di realtà aumentata [Amato
et al., 2015; Bolettieri et al., 2015; Amato et al., 2017b;
Amato et al., 2017a]. Inoltre, per poter effettuare ricer-
che visuali anche in datatabase di enormi dimensioni, sono
state sviluppati innovativi algoritmi di ricerca per similari-
tà approssimata [Amato et al., 2014; Amato et al., 2016a;
Amato et al., 2018].
3 Progetti in Ambito Beni Culturali
Negli ultimi anni, il gruppo AIMIR ha partecipato a numerosi
progetti nazionali ed internazionali su tematiche relative ai
beni culturali e all’analisi del contenuto delle immagini per
l’estrazione automatica di informazioni che ne permettano la
descrizione automatica, il riconoscimento, la classificazione,
la ricerca su larga scala, ed il loro accesso in realtà aumentata.
Si citano a titolo d’esempio:
VISECH - Visual Engines for Cultural Heritage, progetto
regionale che ha lo scopo di avanzare lo stato dell’arte nel-
l’ambito dell’analisi automatica delle immagini, sviluppando
tecniche di riconoscimento e localizzazione visuale per effet-
tuare realtà aumentata, mediante algoritmi altamente scala-
bili che permettano l’esecuzione di queste operazioni su da-
taset di grandi dimensioni, anche direttamente sui dispositi-
vi smart, in tempo reale pervasivo e trasparente. Il proget-
to prevede anche lo sviluppo di tecniche per la generazione
automatica di descrizioni del contenuto delle immagini, la
classificazione del contenuto e la ricerca visuale.
CultMEDIA - progetto nazionale1, co-finanziato dal Mi-
nistero dell’Istruzione, dell’Università e della Ricerca, che ha
l’obiettivo di ottimizzare costi e complessità della produzione
di media culturali nel campo dello storytelling multi e cross-
mediale, attraverso la creazione di una dataset su larga scala
analizzato attraverso l’uso esteso di algoritmi di intelligenza
artificiale e apprendimento automatico.
EAGLE - Europeana network of Greek and Latin Epigra-
phy2, progetto europeo il cui obiettivo principale è stato quel-
lo di raccogliere e catalogare in un unico database milioni di
oggetti digitali (testi ed immagini) relativi ad una cospicua
percentuale del patrimonio epigrafico fin qui noto, rendendo-
lo accessibile sia attraverso Europeana, sia attraverso portale
web/applicazioni mobile del progetto. In EAGLE, i sistemi
di riconoscimento visuale e di ricerca per immagini sono stati
applicati, per la prima volta, per il riconoscimento automatico
di iscrizioni antiche, quali epigrafi in latino e greco, offren-
do un efficace ed immediato strumento per la fruizione del
materiale epigrafico raccolto nel progetto (Figura 1).
VISITO Tuscany - VIsual Support to Interactive TOurism
in Tuscany3, finanziato dalla Regione Toscana, ha investiga-
to e realizzato tecnologie per la realizzazione di un servizio
avanzato di guida interattiva e personalizzata per la visita al-
le città d’arte toscane. Il progetto ha previsto, tra l’altro, lo
sviluppo di sistemi per il riconoscimento di oggetti d’arte a
partire dalle foto degli utenti ed accesso a tali foto mediante
strumenti di visualizzazione 3D, così come servizi per visite
virtuali e social networking [Amato et al., 2012].
ASSETS - Advanced Search Services and Enhanced Tech-
nological Solutions for the European Digital Library, proget-
to europeo che aveva lo scopo di sviluppare sistemi di ricerca
avanzati per l’accesso al portale di EUROPEANA. In parti-
colare, il gruppo di ricerca ha sviluppato un motore di ricer-
ca visuale per recuperare dati relativi agli oggetti d’arte nel
portale, a partire dalle immagini.
Dicet In Moto - ORganization of Cultural HErita-
ge for Smart Tourism and Real-time Accessibility
(OR.C.HE.S.T.R.A.),progetto nazionale che ha svilup-
pato un insieme di soluzioni tecnologiche orientate alla
valorizzazione intelligente del patrimonio culturale, materia-
le e immateriale, della Regione Campania ad uso e fruizione
di turisti, visitatori e cittadini, nel rispetto dei principi di
sostenibilità ed eco-compatibilità. L’uso di tecniche di
riconoscimento visuale e tecnologie di realtà aumentata
sono state utilizzate per la realizzazione di applicazioni per
dispositivi mobili di supporto alla visita della città di Napoli,
o per illustrare specifiche opere e musei.
1http://aimagelab.ing.unimore.it/imagelab/project.asp?
idProgetto=68
2http://www.eagle-network.eu
3http://www.visitotuscany.it/
Figura 1: Esempio di utilizzo delle tecnologie di riconoscimento vi-
suale in ambito Beni Culturali: la EAGLE Flaghship Mobile Appli-
cation è uno strumento di immediato utilizzo per conoscere la storia
che si cela dietro un’iscrizione antica ed avere accesso a tutte quelle
informazioni che epigrafisti e studiosi del settore hanno raccolto nel
corso degli anni.
Riferimenti bibliografici
[Amato et al., 2012]G. Amato, F. Falchi, e F. Rabitti. Land-
mark recognition in VISITO Tuscany. In Multimedia for
Cultural Heritage, pages 1–13, Berlin, Heidelberg, 2012.
Springer Berlin Heidelberg.
[Amato et al., 2014]G. Amato, C. Gennaro, e P. Savino.
Mi-file: using inverted files for scalable approximate
similarity search. Multimedia Tools and Applications,
71(3):1333–1362, August 2014.
[Amato et al., 2015]G. Amato, F. Falchi, e C. Gennaro. Fast
image classification for monument recognition. Journal
on Computing and Cultural Heritage, 8(4):18:1–18:25,
August 2015.
[Amato et al., 2016a]G. Amato, F. Falchi, C. Gennaro, e
L. Vadicamo. Deep Permutations: Deep Convolutional
Neural Networks and Permutation-Based Indexing, pages
93–106. Springer International Publishing, 2016.
[Amato et al., 2016b]Giuseppe Amato, Fabrizio Falchi, e
Lucia Vadicamo. Visual recognition of ancient inscrip-
tions using Convolutional Neural Network and Fisher
Vector. Journal on Computing and Cultural Heritage,
9(4):21:1–21:24, December 2016.
[Amato et al., 2017a]G. Amato, F. A. Cardillo, e Fabrizio
Falchi. Technologies for Visual Localization and Aug-
mented Reality in Smart Cities, pages 419–434. Springer
International Publishing, Cham, 2017.
[Amato et al., 2017b]G. Amato, F. Falchi, e L. Vadicamo.
Aggregating binary local descriptors for image retrieval.
Multimedia Tools and Applications, pages 1–31, 2017.
[Amato et al., 2018]G. Amato, E. Chávez, R. Connor,
F. Falchi, C. Gennaro, e L. Vadicamo. Re-ranking
permutation-based candidate sets with the n-Simplex pro-
jection. In Similarity Search and Applications, pages 3–17,
Cham, 2018. Springer International Publishing.
[Bolettieri et al., 2015]P. Bolettieri, V. Casarosa, F. Falchi,
L. Vadicamo, P. Martineau, S. Orlandi, e R. Santuc-
ci. Searching the EAGLE Epigraphic Material Through
Image Recognition via a Mobile Device, pages 351–354.
Springer International Publishing, Cham, 2015.
Technical Report
Full-text available
The Artificial Intelligence for Multimedia Information Retrieval (AIMIR) research group is part of the NeMIS laboratory of the Information Science and Technologies Institute ``A. Faedo'' (ISTI) of the Italian National Research Council (CNR). The AIMIR group has a long experience in topics related to: Artificial Intelligence, Multimedia Information Retrieval, Computer Vision and Similarity search on a large scale. We aim at investigating the use of Artificial Intelligence and Deep Learning, for Multimedia Information Retrieval, addressing both effectiveness and efficiency. Multimedia information retrieval techniques should be able to provide users with pertinent results, fast, on huge amount of multimedia data. Application areas of our research results range from cultural heritage to smart tourism, from security to smart cities, from mobile visual search to augmented reality. This report summarize the 2019 activities of the research group.
Article
Full-text available
By bringing together the most prominent European institutions and archives in the field of Classical Latin and Greek epigraphy, the EAGLE project has collected the vast majority of the surviving Greco-Latin inscriptions into a single readily-searchable database. Text-based search engines are typically used to retrieve information about ancient inscriptions (or about other artifacts). These systems require that the users formulate a text query that contains information such as the place where the object was found or where it is currently located. Conversely, visual search systems can be used to provide information to users (like tourists and scholars) in a most intuitive and immediate way, just using an image as query. In this article, we provide a comparison of several approaches for visual recognizing ancient inscriptions. Our experiments, conducted on 17,155 photos related to 14,560 inscriptions, show that BoW and VLAD are outperformed by both Fisher Vector (FV) and Convolutional Neural Network (CNN) features. More interestingly, combining FV and CNN features into a single image representation allows achieving very high effectiveness by correctly recognizing the query inscription in more than 90% of the cases. Our results suggest that combinations of FV and CNN can be also exploited to effectively perform visual retrieval of other types of objects related to cultural heritage such as landmarks and monuments.
Article
Full-text available
Content-based image classification is a wide research field that addresses the landmark recognition problem. Among the many classification techniques proposed, the k-nearest neighbor (kNN) is one of the most simple and widely used methods. In this article, we use kNN classification and landmark recognition techniques to address the problem of monument recognition in images. We propose two novel approaches that exploit kNN classification technique in conjunction with local visual descriptors. The first approach is based on a relaxed definition of the local feature based image to image similarity and allows standard kNN classification to be efficiently executed with the support of access methods for similarity search. The second approach uses kNN classification to classify local features rather than images. An image is classified evaluating the consensus among the classification of its local features. In this case, access methods for similarity search can be used to make the classification approach efficient. The proposed strategies were extensively tested and compared against other state-of-the-art alternatives in a monument and cultural heritage landmark recognition setting. The results proved the superiority of our approaches. An additional relevant contribution of this work is the exhaustive comparison of various types of local features and image matching solutions for recognition of monuments and cultural heritage related landmarks.
Article
We propose a new efficient and accurate technique for generic approximate similarity searching, based on the use of inverted files. We represent each object of a dataset by the ordering of a number of reference objects according to their distance from the object itself. In order to compare two objects in the dataset, we compare the two corresponding orderings of the reference objects.We show that this representation enables us to use inverted files to obtain very efficiently a very small set of good candidates for the query result. The candidate set is then reordered using the original similarity function to obtain the approximate similarity search result. The proposed technique performs several orders of magnitude better than exact similarity searches, still guaranteeing high accuracy. To also demonstrate the scalability of the proposed approach, tests were executed with various dataset sizes, ranging from 200,000 to 100 million objects.
Re-ranking permutation-based candidate sets with the n-Simplex projection
  • Amato
Amato et al., 2017a] G. Amato, F. A. Cardillo, e Fabrizio Falchi. Technologies for Visual Localization and Augmented Reality in Smart Cities, pages 419-434. Springer International Publishing, Cham, 2017. [Amato et al., 2017b] G. Amato, F. Falchi, e L. Vadicamo. Aggregating binary local descriptors for image retrieval. Multimedia Tools and Applications, pages 1-31, 2017. [Amato et al., 2018] G. Amato, E. Chávez, R. Connor, F. Falchi, C. Gennaro, e L. Vadicamo. Re-ranking permutation-based candidate sets with the n-Simplex projection. In Similarity Search and Applications, pages 3-17, Cham, 2018. Springer International Publishing. [Bolettieri et al., 2015] P. Bolettieri, V. Casarosa, F. Falchi, L. Vadicamo, P. Martineau, S. Orlandi, e R. Santucci. Searching the EAGLE Epigraphic Material Through Image Recognition via a Mobile Device, pages 351-354. Springer International Publishing, Cham, 2015.