celi_di tomaso presentazione futurodigitale_csipiemonte
DESCRIPTION
1 A PROVA DI FUTURO giornali,libri e archivi 3.0 Semantica: condividere significati tra archivi digitali Vittorio Di Tomaso CBDIG 2 Perché le biblioteche digitali non sono “sexy” come quelle analogiche? 3 Perché si può fare di più: ricerca 4 Perché si può fare di più: correlazioni 5 Perché si può fare di più: orizzonti 6 Perché si può fare di più: coinvolgimento 7 Quali sono gli obiettivi: valore d'uso, Integrazione, Esperienza utente 8 Su quali aspetti bisogna lavorare: Semantica, Ricerca federata, Ricerca intelligente 9 Che cosa vogliamo fare….Ricerche federate,Ricerche intelligenti,Navigazione dinamica 10 Accesso ai contenuti tramite search 11 Accesso ai contenuti tramite logiche di experience 12 Accesso ai contenuti tramite api 13 L’ecosistema cultura / Piemonte 14 Modello di riferimento 15 Il risultato… 16 Obiettivo 1: ricerca federata su repository differenti 17 Obiettivo 2: ricerche più intelligenti 18 Obiettivo 3: scoperta e navigazione di relazioni 19 Ontologia: come fare? Una scelta pragmatica 20 Guarini: progetto top down dell’ontologia 21 OBAC – Classi di base 22 OBAC – Alcune relazioni di esempio 23 La stampa: identificazione bottom-up di elementi semantici 24 La stampa: estrazione di entità nominate 25 La stampa: estrazione di entità nominate 26 La stampa: estrazione di entità nominate 27 Una sfida complessa….Estensione temporale, Digitalizzazione 28 Panna o Fanna? 29 I risultati dell’analisi: 4.8000.0000 Articoli analizzati 110.000 Nomi di persona riconosciuti freq > 10 10.000 Nomi di luoghi riconosciuti freq > 10 6.000 Nomi di organizzazioni riconosciuti freq > 10 80% di precisione del risultato 30 Siamo soltanto all’inizio… 31 La vision futura in 4 passi (2012 – 2013) 32 Sappiamo cosa fare….Le ontologie rappresentano oggi la tecnologia chiave per risolvere i problemi di integrazione e interoperabilità semantica di dati e conoscenze L'aspetto più critico riguarda la necessità di acquisire persone con la competenza e le motivazioni necessarie per fare da ponte tra ricerca e applicazioni 33 Ma in questo momento manca qualcosa…. 34 Vogliamo costruire cattedrali…. 35 Grazie per l’attenzione! Vittorio Di Tomaso Hanno collaborato al progetto: Andrea Bolioli, Roberto Franchini, Raffaella Ventaglio, Federico Fissore, Mauro Cappelli, Federico Cairo Ringraziamo: Andrea Muraca, Francesco Cerchio, Cristina Mollis, Alessandro StefaniTRANSCRIPT
Vittorio Di Tomaso CBDIG
Semantica: condividere significati tra archivi digitali
Vittorio Di TomasoCBDIG
Vittorio Di Tomaso CBDIG
Perché le biblioteche digitali non sono “sexy” come quelle
analogiche?
Perché le biblioteche digitali non sono “sexy” come quelle
analogiche?
Vittorio Di Tomaso CBDIG
Perché si può fare di più: ricerca
Le ricerche su Banche Dati in
ambito culturale richiedono una
conoscenza pregressa
dell’argomento
Le ricerche su Banche Dati in
ambito culturale richiedono una
conoscenza pregressa
dell’argomento
Bisogna giàconoscere
quello che si sta cercando
Bisogna giàconoscere
quello che si sta cercando
Vittorio Di Tomaso CBDIG
Perché si può fare di più: correlazioni
Classificazioni precise e rigorose
limitano la possibilità di
associazioni e collegamenti
Classificazioni precise e rigorose
limitano la possibilità di
associazioni e collegamenti
Tendenza a proporre percorsi
“specialistici”
Tendenza a proporre percorsi
“specialistici”
Vittorio Di Tomaso CBDIG
Perché si può fare di più: orizzonti
L’arte e la cultura sono, di natura,
“liberi” nello spazio e nel
tempo, mentre musei ed archivi
sono mondi “chiusi”
L’arte e la cultura sono, di natura,
“liberi” nello spazio e nel
tempo, mentre musei ed archivi
sono mondi “chiusi”
Ogni archivio offre una visione
“parziale” (ma le visioni possono essere federate)
Ogni archivio offre una visione
“parziale” (ma le visioni possono essere federate)
Vittorio Di Tomaso CBDIG
Perché si può fare di più: coinvolgimento
Anche quando disponibili via web,
molti archivi culturali adottano un
approccio poco orientato alla
fruizione
Anche quando disponibili via web,
molti archivi culturali adottano un
approccio poco orientato alla
fruizione
User experience poco coinvolgenteUser experience poco coinvolgente
Vittorio Di Tomaso CBDIG
Quali sono gli obiettivi
Vittorio Di Tomaso CBDIG
Su quali aspetti bisogna lavorare
Vittorio Di Tomaso CBDIG
Che cosa vogliamo fare….
Ricerche federateIntegrare patrimoni e fonti informative differenti
Ricerche intelligentiComprendere meglio il significato della richiesta dell’utente (per dare risultati più soddisfacenti)
Navigazione dinamicaIdentificare e rendere disponibili relazioni e correlazioni tra elementi appartenti a patrimoni informativi diversi
Vittorio Di Tomaso CBDIG
Accesso ai contenuti tramite search
•Ricerca semantica di contenuti a testo libero che, attraverso la correlazione di fonti dati, consente di trovare risultati accedendo a piùpatrimoni infomativi
•Abilita lettura trasversale e cross‐mediale dei fenomeni di interesse
•Ricerca semantica di contenuti a testo libero che, attraverso la correlazione di fonti dati, consente di trovare risultati accedendo a piùpatrimoni infomativi
•Abilita lettura trasversale e cross‐mediale dei fenomeni di interesse
• Archivi storici digitalizzati di quotidiani
• Archivi storici digitalizzati di quotidiani
• Siti web storicizzati
• Siti web storicizzati
• Foto, Immagini ed Illustrazioni
• Foto, Immagini ed Illustrazioni
• Materiale correlato disponibile su altri siti
• Materiale correlato disponibile su altri siti
• Libri, riviste, articoli con link diretto a siti di eCommerce
• Libri, riviste, articoli con link diretto a siti di eCommerce
• Ricerca full-text con individuazione semantica dei concetti ricercati
• Ricerca full-text con individuazione semantica dei concetti ricercati
Caso d’uso: trove.nla.gov.auCaso d’uso: trove.nla.gov.au
Il contenuto culturale può essere “espanso” e collegato ad elementi di contesto che lo rendono in grado di “raccontare” una storia
Il contenuto culturale può essere “espanso” e collegato ad elementi di contesto che lo rendono in grado di “raccontare” una storia
Vittorio Di Tomaso CBDIG
Caso d’uso: Museo TorinoCaso d’uso: Museo Torino
Accesso ai contenuti tramite logiche di experience
Progetto del Comune di Torino che consente la consultazione di un archivio dei beni artistici della città attraverso una rich-interface web che integra contenuti testuali, immagini e logiche di georeferenziazione
•Fruizione dei contenuti attraverso interfacce che garantiscono una user-experience intuitiva e coinvolgente
•Logiche di erogazione compatibili con device innovativi (es. smartphone e tablet)
•Fruizione dei contenuti attraverso interfacce che garantiscono una user-experience intuitiva e coinvolgente
•Logiche di erogazione compatibili con device innovativi (es. smartphone e tablet) La “contaminazione” degli archivi di beni culturali con
logiche di fruizione tipiche dell’info-tainment può ampliare il bacino di utenza di contenuti culturali
La “contaminazione” degli archivi di beni culturali con logiche di fruizione tipiche dell’info-tainment può ampliare il bacino di utenza di contenuti culturali
Vittorio Di Tomaso CBDIG
Caso d’uso: Dati PubbliciCaso d’uso: Dati Pubblici
Accesso ai contenuti tramite api
• Interfacciamento dei contenuti attraverso API standard che consentano l’interoperabilità con altri servizi attivando correlazioni per:‐ Creare servizi /
applicazioni arricchite con contenuti esterni legati ai medesimi concetti
‐ Esporre i propri contenuti in modo universale ad altri servizi che li possono integrare e diffondere
• Interfacciamento dei contenuti attraverso API standard che consentano l’interoperabilità con altri servizi attivando correlazioni per:‐ Creare servizi /
applicazioni arricchite con contenuti esterni legati ai medesimi concetti
‐ Esporre i propri contenuti in modo universale ad altri servizi che li possono integrare e diffondere
API
Basi Dati pubbliche Basi Dati pubbliche
Servizi di LocalizzaizoneServizi di Localizzaizone
Rich Internet Application che rende fruibili i dati ad un pubblico più vasto rispetto al bacino originario
Rich Internet Application che rende fruibili i dati ad un pubblico più vasto rispetto al bacino originario
In ambito culturale questa logica può favorire l’integrazione tra i patrimoni suddivisi tra enti,
associazioni e fondazioni diverse offrendo un’esperienza digitale di fruizione integrata dei patrimoni
In ambito culturale questa logica può favorire l’integrazione tra i patrimoni suddivisi tra enti,
associazioni e fondazioni diverse offrendo un’esperienza digitale di fruizione integrata dei patrimoni
La logica dell’interoperabilità tramite API è alla base dei principi Open Data per la diffusione dei dati pubblici
API
Vittorio Di Tomaso CBDIG
L’ecosistema cultura / Piemonte
Ontologia dei beni culturaliOntologia dei beni culturali
Ricerche federate, interoperabilitàRicerche federate, interoperabilità
Motore di ricerca
Motore di ricerca
API e serviziAPI e servizi
Vittorio Di Tomaso CBDIG
Modello di riferimento
ExperienceExperience APIAPI
Ontologia
• Digitalizzazione / Creazione
• Arricchimento semantico
Digital Library
Modalità di erogazione
Casi d’uso
Strumenti di ricerca testuale per semplificare
l’accesso a contenuti documentali
Interfacce multimediali per la fruizione dei
contenuti tramite user experience coinvolgente
Interoperabilità con altri servizi per
arricchire i contenuti con info da altre fonti
SearchSearch
Contenuti Tradizionali
CrowdsourcingCrowdsourcing
Utente
Recepimento di contenuti e
commenti da parte dell’utenza
•Facilità di integrazione tra i contenuti
•User experience “infotainment-like”
•Bacino di fruizione piùampio
•Possibilità di abilitare logiche di eCommerce dei contenuti
•Facilità di integrazione tra i contenuti
•User experience “infotainment-like”
•Bacino di fruizione piùampio
•Possibilità di abilitare logiche di eCommerce dei contenuti
Vittorio Di Tomaso CBDIG
Il risultato…
Vittorio Di Tomaso CBDIG
Obiettivo 1: ricerca federata su repository differenti
Vittorio Di Tomaso CBDIG
Motore Attuale
(Logicatradizionale
per keyword)
Motore Attuale
(Logicatradizionale
per keyword)
Obiettivo 2: ricerche più intelligenti
ApproccioSemantico
(identificazionedei concetti
cercati)
ApproccioSemantico
(identificazionedei concetti
cercati) • Trova 30 risultati relativi a Basiliche, Santuari e Chiese , …
• Esempio: documenti relativi alla Basilica di Superga, perchè‐ La Basilica di Superga è un edificio religioso‐ La Basilica di Superga è del 1731
• Trova 30 risultati relativi a Basiliche, Santuari e Chiese , …
• Esempio: documenti relativi alla Basilica di Superga, perchè‐ La Basilica di Superga è un edificio religioso‐ La Basilica di Superga è del 1731
Propone collegamenti con le tendenze artistiche sviluppatesi nel periodo e con altre eminenti opere contemporanee
Propone collegamenti con le tendenze artistiche sviluppatesi nel periodo e con altre eminenti opere contemporanee
Edificio religioso del settecento
Edificio religioso del settecento
Trova 1 solo risultato contenente la keyword “Edificio Religioso”
Trova 1 solo risultato contenente la keyword “Edificio Religioso”
Vittorio Di Tomaso CBDIG
Obiettivo 3: scoperta e navigazione di relazioni
La comprensione della semantica di una ricerca consente di “attivare”logiche di navigazione basate sulle relazioni tra i concetti
La comprensione della semantica di una ricerca consente di “attivare”logiche di navigazione basate sulle relazioni tra i concetti
Vittorio Di Tomaso CBDIG
Ontologia: come fare? Una scelta pragmatica
Progettazione dell’ontologia sulla base dei metadati di
catalogazione (ma in funzione delle esigenze della ricerca delle
informazioni)
Progettazione dell’ontologia sulla base degli elementi di
significato che si trovano nei testi del corpus
GUARINI: TOP DOWN
LA STAMPA: BOTTOM UP
Vittorio Di Tomaso CBDIG
Guarini: progetto top down dell’ontologia
OBAC Piemonte è la knowledge base ottenuta istanziando le classi di OBAC nei principali concetti individuali presenti nelle Schede F (fototipi) dell’Archivio
Guarini.
Il metodo quantitativo è basato sull’estrazione delle stringhe del campo “soggetto”di tali schede, arrestandosi sotto un numero prestabilito di occorrenze del
soggetto.
OBAC Piemonte è la knowledge base ottenuta istanziando le classi di OBAC nei principali concetti individuali presenti nelle Schede F (fototipi) dell’Archivio
Guarini.
Il metodo quantitativo è basato sull’estrazione delle stringhe del campo “soggetto”di tali schede, arrestandosi sotto un numero prestabilito di occorrenze del
soggetto.
Vittorio Di Tomaso CBDIG
OBAC – Classi di base
Vittorio Di Tomaso CBDIG
OBAC – Alcune relazioni di esempio
Vittorio Di Tomaso CBDIG
Uso di tecnologie semantiche per estrarre informazioni a valore aggiunto
Microfilm Copia digitale OCR Indicizzazione full text Analisi semantica Smart search
11 22 33 44
La stampa: identificazione bottom-up di elementi semantici
Vittorio Di Tomaso CBDIG
La stampa: estrazione di entità nominate
Arricchimento semantico dei documenti tramite il riconoscimento delle entitànominate ("NamedEntities"), cioè le persone, i luoghi e le organizzazioni menzionate negli articoli.
Un es. di articolo:La Stampa 03-02-1965
Arricchimento semantico dei documenti tramite il riconoscimento delle entitànominate ("NamedEntities"), cioè le persone, i luoghi e le organizzazioni menzionate negli articoli.
Un es. di articolo:La Stampa 03-02-1965
Vittorio Di Tomaso CBDIG
La stampa: estrazione di entità nominate
Annotazione manuale effettuata su un corpus di 1800 articoli, dal 1910 al 2005, selezionati prevalentemente dalle prime pagine (582.477 token)
Annotazione manuale effettuata su un corpus di 1800 articoli, dal 1910 al 2005, selezionati prevalentemente dalle prime pagine (582.477 token)
Vittorio Di Tomaso CBDIG
La stampa: estrazione di entità nominate
Training di un Classificatore automatico SVM (Support Vector Machine)
Integrazione di Regole manuali di identificazione e disambiguazione, in particolare per il riconoscimento degli Autori
Training di un Classificatore automatico SVM (Support Vector Machine)
Integrazione di Regole manuali di identificazione e disambiguazione, in particolare per il riconoscimento degli Autori
Vittorio Di Tomaso CBDIG
Una sfida complessa….
Estensione temporaleL’archivio storico de La Stampa comprende articoli su un periodo temporale di quasi 150 anni (dal 1867 al 2004): non esistono casi analoghi in Italia di analisi semantica di testi su un intervallo diacronico così ampio. Abbiamo dovuto definire una metodologia senza poter fare affidamento su best practice consolidate
DigitalizzazioneLa digitalizzazione di un corpus con queste caratteristiche èmolto complessa. Gli inevitabili errori di segmentazione e di estrazione del testo (OCR) hanno un effetto talvolta sostanziale su un successivo strato di analisi linguistica
Vittorio Di Tomaso CBDIG
Panna o Fanna?
Vittorio Di Tomaso CBDIG
I risultati dell’analisi
4.8000.0000 Articoli analizzati
110.000 Nomi di persona riconosciuti freq > 10
10.000 Nomi di luoghi riconosciuti freq > 10
6.000 Nomi di organizzazioni riconosciuti freq > 10
oltre
oltre
oltre
oltre
80% di precisione del risultatooltre
Vittorio Di Tomaso CBDIG
Siamo soltanto all’inizio…
Vittorio Di Tomaso CBDIG
La vision futura in 4 passi (2012 – 2013)
Realizzare un motore di ricerca sull’intero patrimonio di conoscenza
(Cultura k-Search)Realizzare un motore di ricerca sull’intero patrimonio di conoscenza
(Cultura k-Search)
Estendere il modello metodologico per coprire repository diversiEstendere il modello metodologico per coprire repository diversi
Creare una ontologia ombrello (OntoPiemonteCultura) in grado di collegare gli archivi in modalità Open (Cultura
LinkedData)
Creare una ontologia ombrello (OntoPiemonteCultura) in grado di collegare gli archivi in modalità Open (Cultura
LinkedData)
Realizzare API di ricerca HTTP / REST che consentano l’accesso
libero a terze parti a Cultura k-Search (APPS)Realizzare API di ricerca HTTP / REST che consentano l’accesso
libero a terze parti a Cultura k-Search (APPS)
1.1.
2.2.
3.3.
4.4.
20122012
20132013
Vittorio Di Tomaso CBDIG
Sappiamo cosa fare….
1 http://web.cnr.it/commesse/CommessaDescr.html?id_comm=14112 http://web.cnr.it/commesse/ModuloPrev.html?id_mod=2059
L'aspetto più critico riguarda la necessità di acquisire persone con la competenza e le motivazioni necessarie per fare da ponte tra ricerca e applicazioni2
Le ontologie rappresentano oggi la tecnologia chiave per risolvere i problemi di integrazione e interoperabilitàsemantica di dati e conoscenze1
Vittorio Di Tomaso CBDIG
Ma in questo momento manca qualcosa….
Vittorio Di Tomaso CBDIG
Vogliamo costruire cattedrali….
Vittorio Di Tomaso CBDIG
Semantica: condividere significati tra archivi digitali
Vittorio Di TomasoCBDIG
Grazie per l’attenzione!Vittorio Di Tomaso
Hanno collaborato al progetto: Andrea Bolioli, Roberto Franchini, Raffaella Ventaglio, Federico Fissore, Mauro Cappelli, Federico CairoRingraziamo: Andrea Muraca, Francesco Cerchio, Cristina Mollis, Alessandro Stefani