Title: Le nuove frontiere nella gestione della conoscenza sul Web
1Le nuove frontiere nella gestione della
conoscenza sul Web
2La gestione della conoscenza sul Web
- Una delle conseguenze più rilevanti della
diffusione del Web è il problema dell'information
overload - I motori di ricerca full-text generalisti hanno
successo perchè - Richiedono un minimo sforzo dellutente (inserire
keyword in una semplice form ed eventualmente
raffinare la richiesta aggiungendo/cambiando
parole) - Forniscono risultati rilevanti, numerosi e
pronti per luso - Ma la ricerca è unattività costosa e
inefficiente - linformation overload costringe lutente ad una
cernita manuale durante la quale possono sfuggire
le informazioni maggiormente rilevanti - i risultati non garantiscono di essere esaustivi
- non sono gestite le problematiche del
pluringuismo le omonimie e le sinonimie - In generale possiamo dire che la ricerca di
informazioni sul attualmente non è in grado di
eseguire alcun filtraggio basato sui concetti
3La gestione della conoscenza sul Web
- Un'altra conseguenze della diffusione del Web è
il passaggio dai sistemi informativi monade ai
sistemi aperti e interoperabili - Nei primordi del Web la semplicità
dellarchitettura (basata su HTTP/URL/HTML in
modalità client side) forniva sufficienti
garanzie per far interagire senza limiti gli
agenti presenti nel sistema - Lintroduzione dellelaborazione server side
- laumento della complessità dei servizi erogati
- la necessità di interazione tra sistemi
informativi diversi ha richiesto soluzioni
tecniche sempre più avanzate - Linteroperabilità è divenuta uno dei requirement
principali di un sistema informativo Web
4La gestione della conoscenza sul Web
- Al fine di garantire linteroperabilità possono
adottare due strategie - standardizzazione a priori di architetture e
linguaggi (omogeneità dei sistemi) - definizione di protocolli di interoperabilità tra
sistemi eterogenei
5La gestione della conoscenza sul Web
- Un ruolo centrale in entrambi i casi è svolto
dallintroduzione di XML - XML è un formalismo per la modellizzazione di
documenti digitali da pubblicare sul Web
sottoforma di alberi etichettati - In virtù della sua flessibilità sintattica XML è
stato ampiamente adottato come formato di
serializzazione (cioè rappresentazione in forma
di stringa lineare di caratteri codificati) per
modelli di dati non intrinsecamente gerarchici
(reti, grafi, tabelle, strutture relazionali)
6La gestione della conoscenza sul Web
- I vantaggi di XML in questo campo sono numerosi
- standard aperto
- specifiche chiare, complete e abbastanza semplici
da implementare - alto livello di portabilità
- possibilità di definire il proprio linguaggio di
rappresentazione formale dei dati - possibilità controllo sintattico/strutturale
rigoroso dei dati codificati
7La gestione della conoscenza sul Web
- XML infatti si basa sulla associazione di
etichette descrittive ai dati - Etichette e dati sono memorizzati in formato
testuale (stringhe di caratteri codificati in
Unicode) - Sia il vocabolario delle etichette utilizzabili
sia la struttura sintattica che ne regola luso
possono essere stabilite a priori mediante la
definizione di uno schema - I dati possono essere validati automaticamente
rispetto allo schema mediante un processo di
parsing
8La gestione della conoscenza sul Web
- Queste caratteristiche hanno fatto si che XML
assumesse un ruolo centrale nella costruzione di
linguaggi standard per la rappresentazione di
dati e metadati, divenendo una sorta di esperanto
sintattico - Il problema è che XML di per sé non può giocare
nessun ruolo nel garantire il trattamento
semantico (automatica) dei dati, sebbene spesso
si senta affermare il contrario
9La gestione della conoscenza sul Web
- XML is a poor language for data modelling if the
goal is to represent information objects in the
problem domain such that they correspond
transparently ("one-to-one") to the user's
conceptual model of objects in this domain. - Robin Cover, XML and Semantic Transparency
- XML permette esclusivamente di esprimere semplici
relazioni strutturali - gerarchia (A contiene B)
- adiacenza (A seguito da B)
- co-occorrenza (se A allora anche/non B)
- Con lintroduzione degli schema language si è
aggiunta la possibilità di tipazione dei valori
di elementi e attributi eguagliando la
espressività semantica dei DBMS
10La gestione della conoscenza sul Web
- XML non aggiunge senso ai dati, almeno non lo
aggiunge in modo computazionalmente
accessibile/trattabile - Lerrore deriva da una sorta di fallacia
interpretazionale dovuta al fatto che - le etichette XML sono leggibili e comprensibili
da un utente umano, - di norma il vocabolario utilizzato nei linguaggi
XML usa termini sensati tratti da una lingua
naturale - Ma la semantica del vocabolario XML è del tutto
inaccessibile a un elaboratore XML
11La gestione della conoscenza sul Web
- Per un parser
- lttitlegtIl fu Mattia Pascallt/titlegt
- ltblobgtIl fu Mattia Pascallt/blobgt
- sono entrambi frammenti perfettamente accettabili
- È la mente dellagente umano che legge il
documento XML a fornire una semantica al markup - eventualmente associandovi una apposita
documentazione in lingua naturale (come il
manuale EAD, TEI, METS, MODS etc)
12La gestione della conoscenza sul Web
- Si noti che anche i successivi livelli di
elaborazione di un sistema basato su XML non
risolvono il problema - Ad esempio una trasformazione XSLT è in grado di
prendere in input un albero XML A e trasformarlo
nellalbero B, ma di nuovo tutto avviene sulla
base esclusiva di vincoli sintattici e
strutturali - Nessuna trasformazione XSLT può introdurre
complessità semantica - ad esempio prendere i nomi unitari in un set di
metadati DC e dividerli in componenti come
previsto da MODS - a meno di complessi insiemi di regole ad hoc o
delluso di vocabolari controllati preesistenti
13La gestione della conoscenza sul Web
- Perché questo è un problema? Torniamo a
considerare il discorso iniziale sulla centralità
dellinteroperabilità e sulle strategie per
conseguirla - Se si sceglie di percorrere la strada della
standardizzazione a priori lindifferenza
semantica di XML (e di qualsiasi altro
metalinguaggio di modellizzazione dati) non
sarebbe un problema rilevante - In questo caso infatti una comunità di utenti
decide di adottare un vocabolario - condiviso
- definito a priori
- con una semantica chiara e prefissata
- Chiunque può sviluppare delle applicazione di
elaborazione e scambio dei dati consistenti a
tale standard - Si tratta di una pratica ben nota nel mondo delle
biblioteche e degli archivi che sin dai primordi
dellautomazione hanno avvertito lesigenza di
definire modelli di descrizione (oggi le
chiameremmo ontologie), formati, vocabolari
controllati per la descrizione semantica
tendenzialmente condivisi da MARC a Dublin Core,
da ISBD a ISAD a FRBR, dal soggettario LC ai vari
thesaura settoriali..
14La gestione della conoscenza sul Web
- Tuttavia questa strategia è adottabile solo in
ambienti chiusi e omogenei o in domini ristretti - Non appena il dominio applicativo si estende o
lambiente si estende e diviene eterogeneo (come
nel Web) luniformità a priori dei linguaggi
descrittivi non è praticabile - sia perché esistono numerosi standard diversi che
insistono sul medesimo dominio - sia perché ci sono profili di adozione e
applicazione diversi del medesimo standard
15La gestione della conoscenza sul Web
- Si pone dunque lesigenza di individuare dei
sistemi di interoperabilità semantica che
consentano - lintegrazione di sistemi eterogenei
- lerogazione servizi avanzati di descrizione ed
elaborazione semantica. - In questa direzione si muovono le sperimentazioni
che complessivamente ricadono nellarea del
Semantic Web
16La gestione della conoscenza sul Web
- Il termine Semantic Web è stato coniato nel
2001 da Tim Berners Lee - Obiettivo aumentare lefficacia del World Wide
Web come luogo di elaborazione e scambio di
conoscenza attribuendo ad agenti software la
capacità di - analizzare il significato dei documenti in esso
presenti, - di selezionarli o confrontarli in modo
semanticamente rilevante - di inferirne conseguenze non esplicitate.
- Questo obiettivo visto nella sua generalità
richiede numerose e rilevanti innovazioni - sia dal punto di vista tecnico, con la
convergenza tra alcune tecnologie sviluppate
nellambito della rappresentazione e gestione
della conoscenza in Intelligenza Artificiale e
quelle create per implementare larchitettura del
Web - sia da quello dei comportamenti sociali degli
utenti, poiché il progetto richiederà il
contributo diffuso dellintera comunità della
rete.
17La gestione della conoscenza sul Web
- Lidea alla base del Web Semantico consiste
nellassociare alle risorse informative
disponibili in varie forme sul Web una
descrizione formale del loro significato - Tale descrizione può essere elaborata
autonomamente da un agente software in modo
significativo (cioè tenendo conto di che cosa
essa significhi), così da dedurne conseguenze
implicite e generare automaticamente nuova
informazione - Le ricadute applicative di questo progetto sono
numerose - creazione di sistemi di ricerca dellinformazione
guidati dalla semantica - interazione multilinguistica uomo-macchina e
macchina-macchina - creazione di applicazioni di e-commerce
intelligenti - sviluppo di agenti software autonomi
18La gestione della conoscenza sul Web
- Nellarchitettura disegnata da Berners-Lee e dai
suoi collaboratori presso il W3C Consortium, le
componenti tecnologiche che dovranno contribuire
alla costruzione del Web Semantico sono le
seguenti - URI
- RDF
- ontologie formali (e relativi linguaggi)
- motori inferenziali
19La gestione della conoscenza sul Web
- Le URI, sono i formalismi che consentono di
identificare le risorse sulla rete. - Ogni risorsa dal singolo documento, a sue
parti, a oggetti ed entità in essi menzionate, a
collezioni di documenti deve avere un suo
identificativo URI, affinché possa essere
univocamente individuata nello spazio informativo
costituito dal Web. - Una volta che una risorsa sia identificata in
modo univoco è possibile esprimere su di essa
asserzioni che - ne descrivono il contenuto
- o esprimono ciò che un utente pensa su tale
contenuto - in generale ne specificano proprietà da vari
punti di vista - Queste asserzioni sono informazioni che si
riferiscono ad altre informazioni, ovvero
metadati semantici
20La gestione della conoscenza sul Web
- Naturalmente, affinché i metadati semantici siano
utilizzabili non solo dagli esseri umani ma anche
dai computer, è necessario che vengano espressi
in un linguaggio che sia computazionalmente
trattabile sia dal punto di vista sintattico sia
da quello semantico - È questo il fine del Resource Description
Framework (RDF) - Si tratta di un metalinguaggio dichiarativo per
la formalizzare di asserti (predicati) che
esprimono proprietà di e relazioni tra risorse
21La gestione della conoscenza sul Web
- Larchitettura di RDF è basata su tre concetti
- Risorse tutto ciò che viene descritto. Ogni
risorsa è identificata da un URI (può essere
anche un oggetto non accessibile dal Web) - Proprietà una coppia attributo-valore associata
alla risorsa. - Ogni proprietà ha un significato specifico
- una serie di valori leciti
- è associabile ad uno o più tipi di risorsa
- Proprietà e i valori possono essere espresse da
URI ma anche da valori letterali - Asserzioni (statement) lassociazione di una
proprietà a una risorsa - Ogni asserzione ha una struttura soggetto -
predicato - oggetto - In RDF sono consentite solo relazioni binarie
22La gestione della conoscenza sul Web
- Fabio Ciotti
- è lautore di
- http//www.laterza.it/internet/leggi/internet2004
/index.htm - La proprietà Autore della risorsa
http//www.laterza.it/internet/leggi/internet2004
/index.htm vale Fabio Ciotti
http//www.laterza.it/internet/leggi/internet2004/
index.htm
Fabio Ciotti
Autore
Risorsa
Proprietà
Letterale
23La gestione della conoscenza sul Web
- Larchitettura prevista da RDF si divide in due
parti - Resource Description Framework (RDF) Model and
Syntax Specification le cui specifiche sono
state rilasciate come raccomandazioni definitive
nel febbraio 1999 definisce - il modello dei dati
- la sintassi di RDF, basato su XML (ma è stata
sviluppata una notazione più compatte per
esprimere asserzioni RDF, Notation 3) - RDF di per sé non fa alcuna assunzione circa il
vocabolario specifico o la tipologia delle
proprietà che si possono attribuire e delle
relazioni tra tali proprietà - A tale fine occorre definire un RDF Schema, la
seconda parte dellarchitettura RDF (RDF
Vocabulary Description Language 1.0 RDF Schema) - Una volta che uno schema è stato definito
formalmente e pubblicato, chiunque può adottarlo
e utilizzarlo per costruire descrizioni RDF dei
propri documenti
24La gestione della conoscenza sul Web
- Potranno esistere numerosi schemi, basati su
diverse concettualizzazioni di particolari
domini, su diverse nomenclature e su diverse
lingue - Occorre un sistema per specificare le relazioni
logico-semantiche (equivalenza, specificazione,
generalizzazione, istanziazione, cardinalità
etc.) tra oggetti e proprietà di un medesimo
schema e di schemi diversi - Ad esempio, in un schema la relazione di
autorialità potrà essere indicata con il
termine author che fa parte della classe
creator in funzione di soggetto, il cui
oggetto è una certa risorsa - In un altro potremmo avere che il soggetto è il
documento di cui si predica la proprietà essere
scritto da un esponente della classe
responsabili intellettuali caratterizzato dalla
proprietà primario - Evidentemente si sta parlando dello stesso
insieme di individui e relazioni (un dominio), ma
in modo diverso
25La gestione della conoscenza sul Web
- Le ontologie formali sono un sistema ideato per
definire formalmente domini concettuali e
indicare in che modo essi sono espressi da schemi
logici e nomenclature differenti - Esistono numerosi linguaggi formali per
specificare ontologie. In particolare nel
contesto del progetto Web Semantico è stato
sviluppato il Web Ontology Language (OWL),
derivato dal DARPA Agent Markup Language
(DAMLOIL)
26La gestione della conoscenza sul Web
- OWL si divide in tre livelli a seconda della
capacità espressiva - OWL Lite
- principalmente rivolto alla formalizzazione di
tassonomie gerarchiche e thesaura - permette di esprimere solo cardinalità zero o uno
- esclude alcuni costrutti che esprimono relazioni
tra classi (disgiunzione, unione, istanziazione) - facilmente implementabile in sistemi inferenziali
- OWL Description Logic
- basato sul modello delle description logic (una
formalizzazione logica decidibile e computabile
del concetto informale di rete semantica e frame
dotata di una semantica formale completa) - include tutti i costrutti di OWL, ma fornisce
alcuni vincoli sul loro uso. - una classe può essere sottoclasse di una classe,
ma non istanza di una classe non si possono
esprimere restrizioni di cardinalità per
proprietà transitive - notevole espressività mantenendo la completezza
computazionale e la trattabilità - OWL Full
- OWL Full serve per quegli usi in cui è necessaria
la massima espressività e la libertà sintattica
di RDF senza nessuna garanzia computazionale. - in OWL Full i livelli si mescolano, ed è lecito
trattare una classe simultaneamente come una
collezione di individui e come un individuo a sé
stante. - attraverso OWL Full unontologia può arricchire
il modello semantico predefinito dai vocabolari
di RDF e OWL. - non è decidibile (equivalente a logica dei
predicati) e dunque difficilmente implementabile
27La gestione della conoscenza sul Web
- Una architettura alternativa a RDF/S-OWL, ma
dotata di funzioni e scopi simili, è quella delle
Topic Map - Topic Map è uno standard definito dalla ISO (ISO
13250) - Nasce come meccanismo per la rappresentazione di
tassonomie e reti concettuali cui associare come
istanze risorse informative sia off-line sia
on-line
28La gestione della conoscenza sul Web
- Una topic map è costituita da un insieme di
soggetti (i concetti astratti) che vengono
rappresentati sottoforma di topic (i concetti
oggettivati o reificati) - Ogni topic ha uno o più nomi ma esprime uno e un
solo soggetto (cui può essere formalmente
collegato) - Ogni topic può essere istanziato da una o più
risorse informative (occorrenze) - Ogni topic può essere inserito in diverse
relazioni (associazioni) con altri topic
29La gestione della conoscenza sul Web
- A differenza di RDF
- in TM le associazioni (relazioni) possono essere
n-arie - ci sono delle relazioni predefinite in TM che
consentono di esprimere - rapporti classe/sottoclasse
- rapporti tipo/istanza
- ci sono costrutti per esprimere direttamente il
tipo di una topic o il ruolo che svolge in una
associazione
30La gestione della conoscenza sul Web
- Una TM costituisce dunque la formalizzazione di
una rete concettuale collegata allinsieme delle
risorse informative che veicolano tali concetti. - Anche le TM hanno una sintassi di serializzazione
XML (XTM) e una non XML (Linear Topic Map) - È in corso di sviluppo un linguaggio per le
espressione di restrizioni ontologiche su topic e
associazioni (TMCL) e uno per linterrogazioni di
Topic Map (TMQL)
31La gestione della conoscenza sul Web
- Molti esperti nutrono non pochi dubbi sul fatto
che larchitettura del Web Semantico, almeno
nella sua versione più ambiziosa e universale,
potrà mai trasformarsi da sogno a realtà - Diverso il discorso relativo allapplicazione di
tecnologie di Semantic Web a domini circoscritti
e limitati, che già iniziano a essere
sperimentate e implementate - Tra queste applicazioni locali di particolare
interesse possono essere quelle nel dominio della
biblioteche e degli archivi digitali
32La gestione della conoscenza sul Web
- sistemi di organizzazione e reperimento su
collezioni locali o distribuite basati sulla
semantica - si veda AustLit http//www.austlit.edu.au/
- il progetto di una ontologia della letteratura
Italiana di Bibit per generi, temi, cronologia - integrazione di metadati da fonti informative
distribuite che adottano schemi descrittivi o
semantici diversi (OAI semantic web) - estensione della funzione dellauthority control
- authority file come rete semantica
33La gestione della conoscenza sul Web
- Problemi aperti
- 1) esistono possibilità di interoperabilità tra i
due paradigmi RDF/OWL e TM? - 2) come popolare una rete concettuale/ontologia
di vaste dimensioni?
34La gestione della conoscenza sul Web
- Linteroperabilità tra TM e RDF è oggetto di
numerose proposte teoriche e tecniche - La risposta in generale è.
- Si anche se la cosa non è così semplice!!!
- Si veda il rapporto A Survey of RDF/Topic Maps
Interoperability Proposals, http//www.w3.org/TR/r
dftm-survey/
35La gestione della conoscenza sul Web
- Sviluppare e popolare ontologie è faticoso e
costoso, ma. - se lo sviluppo del livello ontologico vero e
proprio richiede necessariamente un intervento
umano di concettualizzazione e formalizzazione - ..la costituzione di relazioni di istanziazione
tra risorse e concetti può essere parzialmente
automatizzata - 1) adozione di tecnologie di data mining,
clustering e knowledge discovery su vaste masse
documentali (si veda il progetto NORA Web-based
Text-Mining and Visualization for Humanities
Digital Libraries della University of Illinois
diretta da John Unsworth - http//www.noraproject
.org/) - 2) definizione di un vocabolario controllato di
parole chiavi da adottare come descrittori
semantici tradizionali che poi vengono collegati
a una rete concettuale o a una ontologia formale
in grado di fungere da base per processi
inferenziali - 3) integrazione di sistemi basati su schemi
formali con Folksonomies... una strada la cui
fattibilità tecnica resta da esplorare che
presenta in particolare la criticità della
gestione di inconsistenze su vasta scala