Le nuove frontiere nella gestione della conoscenza sul Web - PowerPoint PPT Presentation

1 / 35

About This Presentation

Title:

Le nuove frontiere nella gestione della conoscenza sul Web

Description:

Le nuove frontiere nella gestione della conoscenza sul Web Fabio Ciotti La gestione della conoscenza sul Web Una delle conseguenze pi rilevanti della diffusione del ... – PowerPoint PPT presentation

Number of Views:86

Avg rating:3.0/5.0

Slides: 36

Provided by: FabioC4

Category:

more less

Transcript and Presenter's Notes

Title: Le nuove frontiere nella gestione della conoscenza sul Web

1
Le nuove frontiere nella gestione della
conoscenza sul Web

Fabio Ciotti

2
La gestione della conoscenza sul Web

Una delle conseguenze più rilevanti della
diffusione del Web è il problema dell'information
overload
I motori di ricerca full-text generalisti hanno
successo perchè
Richiedono un minimo sforzo dellutente (inserire
keyword in una semplice form ed eventualmente
raffinare la richiesta aggiungendo/cambiando
parole)
Forniscono risultati rilevanti, numerosi e
pronti per luso
Ma la ricerca è unattività costosa e
inefficiente
linformation overload costringe lutente ad una
cernita manuale durante la quale possono sfuggire
le informazioni maggiormente rilevanti
i risultati non garantiscono di essere esaustivi
non sono gestite le problematiche del
pluringuismo le omonimie e le sinonimie
In generale possiamo dire che la ricerca di
informazioni sul attualmente non è in grado di
eseguire alcun filtraggio basato sui concetti

3
La gestione della conoscenza sul Web

Un'altra conseguenze della diffusione del Web è
il passaggio dai sistemi informativi monade ai
sistemi aperti e interoperabili
Nei primordi del Web la semplicità
dellarchitettura (basata su HTTP/URL/HTML in
modalità client side) forniva sufficienti
garanzie per far interagire senza limiti gli
agenti presenti nel sistema
Lintroduzione dellelaborazione server side
laumento della complessità dei servizi erogati
la necessità di interazione tra sistemi
informativi diversi ha richiesto soluzioni
tecniche sempre più avanzate
Linteroperabilità è divenuta uno dei requirement
principali di un sistema informativo Web

4
La gestione della conoscenza sul Web

Al fine di garantire linteroperabilità possono
adottare due strategie
standardizzazione a priori di architetture e
linguaggi (omogeneità dei sistemi)
definizione di protocolli di interoperabilità tra
sistemi eterogenei

5
La gestione della conoscenza sul Web

Un ruolo centrale in entrambi i casi è svolto
dallintroduzione di XML
XML è un formalismo per la modellizzazione di
documenti digitali da pubblicare sul Web
sottoforma di alberi etichettati
In virtù della sua flessibilità sintattica XML è
stato ampiamente adottato come formato di
serializzazione (cioè rappresentazione in forma
di stringa lineare di caratteri codificati) per
modelli di dati non intrinsecamente gerarchici
(reti, grafi, tabelle, strutture relazionali)

6
La gestione della conoscenza sul Web

I vantaggi di XML in questo campo sono numerosi
standard aperto
specifiche chiare, complete e abbastanza semplici
da implementare
alto livello di portabilità
possibilità di definire il proprio linguaggio di
rappresentazione formale dei dati
possibilità controllo sintattico/strutturale
rigoroso dei dati codificati

7
La gestione della conoscenza sul Web

XML infatti si basa sulla associazione di
etichette descrittive ai dati
Etichette e dati sono memorizzati in formato
testuale (stringhe di caratteri codificati in
Unicode)
Sia il vocabolario delle etichette utilizzabili
sia la struttura sintattica che ne regola luso
possono essere stabilite a priori mediante la
definizione di uno schema
I dati possono essere validati automaticamente
rispetto allo schema mediante un processo di
parsing

8
La gestione della conoscenza sul Web

Queste caratteristiche hanno fatto si che XML
assumesse un ruolo centrale nella costruzione di
linguaggi standard per la rappresentazione di
dati e metadati, divenendo una sorta di esperanto
sintattico
Il problema è che XML di per sé non può giocare
nessun ruolo nel garantire il trattamento
semantico (automatica) dei dati, sebbene spesso
si senta affermare il contrario

9
La gestione della conoscenza sul Web

XML is a poor language for data modelling if the
goal is to represent information objects in the
problem domain such that they correspond
transparently ("one-to-one") to the user's
conceptual model of objects in this domain.
Robin Cover, XML and Semantic Transparency
XML permette esclusivamente di esprimere semplici
relazioni strutturali
gerarchia (A contiene B)
adiacenza (A seguito da B)
co-occorrenza (se A allora anche/non B)
Con lintroduzione degli schema language si è
aggiunta la possibilità di tipazione dei valori
di elementi e attributi eguagliando la
espressività semantica dei DBMS

10
La gestione della conoscenza sul Web

XML non aggiunge senso ai dati, almeno non lo
aggiunge in modo computazionalmente
accessibile/trattabile
Lerrore deriva da una sorta di fallacia
interpretazionale dovuta al fatto che
le etichette XML sono leggibili e comprensibili
da un utente umano,
di norma il vocabolario utilizzato nei linguaggi
XML usa termini sensati tratti da una lingua
naturale
Ma la semantica del vocabolario XML è del tutto
inaccessibile a un elaboratore XML

11
La gestione della conoscenza sul Web

Per un parser
lttitlegtIl fu Mattia Pascallt/titlegt
ltblobgtIl fu Mattia Pascallt/blobgt
sono entrambi frammenti perfettamente accettabili
È la mente dellagente umano che legge il
documento XML a fornire una semantica al markup
eventualmente associandovi una apposita
documentazione in lingua naturale (come il
manuale EAD, TEI, METS, MODS etc)

12
La gestione della conoscenza sul Web

Si noti che anche i successivi livelli di
elaborazione di un sistema basato su XML non
risolvono il problema
Ad esempio una trasformazione XSLT è in grado di
prendere in input un albero XML A e trasformarlo
nellalbero B, ma di nuovo tutto avviene sulla
base esclusiva di vincoli sintattici e
strutturali
Nessuna trasformazione XSLT può introdurre
complessità semantica
ad esempio prendere i nomi unitari in un set di
metadati DC e dividerli in componenti come
previsto da MODS
a meno di complessi insiemi di regole ad hoc o
delluso di vocabolari controllati preesistenti

13
La gestione della conoscenza sul Web

Perché questo è un problema? Torniamo a
considerare il discorso iniziale sulla centralità
dellinteroperabilità e sulle strategie per
conseguirla
Se si sceglie di percorrere la strada della
standardizzazione a priori lindifferenza
semantica di XML (e di qualsiasi altro
metalinguaggio di modellizzazione dati) non
sarebbe un problema rilevante
In questo caso infatti una comunità di utenti
decide di adottare un vocabolario
condiviso
definito a priori
con una semantica chiara e prefissata
Chiunque può sviluppare delle applicazione di
elaborazione e scambio dei dati consistenti a
tale standard
Si tratta di una pratica ben nota nel mondo delle
biblioteche e degli archivi che sin dai primordi
dellautomazione hanno avvertito lesigenza di
definire modelli di descrizione (oggi le
chiameremmo ontologie), formati, vocabolari
controllati per la descrizione semantica
tendenzialmente condivisi da MARC a Dublin Core,
da ISBD a ISAD a FRBR, dal soggettario LC ai vari
thesaura settoriali..

14
La gestione della conoscenza sul Web

Tuttavia questa strategia è adottabile solo in
ambienti chiusi e omogenei o in domini ristretti
Non appena il dominio applicativo si estende o
lambiente si estende e diviene eterogeneo (come
nel Web) luniformità a priori dei linguaggi
descrittivi non è praticabile
sia perché esistono numerosi standard diversi che
insistono sul medesimo dominio
sia perché ci sono profili di adozione e
applicazione diversi del medesimo standard

15
La gestione della conoscenza sul Web

Si pone dunque lesigenza di individuare dei
sistemi di interoperabilità semantica che
consentano
lintegrazione di sistemi eterogenei
lerogazione servizi avanzati di descrizione ed
elaborazione semantica.
In questa direzione si muovono le sperimentazioni
che complessivamente ricadono nellarea del
Semantic Web

16
La gestione della conoscenza sul Web

Il termine Semantic Web è stato coniato nel
2001 da Tim Berners Lee
Obiettivo aumentare lefficacia del World Wide
Web come luogo di elaborazione e scambio di
conoscenza attribuendo ad agenti software la
capacità di
analizzare il significato dei documenti in esso
presenti,
di selezionarli o confrontarli in modo
semanticamente rilevante
di inferirne conseguenze non esplicitate.
Questo obiettivo visto nella sua generalità
richiede numerose e rilevanti innovazioni
sia dal punto di vista tecnico, con la
convergenza tra alcune tecnologie sviluppate
nellambito della rappresentazione e gestione
della conoscenza in Intelligenza Artificiale e
quelle create per implementare larchitettura del
Web
sia da quello dei comportamenti sociali degli
utenti, poiché il progetto richiederà il
contributo diffuso dellintera comunità della
rete.

17
La gestione della conoscenza sul Web

Lidea alla base del Web Semantico consiste
nellassociare alle risorse informative
disponibili in varie forme sul Web una
descrizione formale del loro significato
Tale descrizione può essere elaborata
autonomamente da un agente software in modo
significativo (cioè tenendo conto di che cosa
essa significhi), così da dedurne conseguenze
implicite e generare automaticamente nuova
informazione
Le ricadute applicative di questo progetto sono
numerose
creazione di sistemi di ricerca dellinformazione
guidati dalla semantica
interazione multilinguistica uomo-macchina e
macchina-macchina
creazione di applicazioni di e-commerce
intelligenti
sviluppo di agenti software autonomi

18
La gestione della conoscenza sul Web

Nellarchitettura disegnata da Berners-Lee e dai
suoi collaboratori presso il W3C Consortium, le
componenti tecnologiche che dovranno contribuire
alla costruzione del Web Semantico sono le
seguenti
URI
RDF
ontologie formali (e relativi linguaggi)
motori inferenziali

19
La gestione della conoscenza sul Web

Le URI, sono i formalismi che consentono di
identificare le risorse sulla rete.
Ogni risorsa dal singolo documento, a sue
parti, a oggetti ed entità in essi menzionate, a
collezioni di documenti deve avere un suo
identificativo URI, affinché possa essere
univocamente individuata nello spazio informativo
costituito dal Web.
Una volta che una risorsa sia identificata in
modo univoco è possibile esprimere su di essa
asserzioni che
ne descrivono il contenuto
o esprimono ciò che un utente pensa su tale
contenuto
in generale ne specificano proprietà da vari
punti di vista
Queste asserzioni sono informazioni che si
riferiscono ad altre informazioni, ovvero
metadati semantici

20
La gestione della conoscenza sul Web

Naturalmente, affinché i metadati semantici siano
utilizzabili non solo dagli esseri umani ma anche
dai computer, è necessario che vengano espressi
in un linguaggio che sia computazionalmente
trattabile sia dal punto di vista sintattico sia
da quello semantico
È questo il fine del Resource Description
Framework (RDF)
Si tratta di un metalinguaggio dichiarativo per
la formalizzare di asserti (predicati) che
esprimono proprietà di e relazioni tra risorse

21
La gestione della conoscenza sul Web

Larchitettura di RDF è basata su tre concetti
Risorse tutto ciò che viene descritto. Ogni
risorsa è identificata da un URI (può essere
anche un oggetto non accessibile dal Web)
Proprietà una coppia attributo-valore associata
alla risorsa.
Ogni proprietà ha un significato specifico
una serie di valori leciti
è associabile ad uno o più tipi di risorsa
Proprietà e i valori possono essere espresse da
URI ma anche da valori letterali
Asserzioni (statement) lassociazione di una
proprietà a una risorsa
Ogni asserzione ha una struttura soggetto -
predicato - oggetto
In RDF sono consentite solo relazioni binarie

22
La gestione della conoscenza sul Web

Fabio Ciotti
è lautore di
http//www.laterza.it/internet/leggi/internet2004
/index.htm
La proprietà Autore della risorsa
http//www.laterza.it/internet/leggi/internet2004
/index.htm vale Fabio Ciotti

http//www.laterza.it/internet/leggi/internet2004/
index.htm
Fabio Ciotti
Autore
Risorsa
Proprietà
Letterale
23
La gestione della conoscenza sul Web

Larchitettura prevista da RDF si divide in due
parti
Resource Description Framework (RDF) Model and
Syntax Specification le cui specifiche sono
state rilasciate come raccomandazioni definitive
nel febbraio 1999 definisce
il modello dei dati
la sintassi di RDF, basato su XML (ma è stata
sviluppata una notazione più compatte per
esprimere asserzioni RDF, Notation 3)
RDF di per sé non fa alcuna assunzione circa il
vocabolario specifico o la tipologia delle
proprietà che si possono attribuire e delle
relazioni tra tali proprietà
A tale fine occorre definire un RDF Schema, la
seconda parte dellarchitettura RDF (RDF
Vocabulary Description Language 1.0 RDF Schema)
Una volta che uno schema è stato definito
formalmente e pubblicato, chiunque può adottarlo
e utilizzarlo per costruire descrizioni RDF dei
propri documenti

24
La gestione della conoscenza sul Web

Potranno esistere numerosi schemi, basati su
diverse concettualizzazioni di particolari
domini, su diverse nomenclature e su diverse
lingue
Occorre un sistema per specificare le relazioni
logico-semantiche (equivalenza, specificazione,
generalizzazione, istanziazione, cardinalità
etc.) tra oggetti e proprietà di un medesimo
schema e di schemi diversi
Ad esempio, in un schema la relazione di
autorialità potrà essere indicata con il
termine author che fa parte della classe
creator in funzione di soggetto, il cui
oggetto è una certa risorsa
In un altro potremmo avere che il soggetto è il
documento di cui si predica la proprietà essere
scritto da un esponente della classe
responsabili intellettuali caratterizzato dalla
proprietà primario
Evidentemente si sta parlando dello stesso
insieme di individui e relazioni (un dominio), ma
in modo diverso

25
La gestione della conoscenza sul Web

Le ontologie formali sono un sistema ideato per
definire formalmente domini concettuali e
indicare in che modo essi sono espressi da schemi
logici e nomenclature differenti
Esistono numerosi linguaggi formali per
specificare ontologie. In particolare nel
contesto del progetto Web Semantico è stato
sviluppato il Web Ontology Language (OWL),
derivato dal DARPA Agent Markup Language
(DAMLOIL)

26
La gestione della conoscenza sul Web

OWL si divide in tre livelli a seconda della
capacità espressiva
OWL Lite
principalmente rivolto alla formalizzazione di
tassonomie gerarchiche e thesaura
permette di esprimere solo cardinalità zero o uno
esclude alcuni costrutti che esprimono relazioni
tra classi (disgiunzione, unione, istanziazione)
facilmente implementabile in sistemi inferenziali
OWL Description Logic
basato sul modello delle description logic (una
formalizzazione logica decidibile e computabile
del concetto informale di rete semantica e frame
dotata di una semantica formale completa)
include tutti i costrutti di OWL, ma fornisce
alcuni vincoli sul loro uso.
una classe può essere sottoclasse di una classe,
ma non istanza di una classe non si possono
esprimere restrizioni di cardinalità per
proprietà transitive
notevole espressività mantenendo la completezza
computazionale e la trattabilità
OWL Full
OWL Full serve per quegli usi in cui è necessaria
la massima espressività e la libertà sintattica
di RDF senza nessuna garanzia computazionale.
in OWL Full i livelli si mescolano, ed è lecito
trattare una classe simultaneamente come una
collezione di individui e come un individuo a sé
stante.
attraverso OWL Full unontologia può arricchire
il modello semantico predefinito dai vocabolari
di RDF e OWL.
non è decidibile (equivalente a logica dei
predicati) e dunque difficilmente implementabile

27
La gestione della conoscenza sul Web

Una architettura alternativa a RDF/S-OWL, ma
dotata di funzioni e scopi simili, è quella delle
Topic Map
Topic Map è uno standard definito dalla ISO (ISO
13250)
Nasce come meccanismo per la rappresentazione di
tassonomie e reti concettuali cui associare come
istanze risorse informative sia off-line sia
on-line

28
La gestione della conoscenza sul Web

Una topic map è costituita da un insieme di
soggetti (i concetti astratti) che vengono
rappresentati sottoforma di topic (i concetti
oggettivati o reificati)
Ogni topic ha uno o più nomi ma esprime uno e un
solo soggetto (cui può essere formalmente
collegato)
Ogni topic può essere istanziato da una o più
risorse informative (occorrenze)
Ogni topic può essere inserito in diverse
relazioni (associazioni) con altri topic

29
La gestione della conoscenza sul Web

A differenza di RDF
in TM le associazioni (relazioni) possono essere
n-arie
ci sono delle relazioni predefinite in TM che
consentono di esprimere
rapporti classe/sottoclasse
rapporti tipo/istanza
ci sono costrutti per esprimere direttamente il
tipo di una topic o il ruolo che svolge in una
associazione

30
La gestione della conoscenza sul Web

Una TM costituisce dunque la formalizzazione di
una rete concettuale collegata allinsieme delle
risorse informative che veicolano tali concetti.
Anche le TM hanno una sintassi di serializzazione
XML (XTM) e una non XML (Linear Topic Map)
È in corso di sviluppo un linguaggio per le
espressione di restrizioni ontologiche su topic e
associazioni (TMCL) e uno per linterrogazioni di
Topic Map (TMQL)

31
La gestione della conoscenza sul Web

Molti esperti nutrono non pochi dubbi sul fatto
che larchitettura del Web Semantico, almeno
nella sua versione più ambiziosa e universale,
potrà mai trasformarsi da sogno a realtà
Diverso il discorso relativo allapplicazione di
tecnologie di Semantic Web a domini circoscritti
e limitati, che già iniziano a essere
sperimentate e implementate
Tra queste applicazioni locali di particolare
interesse possono essere quelle nel dominio della
biblioteche e degli archivi digitali

32
La gestione della conoscenza sul Web

sistemi di organizzazione e reperimento su
collezioni locali o distribuite basati sulla
semantica
si veda AustLit http//www.austlit.edu.au/
il progetto di una ontologia della letteratura
Italiana di Bibit per generi, temi, cronologia
integrazione di metadati da fonti informative
distribuite che adottano schemi descrittivi o
semantici diversi (OAI semantic web)
estensione della funzione dellauthority control
authority file come rete semantica

33
La gestione della conoscenza sul Web

Problemi aperti
1) esistono possibilità di interoperabilità tra i
due paradigmi RDF/OWL e TM?
2) come popolare una rete concettuale/ontologia
di vaste dimensioni?

34
La gestione della conoscenza sul Web

Linteroperabilità tra TM e RDF è oggetto di
numerose proposte teoriche e tecniche
La risposta in generale è.
Si anche se la cosa non è così semplice!!!
Si veda il rapporto A Survey of RDF/Topic Maps
Interoperability Proposals, http//www.w3.org/TR/r
dftm-survey/

35
La gestione della conoscenza sul Web

Sviluppare e popolare ontologie è faticoso e
costoso, ma.
se lo sviluppo del livello ontologico vero e
proprio richiede necessariamente un intervento
umano di concettualizzazione e formalizzazione
..la costituzione di relazioni di istanziazione
tra risorse e concetti può essere parzialmente
automatizzata
1) adozione di tecnologie di data mining,
clustering e knowledge discovery su vaste masse
documentali (si veda il progetto NORA Web-based
Text-Mining and Visualization for Humanities
Digital Libraries della University of Illinois
diretta da John Unsworth - http//www.noraproject
.org/)
2) definizione di un vocabolario controllato di
parole chiavi da adottare come descrittori
semantici tradizionali che poi vengono collegati
a una rete concettuale o a una ontologia formale
in grado di fungere da base per processi
inferenziali
3) integrazione di sistemi basati su schemi
formali con Folksonomies... una strada la cui
fattibilità tecnica resta da esplorare che
presenta in particolare la criticità della
gestione di inconsistenze su vasta scala