Le nuove frontiere nella gestione della conoscenza sul Web - PowerPoint PPT Presentation

1 / 35
About This Presentation
Title:

Le nuove frontiere nella gestione della conoscenza sul Web

Description:

Le nuove frontiere nella gestione della conoscenza sul Web Fabio Ciotti La gestione della conoscenza sul Web Una delle conseguenze pi rilevanti della diffusione del ... – PowerPoint PPT presentation

Number of Views:86
Avg rating:3.0/5.0
Slides: 36
Provided by: FabioC4
Category:

less

Transcript and Presenter's Notes

Title: Le nuove frontiere nella gestione della conoscenza sul Web


1
Le nuove frontiere nella gestione della
conoscenza sul Web
  • Fabio Ciotti

2
La gestione della conoscenza sul Web
  • Una delle conseguenze più rilevanti della
    diffusione del Web è il problema dell'information
    overload
  • I motori di ricerca full-text generalisti hanno
    successo perchè
  • Richiedono un minimo sforzo dellutente (inserire
    keyword in una semplice form ed eventualmente
    raffinare la richiesta aggiungendo/cambiando
    parole)
  • Forniscono risultati rilevanti, numerosi e
    pronti per luso
  • Ma la ricerca è unattività costosa e
    inefficiente
  • linformation overload costringe lutente ad una
    cernita manuale durante la quale possono sfuggire
    le informazioni maggiormente rilevanti
  • i risultati non garantiscono di essere esaustivi
  • non sono gestite le problematiche del
    pluringuismo le omonimie e le sinonimie
  • In generale possiamo dire che la ricerca di
    informazioni sul attualmente non è in grado di
    eseguire alcun filtraggio basato sui concetti

3
La gestione della conoscenza sul Web
  • Un'altra conseguenze della diffusione del Web è
    il passaggio dai sistemi informativi monade ai
    sistemi aperti e interoperabili
  • Nei primordi del Web la semplicità
    dellarchitettura (basata su HTTP/URL/HTML in
    modalità client side) forniva sufficienti
    garanzie per far interagire senza limiti gli
    agenti presenti nel sistema
  • Lintroduzione dellelaborazione server side
  • laumento della complessità dei servizi erogati
  • la necessità di interazione tra sistemi
    informativi diversi ha richiesto soluzioni
    tecniche sempre più avanzate
  • Linteroperabilità è divenuta uno dei requirement
    principali di un sistema informativo Web

4
La gestione della conoscenza sul Web
  • Al fine di garantire linteroperabilità possono
    adottare due strategie
  • standardizzazione a priori di architetture e
    linguaggi (omogeneità dei sistemi)
  • definizione di protocolli di interoperabilità tra
    sistemi eterogenei

5
La gestione della conoscenza sul Web
  • Un ruolo centrale in entrambi i casi è svolto
    dallintroduzione di XML
  • XML è un formalismo per la modellizzazione di
    documenti digitali da pubblicare sul Web
    sottoforma di alberi etichettati
  • In virtù della sua flessibilità sintattica XML è
    stato ampiamente adottato come formato di
    serializzazione (cioè rappresentazione in forma
    di stringa lineare di caratteri codificati) per
    modelli di dati non intrinsecamente gerarchici
    (reti, grafi, tabelle, strutture relazionali)

6
La gestione della conoscenza sul Web
  • I vantaggi di XML in questo campo sono numerosi
  • standard aperto
  • specifiche chiare, complete e abbastanza semplici
    da implementare
  • alto livello di portabilità
  • possibilità di definire il proprio linguaggio di
    rappresentazione formale dei dati
  • possibilità controllo sintattico/strutturale
    rigoroso dei dati codificati

7
La gestione della conoscenza sul Web
  • XML infatti si basa sulla associazione di
    etichette descrittive ai dati
  • Etichette e dati sono memorizzati in formato
    testuale (stringhe di caratteri codificati in
    Unicode)
  • Sia il vocabolario delle etichette utilizzabili
    sia la struttura sintattica che ne regola luso
    possono essere stabilite a priori mediante la
    definizione di uno schema
  • I dati possono essere validati automaticamente
    rispetto allo schema mediante un processo di
    parsing

8
La gestione della conoscenza sul Web
  • Queste caratteristiche hanno fatto si che XML
    assumesse un ruolo centrale nella costruzione di
    linguaggi standard per la rappresentazione di
    dati e metadati, divenendo una sorta di esperanto
    sintattico
  • Il problema è che XML di per sé non può giocare
    nessun ruolo nel garantire il trattamento
    semantico (automatica) dei dati, sebbene spesso
    si senta affermare il contrario

9
La gestione della conoscenza sul Web
  • XML is a poor language for data modelling if the
    goal is to represent information objects in the
    problem domain such that they correspond
    transparently ("one-to-one") to the user's
    conceptual model of objects in this domain.
  • Robin Cover, XML and Semantic Transparency
  • XML permette esclusivamente di esprimere semplici
    relazioni strutturali
  • gerarchia (A contiene B)
  • adiacenza (A seguito da B)
  • co-occorrenza (se A allora anche/non B)
  • Con lintroduzione degli schema language si è
    aggiunta la possibilità di tipazione dei valori
    di elementi e attributi eguagliando la
    espressività semantica dei DBMS

10
La gestione della conoscenza sul Web
  • XML non aggiunge senso ai dati, almeno non lo
    aggiunge in modo computazionalmente
    accessibile/trattabile
  • Lerrore deriva da una sorta di fallacia
    interpretazionale dovuta al fatto che
  • le etichette XML sono leggibili e comprensibili
    da un utente umano,
  • di norma il vocabolario utilizzato nei linguaggi
    XML usa termini sensati tratti da una lingua
    naturale
  • Ma la semantica del vocabolario XML è del tutto
    inaccessibile a un elaboratore XML

11
La gestione della conoscenza sul Web
  • Per un parser
  • lttitlegtIl fu Mattia Pascallt/titlegt
  • ltblobgtIl fu Mattia Pascallt/blobgt
  • sono entrambi frammenti perfettamente accettabili
  • È la mente dellagente umano che legge il
    documento XML a fornire una semantica al markup
  • eventualmente associandovi una apposita
    documentazione in lingua naturale (come il
    manuale EAD, TEI, METS, MODS etc)

12
La gestione della conoscenza sul Web
  • Si noti che anche i successivi livelli di
    elaborazione di un sistema basato su XML non
    risolvono il problema
  • Ad esempio una trasformazione XSLT è in grado di
    prendere in input un albero XML A e trasformarlo
    nellalbero B, ma di nuovo tutto avviene sulla
    base esclusiva di vincoli sintattici e
    strutturali
  • Nessuna trasformazione XSLT può introdurre
    complessità semantica
  • ad esempio prendere i nomi unitari in un set di
    metadati DC e dividerli in componenti come
    previsto da MODS
  • a meno di complessi insiemi di regole ad hoc o
    delluso di vocabolari controllati preesistenti

13
La gestione della conoscenza sul Web
  • Perché questo è un problema? Torniamo a
    considerare il discorso iniziale sulla centralità
    dellinteroperabilità e sulle strategie per
    conseguirla
  • Se si sceglie di percorrere la strada della
    standardizzazione a priori lindifferenza
    semantica di XML (e di qualsiasi altro
    metalinguaggio di modellizzazione dati) non
    sarebbe un problema rilevante
  • In questo caso infatti una comunità di utenti
    decide di adottare un vocabolario
  • condiviso
  • definito a priori
  • con una semantica chiara e prefissata
  • Chiunque può sviluppare delle applicazione di
    elaborazione e scambio dei dati consistenti a
    tale standard
  • Si tratta di una pratica ben nota nel mondo delle
    biblioteche e degli archivi che sin dai primordi
    dellautomazione hanno avvertito lesigenza di
    definire modelli di descrizione (oggi le
    chiameremmo ontologie), formati, vocabolari
    controllati per la descrizione semantica
    tendenzialmente condivisi da MARC a Dublin Core,
    da ISBD a ISAD a FRBR, dal soggettario LC ai vari
    thesaura settoriali..

14
La gestione della conoscenza sul Web
  • Tuttavia questa strategia è adottabile solo in
    ambienti chiusi e omogenei o in domini ristretti
  • Non appena il dominio applicativo si estende o
    lambiente si estende e diviene eterogeneo (come
    nel Web) luniformità a priori dei linguaggi
    descrittivi non è praticabile
  • sia perché esistono numerosi standard diversi che
    insistono sul medesimo dominio
  • sia perché ci sono profili di adozione e
    applicazione diversi del medesimo standard

15
La gestione della conoscenza sul Web
  • Si pone dunque lesigenza di individuare dei
    sistemi di interoperabilità semantica che
    consentano
  • lintegrazione di sistemi eterogenei
  • lerogazione servizi avanzati di descrizione ed
    elaborazione semantica.
  • In questa direzione si muovono le sperimentazioni
    che complessivamente ricadono nellarea del
    Semantic Web

16
La gestione della conoscenza sul Web
  • Il termine Semantic Web è stato coniato nel
    2001 da Tim Berners Lee
  • Obiettivo aumentare lefficacia del World Wide
    Web come luogo di elaborazione e scambio di
    conoscenza attribuendo ad agenti software la
    capacità di
  • analizzare il significato dei documenti in esso
    presenti,
  • di selezionarli o confrontarli in modo
    semanticamente rilevante
  • di inferirne conseguenze non esplicitate.
  • Questo obiettivo visto nella sua generalità
    richiede numerose e rilevanti innovazioni
  • sia dal punto di vista tecnico, con la
    convergenza tra alcune tecnologie sviluppate
    nellambito della rappresentazione e gestione
    della conoscenza in Intelligenza Artificiale e
    quelle create per implementare larchitettura del
    Web
  • sia da quello dei comportamenti sociali degli
    utenti, poiché il progetto richiederà il
    contributo diffuso dellintera comunità della
    rete.

17
La gestione della conoscenza sul Web
  • Lidea alla base del Web Semantico consiste
    nellassociare alle risorse informative
    disponibili in varie forme sul Web una
    descrizione formale del loro significato
  • Tale descrizione può essere elaborata
    autonomamente da un agente software in modo
    significativo (cioè tenendo conto di che cosa
    essa significhi), così da dedurne conseguenze
    implicite e generare automaticamente nuova
    informazione
  • Le ricadute applicative di questo progetto sono
    numerose
  • creazione di sistemi di ricerca dellinformazione
    guidati dalla semantica
  • interazione multilinguistica uomo-macchina e
    macchina-macchina
  • creazione di applicazioni di e-commerce
    intelligenti
  • sviluppo di agenti software autonomi

18
La gestione della conoscenza sul Web
  • Nellarchitettura disegnata da Berners-Lee e dai
    suoi collaboratori presso il W3C Consortium, le
    componenti tecnologiche che dovranno contribuire
    alla costruzione del Web Semantico sono le
    seguenti
  • URI
  • RDF
  • ontologie formali (e relativi linguaggi)
  • motori inferenziali

19
La gestione della conoscenza sul Web
  • Le URI, sono i formalismi che consentono di
    identificare le risorse sulla rete.
  • Ogni risorsa dal singolo documento, a sue
    parti, a oggetti ed entità in essi menzionate, a
    collezioni di documenti deve avere un suo
    identificativo URI, affinché possa essere
    univocamente individuata nello spazio informativo
    costituito dal Web.
  • Una volta che una risorsa sia identificata in
    modo univoco è possibile esprimere su di essa
    asserzioni che
  • ne descrivono il contenuto
  • o esprimono ciò che un utente pensa su tale
    contenuto
  • in generale ne specificano proprietà da vari
    punti di vista
  • Queste asserzioni sono informazioni che si
    riferiscono ad altre informazioni, ovvero
    metadati semantici

20
La gestione della conoscenza sul Web
  • Naturalmente, affinché i metadati semantici siano
    utilizzabili non solo dagli esseri umani ma anche
    dai computer, è necessario che vengano espressi
    in un linguaggio che sia computazionalmente
    trattabile sia dal punto di vista sintattico sia
    da quello semantico
  • È questo il fine del Resource Description
    Framework (RDF)
  • Si tratta di un metalinguaggio dichiarativo per
    la formalizzare di asserti (predicati) che
    esprimono proprietà di e relazioni tra risorse

21
La gestione della conoscenza sul Web
  • Larchitettura di RDF è basata su tre concetti
  • Risorse tutto ciò che viene descritto. Ogni
    risorsa è identificata da un URI (può essere
    anche un oggetto non accessibile dal Web)
  • Proprietà una coppia attributo-valore associata
    alla risorsa.
  • Ogni proprietà ha un significato specifico
  • una serie di valori leciti
  • è associabile ad uno o più tipi di risorsa
  • Proprietà e i valori possono essere espresse da
    URI ma anche da valori letterali
  • Asserzioni (statement) lassociazione di una
    proprietà a una risorsa
  • Ogni asserzione ha una struttura soggetto -
    predicato - oggetto
  • In RDF sono consentite solo relazioni binarie

22
La gestione della conoscenza sul Web
  • Fabio Ciotti
  • è lautore di
  • http//www.laterza.it/internet/leggi/internet2004
    /index.htm
  • La proprietà Autore della risorsa
    http//www.laterza.it/internet/leggi/internet2004
    /index.htm vale Fabio Ciotti

http//www.laterza.it/internet/leggi/internet2004/
index.htm
Fabio Ciotti
Autore
Risorsa
Proprietà
Letterale
23
La gestione della conoscenza sul Web
  • Larchitettura prevista da RDF si divide in due
    parti
  • Resource Description Framework (RDF) Model and
    Syntax Specification le cui specifiche sono
    state rilasciate come raccomandazioni definitive
    nel febbraio 1999 definisce
  • il modello dei dati
  • la sintassi di RDF, basato su XML (ma è stata
    sviluppata una notazione più compatte per
    esprimere asserzioni RDF, Notation 3)
  • RDF di per sé non fa alcuna assunzione circa il
    vocabolario specifico o la tipologia delle
    proprietà che si possono attribuire e delle
    relazioni tra tali proprietà
  • A tale fine occorre definire un RDF Schema, la
    seconda parte dellarchitettura RDF (RDF
    Vocabulary Description Language 1.0 RDF Schema)
  • Una volta che uno schema è stato definito
    formalmente e pubblicato, chiunque può adottarlo
    e utilizzarlo per costruire descrizioni RDF dei
    propri documenti

24
La gestione della conoscenza sul Web
  • Potranno esistere numerosi schemi, basati su
    diverse concettualizzazioni di particolari
    domini, su diverse nomenclature e su diverse
    lingue
  • Occorre un sistema per specificare le relazioni
    logico-semantiche (equivalenza, specificazione,
    generalizzazione, istanziazione, cardinalità
    etc.) tra oggetti e proprietà di un medesimo
    schema e di schemi diversi
  • Ad esempio, in un schema la relazione di
    autorialità potrà essere indicata con il
    termine author che fa parte della classe
    creator in funzione di soggetto, il cui
    oggetto è una certa risorsa
  • In un altro potremmo avere che il soggetto è il
    documento di cui si predica la proprietà essere
    scritto da un esponente della classe
    responsabili intellettuali caratterizzato dalla
    proprietà primario
  • Evidentemente si sta parlando dello stesso
    insieme di individui e relazioni (un dominio), ma
    in modo diverso

25
La gestione della conoscenza sul Web
  • Le ontologie formali sono un sistema ideato per
    definire formalmente domini concettuali e
    indicare in che modo essi sono espressi da schemi
    logici e nomenclature differenti
  • Esistono numerosi linguaggi formali per
    specificare ontologie. In particolare nel
    contesto del progetto Web Semantico è stato
    sviluppato il Web Ontology Language (OWL),
    derivato dal DARPA Agent Markup Language
    (DAMLOIL)

26
La gestione della conoscenza sul Web
  • OWL si divide in tre livelli a seconda della
    capacità espressiva
  • OWL Lite
  • principalmente rivolto alla formalizzazione di
    tassonomie gerarchiche e thesaura
  • permette di esprimere solo cardinalità zero o uno
  • esclude alcuni costrutti che esprimono relazioni
    tra classi (disgiunzione, unione, istanziazione)
  • facilmente implementabile in sistemi inferenziali
  • OWL Description Logic
  • basato sul modello delle description logic (una
    formalizzazione logica decidibile e computabile
    del concetto informale di rete semantica e frame
    dotata di una semantica formale completa)
  • include tutti i costrutti di OWL, ma fornisce
    alcuni vincoli sul loro uso.
  • una classe può essere sottoclasse di una classe,
    ma non istanza di una classe non si possono
    esprimere restrizioni di cardinalità per
    proprietà transitive
  • notevole espressività mantenendo la completezza
    computazionale e la trattabilità
  • OWL Full
  • OWL Full serve per quegli usi in cui è necessaria
    la massima espressività e la libertà sintattica
    di RDF senza nessuna garanzia computazionale.
  • in OWL Full i livelli si mescolano, ed è lecito
    trattare una classe simultaneamente come una
    collezione di individui e come un individuo a sé
    stante.
  • attraverso OWL Full unontologia può arricchire
    il modello semantico predefinito dai vocabolari
    di RDF e OWL.
  • non è decidibile (equivalente a logica dei
    predicati) e dunque difficilmente implementabile

27
La gestione della conoscenza sul Web
  • Una architettura alternativa a RDF/S-OWL, ma
    dotata di funzioni e scopi simili, è quella delle
    Topic Map
  • Topic Map è uno standard definito dalla ISO (ISO
    13250)
  • Nasce come meccanismo per la rappresentazione di
    tassonomie e reti concettuali cui associare come
    istanze risorse informative sia off-line sia
    on-line

28
La gestione della conoscenza sul Web
  • Una topic map è costituita da un insieme di
    soggetti (i concetti astratti) che vengono
    rappresentati sottoforma di topic (i concetti
    oggettivati o reificati)
  • Ogni topic ha uno o più nomi ma esprime uno e un
    solo soggetto (cui può essere formalmente
    collegato)
  • Ogni topic può essere istanziato da una o più
    risorse informative (occorrenze)
  • Ogni topic può essere inserito in diverse
    relazioni (associazioni) con altri topic

29
La gestione della conoscenza sul Web
  • A differenza di RDF
  • in TM le associazioni (relazioni) possono essere
    n-arie
  • ci sono delle relazioni predefinite in TM che
    consentono di esprimere
  • rapporti classe/sottoclasse
  • rapporti tipo/istanza
  • ci sono costrutti per esprimere direttamente il
    tipo di una topic o il ruolo che svolge in una
    associazione

30
La gestione della conoscenza sul Web
  • Una TM costituisce dunque la formalizzazione di
    una rete concettuale collegata allinsieme delle
    risorse informative che veicolano tali concetti.
  • Anche le TM hanno una sintassi di serializzazione
    XML (XTM) e una non XML (Linear Topic Map)
  • È in corso di sviluppo un linguaggio per le
    espressione di restrizioni ontologiche su topic e
    associazioni (TMCL) e uno per linterrogazioni di
    Topic Map (TMQL)

31
La gestione della conoscenza sul Web
  • Molti esperti nutrono non pochi dubbi sul fatto
    che larchitettura del Web Semantico, almeno
    nella sua versione più ambiziosa e universale,
    potrà mai trasformarsi da sogno a realtà
  • Diverso il discorso relativo allapplicazione di
    tecnologie di Semantic Web a domini circoscritti
    e limitati, che già iniziano a essere
    sperimentate e implementate
  • Tra queste applicazioni locali di particolare
    interesse possono essere quelle nel dominio della
    biblioteche e degli archivi digitali

32
La gestione della conoscenza sul Web
  • sistemi di organizzazione e reperimento su
    collezioni locali o distribuite basati sulla
    semantica
  • si veda AustLit http//www.austlit.edu.au/
  • il progetto di una ontologia della letteratura
    Italiana di Bibit per generi, temi, cronologia
  • integrazione di metadati da fonti informative
    distribuite che adottano schemi descrittivi o
    semantici diversi (OAI semantic web)
  • estensione della funzione dellauthority control
  • authority file come rete semantica

33
La gestione della conoscenza sul Web
  • Problemi aperti
  • 1) esistono possibilità di interoperabilità tra i
    due paradigmi RDF/OWL e TM?
  • 2) come popolare una rete concettuale/ontologia
    di vaste dimensioni?

34
La gestione della conoscenza sul Web
  • Linteroperabilità tra TM e RDF è oggetto di
    numerose proposte teoriche e tecniche
  • La risposta in generale è.
  • Si anche se la cosa non è così semplice!!!
  • Si veda il rapporto A Survey of RDF/Topic Maps
    Interoperability Proposals, http//www.w3.org/TR/r
    dftm-survey/

35
La gestione della conoscenza sul Web
  • Sviluppare e popolare ontologie è faticoso e
    costoso, ma.
  • se lo sviluppo del livello ontologico vero e
    proprio richiede necessariamente un intervento
    umano di concettualizzazione e formalizzazione
  • ..la costituzione di relazioni di istanziazione
    tra risorse e concetti può essere parzialmente
    automatizzata
  • 1) adozione di tecnologie di data mining,
    clustering e knowledge discovery su vaste masse
    documentali (si veda il progetto NORA Web-based
    Text-Mining and Visualization for Humanities
    Digital Libraries della University of Illinois
    diretta da John Unsworth - http//www.noraproject
    .org/)
  • 2) definizione di un vocabolario controllato di
    parole chiavi da adottare come descrittori
    semantici tradizionali che poi vengono collegati
    a una rete concettuale o a una ontologia formale
    in grado di fungere da base per processi
    inferenziali
  • 3) integrazione di sistemi basati su schemi
    formali con Folksonomies... una strada la cui
    fattibilità tecnica resta da esplorare che
    presenta in particolare la criticità della
    gestione di inconsistenze su vasta scala
Write a Comment
User Comments (0)
About PowerShow.com