Tecniche di analisi matematica - PowerPoint PPT Presentation

1 / 14
About This Presentation
Title:

Tecniche di analisi matematica

Description:

Tecniche di analisi matematica Gli studi di autenticazione e di tracciabilit sugli alimenti sono generalmente effettuati individuando variabili chimico-fisiche che ... – PowerPoint PPT presentation

Number of Views:52
Avg rating:3.0/5.0
Slides: 15
Provided by: Mimm1
Category:

less

Transcript and Presenter's Notes

Title: Tecniche di analisi matematica


1
  • Tecniche di analisi matematica

2
  • Gli studi di autenticazione e di tracciabilità
    sugli alimenti sono generalmente effettuati
    individuando variabili chimico-fisiche che devono
    avere valori o intervalli di valori ben definiti
    perchè un alimento possa essere considerato
    autentico o tracciabile. Naturalmente questi
    valori sono identificati a partire da campioni di
    riferimento, la cui autenticità sia documentata
  • Procedure di questo tipo sono in uso da diversi
    anni, spesso all'interno di normative a vari
    livelli legislativi. Tuttavia le normative
    attuali sono insufficienti nel far fronte a tutte
    le possibili frodi. Per questo motivo la ricerca
    scientifica in campo agroalimentare è impegnata
    nello sviluppo di metodi sempre più efficienti
  • Uno schema comune prevede l'utilizzo di uno o più
    gruppi di sostanze, la cui distribuzione è
    valutata in riferimento allorigine geografica,
    alla tipicità varietale, allanno o alla
    tecnologia di produzione. Queste variabili sono
    sfruttate per individuare gruppi o classi di
    campioni con caratteristiche chimiche omogenee,
    valutando quali siano le differenze da gruppo a
    gruppo e confrontando le strutture identificate
    con campioni di riferimento e con campioni non
    assegnati. Si effettua, cioè, quella che viene
    chiamata classificazione. Per effettuare questo
    tipo di studi, sono necessari strumenti di
    analisi matematica

3
La chemiometria
  • Siccome linformazione contenuta in una sola
    variabile, composto o elemento che sia, raramente
    può risolvere il problema (sistema univariato), è
    preferibile ricorrere alla determinazione di più
    variabili (sistema multivariato) facendo uso di
    tecniche matematiche che siano in grado di tener
    conto contemporaneamente di tutte le variabili
    utilizzate. Queste tecniche fanno parte di una
    disciplina nota come chemiometria
  • Tra le tecniche chemiometriche maggiormente
    utilizzate, vi sono quelle di classificazione o
    pattern recognition, che permettono di
    individuare le relazioni tra le variabili,
    verificando se i dati sono strutturati secondo
    gruppi ben definiti

4
Tecniche chemiometriche
  • Classificazione
  • Regressione
  • Disegno Sperimentale

5
Visualizzare i dati
  • Osservando i risultati delle analisi in forma
    tabulare, spesso è difficile mettere in evidenza
    similitudini tra i campioni. Per questo è
    opportuno ricorrere a semplici elaborazioni
    grafiche che possono mostrare in modo immediato
    come i campioni si dispongano in uno spazio
    delimitato da due o tre variabili. Il metodo
    grafico più semplice consiste nel rappresentare i
    dati con diagrammi o plot bivariati si tratta di
    grafici cartesiani bidimensionali, nei quali gli
    assi sono costituiti da coppie di variabili e
    ciascun campione è rappresentato da un punto le
    cui coordinate sono i valori assunti dalle due
    variabili

Nel plot a lato sono diagrammati il contenuto di
litio e rubidio in campioni di vino provenienti
dalla Galizia ma di due denominazioni diverse è
facile evidenziare i gruppi di campioni con
caratteristiche simili. Risultati più sofisticati
si hanno con plot trivariati, nei quali sono
diagrammate tre variabili Nei casi più semplici,
trovando la combinazione giusta di variabili il
raggruppamento dei campioni è già evidente in due
o tre dimensioni. In questo caso, se n è il
numero di variabili misurate, il numero di plot
bivariati disponibili è pari a Sn(n-1)
6
Analisi multivariata
  • Se dai plot bivariati o trivariati non è
    possibile individuare raggruppamenti in maniera
    semplice, è necessario ricorrere all'analisi
    multivariata, cioè prendendo contemporaneamente
    in considerazione un numero elevato di variabili,
    situazione che si ha, ad esempio, nel caso di
    un'analisi ICP-MS dove gli elementi determinabili
    sono molti. Naturalmente la rappresentazione
    grafica, immediata per due variabili e più
    complessa ma ancora possibile per tre variabili,
    diventa del tutto impossibile per un numero di
    variabili più elevato. In questi casi si ricorre
    a tecniche di display che permettono di ridurre
    la dimensionalità dello spazio delle variabili
    senza perdere significativamente informazioni sui
    dati, cioè mantenendo il più possibile la
    struttura dei dati nello spazio definito da tutte
    le variabili
  • Mentre l'analisi bivariata può essere effettuata
    con un qualunque software in grado di diagrammare
    due o tre variabili, per l'analisi multivariata
    in genere si utilizzano specifici software di
    calcolo. L'elaborazione dei dati mediante analisi
    multivariata viene effettuata con le tecniche di
    classificazione o pattern recognition
    (riconoscimento di gruppi)

7
Tecniche di classificazione
  • Le tecniche di classificazione o pattern
    recognition sono utilizzate per capire come i
    campioni analizzati si raggruppano in strutture
    omogenee. Si dividono in due tipologie
  • metodi unsupervised
  • analisi delle componenti principali (PCA)
  • analisi a cluster (CA)
  • metodi supervised
  • analisi discriminante (LDA)
  • SIMCA

8
Tecniche unsupervised
  • Nelle tecniche unsupervised si ha come risultato
    la visualizzazione dei dati in maniera compatta e
    facilmente leggibile, in modo da poter
    riconoscere i gruppi omogenei all'interno del set
    di campioni. Si chiamano unsupervised perchè non
    viene formulata alcuna ipotesi a priori sul modo
    in cui i campioni si raggrupperanno
  • Le due tecniche più impiegate sono l'analisi
    delle componenti principali o PCA e l'analisi a
    cluster o CA

9
Analisi delle componenti principali
  • L'analisi delle componenti principali (PCA) è un
    metodo molto noto in chimica e largamente
    impiegato anche in altre discipline scientifiche
    e non. Consideriamo un set di dati composto da n
    variabili che descrivono m oggetti, con m ed n
    molto elevati. L'informazione contenuta in questo
    set è difficilmente visualizzabile in plot bi- o
    trivariati ogni plot conterrebbe soltanto una
    minima frazione dell'informazione totale, pari
    rispettivamente a 2/n e a 3/n. Mediante la PCA è
    possibile creare un nuovo set di n variabili che
    siano combinazioni lineari delle variabili
    originarie. Queste variabili o componenti
    principali (PC) vengono generate sequenzialmente
    e hanno due caratteristiche principali
  • Per questi motivi, utilizzando le prime due o tre
    PC calcolate è possibile visualizzare in due o
    tre dimensioni una frazione molto più alta
    dell'informazione totale, facilitando il pattern
    recognition questo è possibile in quanto nella
    creazione delle PC viene eliminata l'informazione
    ridondante, dovuta alla correlazione tra le
    variabili. Quindi, mentre un plot bivariato con
    due variabili originarie mostra una percentuale
    dell'informazione totale pari a (2/n)100, un
    plot bivariato con due PC può mostrare una
    percentuale molto più elevata, pari anche
    all'80-90. In definitiva, nonostante la tecnica
    PCA metta in evidenza solo una frazione
    dell'informazione iniziale, essa permette in
    moltissimi casi di riconoscere il modo in cui i
    campioni si raggruppano
  1. sono totalmente non correlate tra di loro, a
    differenza delle variabili originarie
  2. l'insieme delle PC contiene la stessa quantità di
    informazione delle variabili originarie, ma le
    prime due o tre mantengono una percentuale
    elevata dell'informazione totale contenuta nel
    set di dati

10
Esempio di PCA
  • In genere è sufficiente un numero limitato (fino
    a tre) di PC per rappresentare in modo quasi
    completo la struttura dei dati originari. Il
    grafico delle PC in cui sono rappresentati i
    campioni nello spazio definito dalle nuove
    variabili è chiamato grafico degli scores (sotto)
    che sono le nuove coordinate degli oggetti in
    esame

Il contributo delle variabili originarie alla
composizione dellePC è individuato dal grafico
dei loadings esso permette di capire quali sono
le variabili che sono in grado di differenziare i
gruppi individuati nel grafico degli scores
11
Analisi a cluster
  • Si tratta di un insieme di metodi ampiamente
    utilizzati nel campo degli studi scientifici.
    Nell'analisi a cluster (CA) i campioni sono
    considerati come oggetti posti in un iperspazio a
    n dimensioni, con n uguale al numero di variabili
    misurate. I campioni sono raggruppati in base
    alle similitudini rilevate nei valori delle
    variabili determinate. Il criterio per misurare
    la similarità tra gli oggetti può essere vario
    generalmente è utilizzata la distanza euclidea.
    Gli oggetti più simili sono quelli aventi
    distanza euclidea minore mediante l'applicazione
    di un algoritmo si esegue il raggruppamento dei
    dati fino ad avere una rappresentazione grafica
    dei risultati. I vari metodi CA si differenziano
    tra loro in base ai diversi criteri utilizzati
    per calcolare la similarità tra gli oggetti ed in
    base all'algoritmo utilizzato per eseguire il
    raggruppamento
  • In campo scientifico il metodo di clustering più
    utilizzato è quello chiamato gerarchico
    agglomerativo. Con questo metodo, ciascun oggetto
    è considerato inizialmente come costituente un
    singolo gruppo. Schematicamente, l'intero
    processo è suddiviso in quattro passaggi
  1. si calcolano le distanze tra tutti gli oggetti, a
    due a due
  2. si individua la coppia degli oggetti con distanza
    minore questi vengono uniti per formare un unico
    gruppo o cluster costituente una nuova, singola
    entità con coordinate intermedie tra quelle dei
    due oggetti uniti
  3. il calcolo delle distanze è ripetuto tenendo
    conto del nuovo cluster
  4. la procedura è iterata fino a quando tutti gli
    oggetti vengono inclusi in un unico cluster

12
Esempio di CA
  • I risultati sono riportati in forma di grafico
    che, per la forma ramificata, è chiamato
    dendrogramma. Esso permette di identificare i
    gruppi esistenti tra i campioni, costituiti da
    oggetti dalle caratteristiche simili. A
    differenza della PCA, nella CA si visualizza
    tutta l'informazione contenuta nel set di dati
    dei campioni, benchè la sostituzione degli
    oggetti con

sostituzione degli oggetti con nuovi cluster
introduca una certa distorsione nel sistema
visualizzato
13
Tecniche supervised
  • I metodi supervised, a differenza dei precedenti,
    si basano sull'assunzione che sia già nota e
    definita l'esistenza di gruppi o classi. Questa
    condizione può derivare dal fatto che le analisi
    sono state eseguite su campioni alimentari di
    provenienza nota, oppure che i dati sono relativi
    a gruppi precedentemente definiti tramite la PCA
    o la CA. Si ha quindi un'assegnazione a priori
    dei campioni in gruppi. L'elaborazione consente
    di identificare le variabili che differenziano
    maggiormente i gruppi predefiniti. Ogni gruppo è
    poi descritto con un modello matematico che può
    essere applicato a campioni di attribuzione
    ignota per valutare come questi ultimi si
    comportino

14
Analisi Discriminante
  • Tra i metodi supervised uno dei più utilizzati in
    campo agroalimentare è l'analisi discriminante
    lineare (LDA). Essa si utilizza quando sia
    necessario verificare che nuovi campioni possano
    essere assegnati a gruppi genitore
    precedentemente definiti, ad esempio se si
    desidera chiarire la provenienza di campioni
    incerti sulla base della loro similitudine
    composizionale con gruppi formati da campioni di
    provenienza nota
  • I campioni incogniti possono essere assegnati ai
    vari gruppi in base a come si dispongono in
    questo spazio

L'analisi discriminante si fonda sulla
ripartizione dello spazio delle variabili in zone
assegnate ai singoli gruppi, attraverso una
specifica regola di discriminazione che genera
delle funzioni chiamate, appunto, discriminanti
queste definiscono un nuovo spazio in cui i dati
sono riportati in forma di grafico cartesiano
Write a Comment
User Comments (0)
About PowerShow.com