Title: Tecniche di analisi matematica
1- Tecniche di analisi matematica
2- Gli studi di autenticazione e di tracciabilitÃ
sugli alimenti sono generalmente effettuati
individuando variabili chimico-fisiche che devono
avere valori o intervalli di valori ben definiti
perchè un alimento possa essere considerato
autentico o tracciabile. Naturalmente questi
valori sono identificati a partire da campioni di
riferimento, la cui autenticità sia documentata - Procedure di questo tipo sono in uso da diversi
anni, spesso all'interno di normative a vari
livelli legislativi. Tuttavia le normative
attuali sono insufficienti nel far fronte a tutte
le possibili frodi. Per questo motivo la ricerca
scientifica in campo agroalimentare è impegnata
nello sviluppo di metodi sempre più efficienti - Uno schema comune prevede l'utilizzo di uno o più
gruppi di sostanze, la cui distribuzione è
valutata in riferimento allorigine geografica,
alla tipicità varietale, allanno o alla
tecnologia di produzione. Queste variabili sono
sfruttate per individuare gruppi o classi di
campioni con caratteristiche chimiche omogenee,
valutando quali siano le differenze da gruppo a
gruppo e confrontando le strutture identificate
con campioni di riferimento e con campioni non
assegnati. Si effettua, cioè, quella che viene
chiamata classificazione. Per effettuare questo
tipo di studi, sono necessari strumenti di
analisi matematica
3La chemiometria
- Siccome linformazione contenuta in una sola
variabile, composto o elemento che sia, raramente
può risolvere il problema (sistema univariato), è
preferibile ricorrere alla determinazione di più
variabili (sistema multivariato) facendo uso di
tecniche matematiche che siano in grado di tener
conto contemporaneamente di tutte le variabili
utilizzate. Queste tecniche fanno parte di una
disciplina nota come chemiometria - Tra le tecniche chemiometriche maggiormente
utilizzate, vi sono quelle di classificazione o
pattern recognition, che permettono di
individuare le relazioni tra le variabili,
verificando se i dati sono strutturati secondo
gruppi ben definiti
4Tecniche chemiometriche
- Classificazione
- Regressione
- Disegno Sperimentale
5Visualizzare i dati
- Osservando i risultati delle analisi in forma
tabulare, spesso è difficile mettere in evidenza
similitudini tra i campioni. Per questo è
opportuno ricorrere a semplici elaborazioni
grafiche che possono mostrare in modo immediato
come i campioni si dispongano in uno spazio
delimitato da due o tre variabili. Il metodo
grafico più semplice consiste nel rappresentare i
dati con diagrammi o plot bivariati si tratta di
grafici cartesiani bidimensionali, nei quali gli
assi sono costituiti da coppie di variabili e
ciascun campione è rappresentato da un punto le
cui coordinate sono i valori assunti dalle due
variabili
Nel plot a lato sono diagrammati il contenuto di
litio e rubidio in campioni di vino provenienti
dalla Galizia ma di due denominazioni diverse è
facile evidenziare i gruppi di campioni con
caratteristiche simili. Risultati più sofisticati
si hanno con plot trivariati, nei quali sono
diagrammate tre variabili Nei casi più semplici,
trovando la combinazione giusta di variabili il
raggruppamento dei campioni è già evidente in due
o tre dimensioni. In questo caso, se n è il
numero di variabili misurate, il numero di plot
bivariati disponibili è pari a Sn(n-1)
6Analisi multivariata
- Se dai plot bivariati o trivariati non è
possibile individuare raggruppamenti in maniera
semplice, è necessario ricorrere all'analisi
multivariata, cioè prendendo contemporaneamente
in considerazione un numero elevato di variabili,
situazione che si ha, ad esempio, nel caso di
un'analisi ICP-MS dove gli elementi determinabili
sono molti. Naturalmente la rappresentazione
grafica, immediata per due variabili e più
complessa ma ancora possibile per tre variabili,
diventa del tutto impossibile per un numero di
variabili più elevato. In questi casi si ricorre
a tecniche di display che permettono di ridurre
la dimensionalità dello spazio delle variabili
senza perdere significativamente informazioni sui
dati, cioè mantenendo il più possibile la
struttura dei dati nello spazio definito da tutte
le variabili - Mentre l'analisi bivariata può essere effettuata
con un qualunque software in grado di diagrammare
due o tre variabili, per l'analisi multivariata
in genere si utilizzano specifici software di
calcolo. L'elaborazione dei dati mediante analisi
multivariata viene effettuata con le tecniche di
classificazione o pattern recognition
(riconoscimento di gruppi)
7Tecniche di classificazione
- Le tecniche di classificazione o pattern
recognition sono utilizzate per capire come i
campioni analizzati si raggruppano in strutture
omogenee. Si dividono in due tipologie - metodi unsupervised
- analisi delle componenti principali (PCA)
- analisi a cluster (CA)
- metodi supervised
- analisi discriminante (LDA)
- SIMCA
8Tecniche unsupervised
- Nelle tecniche unsupervised si ha come risultato
la visualizzazione dei dati in maniera compatta e
facilmente leggibile, in modo da poter
riconoscere i gruppi omogenei all'interno del set
di campioni. Si chiamano unsupervised perchè non
viene formulata alcuna ipotesi a priori sul modo
in cui i campioni si raggrupperanno - Le due tecniche più impiegate sono l'analisi
delle componenti principali o PCA e l'analisi a
cluster o CA
9Analisi delle componenti principali
- L'analisi delle componenti principali (PCA) è un
metodo molto noto in chimica e largamente
impiegato anche in altre discipline scientifiche
e non. Consideriamo un set di dati composto da n
variabili che descrivono m oggetti, con m ed n
molto elevati. L'informazione contenuta in questo
set è difficilmente visualizzabile in plot bi- o
trivariati ogni plot conterrebbe soltanto una
minima frazione dell'informazione totale, pari
rispettivamente a 2/n e a 3/n. Mediante la PCA è
possibile creare un nuovo set di n variabili che
siano combinazioni lineari delle variabili
originarie. Queste variabili o componenti
principali (PC) vengono generate sequenzialmente
e hanno due caratteristiche principali - Per questi motivi, utilizzando le prime due o tre
PC calcolate è possibile visualizzare in due o
tre dimensioni una frazione molto più alta
dell'informazione totale, facilitando il pattern
recognition questo è possibile in quanto nella
creazione delle PC viene eliminata l'informazione
ridondante, dovuta alla correlazione tra le
variabili. Quindi, mentre un plot bivariato con
due variabili originarie mostra una percentuale
dell'informazione totale pari a (2/n)100, un
plot bivariato con due PC può mostrare una
percentuale molto più elevata, pari anche
all'80-90. In definitiva, nonostante la tecnica
PCA metta in evidenza solo una frazione
dell'informazione iniziale, essa permette in
moltissimi casi di riconoscere il modo in cui i
campioni si raggruppano
- sono totalmente non correlate tra di loro, a
differenza delle variabili originarie - l'insieme delle PC contiene la stessa quantità di
informazione delle variabili originarie, ma le
prime due o tre mantengono una percentuale
elevata dell'informazione totale contenuta nel
set di dati
10Esempio di PCA
- In genere è sufficiente un numero limitato (fino
a tre) di PC per rappresentare in modo quasi
completo la struttura dei dati originari. Il
grafico delle PC in cui sono rappresentati i
campioni nello spazio definito dalle nuove
variabili è chiamato grafico degli scores (sotto)
che sono le nuove coordinate degli oggetti in
esame
Il contributo delle variabili originarie alla
composizione dellePC è individuato dal grafico
dei loadings esso permette di capire quali sono
le variabili che sono in grado di differenziare i
gruppi individuati nel grafico degli scores
11Analisi a cluster
- Si tratta di un insieme di metodi ampiamente
utilizzati nel campo degli studi scientifici.
Nell'analisi a cluster (CA) i campioni sono
considerati come oggetti posti in un iperspazio a
n dimensioni, con n uguale al numero di variabili
misurate. I campioni sono raggruppati in base
alle similitudini rilevate nei valori delle
variabili determinate. Il criterio per misurare
la similarità tra gli oggetti può essere vario
generalmente è utilizzata la distanza euclidea.
Gli oggetti più simili sono quelli aventi
distanza euclidea minore mediante l'applicazione
di un algoritmo si esegue il raggruppamento dei
dati fino ad avere una rappresentazione grafica
dei risultati. I vari metodi CA si differenziano
tra loro in base ai diversi criteri utilizzati
per calcolare la similarità tra gli oggetti ed in
base all'algoritmo utilizzato per eseguire il
raggruppamento - In campo scientifico il metodo di clustering più
utilizzato è quello chiamato gerarchico
agglomerativo. Con questo metodo, ciascun oggetto
è considerato inizialmente come costituente un
singolo gruppo. Schematicamente, l'intero
processo è suddiviso in quattro passaggi
- si calcolano le distanze tra tutti gli oggetti, a
due a due - si individua la coppia degli oggetti con distanza
minore questi vengono uniti per formare un unico
gruppo o cluster costituente una nuova, singola
entità con coordinate intermedie tra quelle dei
due oggetti uniti - il calcolo delle distanze è ripetuto tenendo
conto del nuovo cluster - la procedura è iterata fino a quando tutti gli
oggetti vengono inclusi in un unico cluster
12Esempio di CA
- I risultati sono riportati in forma di grafico
che, per la forma ramificata, è chiamato
dendrogramma. Esso permette di identificare i
gruppi esistenti tra i campioni, costituiti da
oggetti dalle caratteristiche simili. A
differenza della PCA, nella CA si visualizza
tutta l'informazione contenuta nel set di dati
dei campioni, benchè la sostituzione degli
oggetti con
sostituzione degli oggetti con nuovi cluster
introduca una certa distorsione nel sistema
visualizzato
13Tecniche supervised
- I metodi supervised, a differenza dei precedenti,
si basano sull'assunzione che sia già nota e
definita l'esistenza di gruppi o classi. Questa
condizione può derivare dal fatto che le analisi
sono state eseguite su campioni alimentari di
provenienza nota, oppure che i dati sono relativi
a gruppi precedentemente definiti tramite la PCA
o la CA. Si ha quindi un'assegnazione a priori
dei campioni in gruppi. L'elaborazione consente
di identificare le variabili che differenziano
maggiormente i gruppi predefiniti. Ogni gruppo è
poi descritto con un modello matematico che può
essere applicato a campioni di attribuzione
ignota per valutare come questi ultimi si
comportino
14Analisi Discriminante
- Tra i metodi supervised uno dei più utilizzati in
campo agroalimentare è l'analisi discriminante
lineare (LDA). Essa si utilizza quando sia
necessario verificare che nuovi campioni possano
essere assegnati a gruppi genitore
precedentemente definiti, ad esempio se si
desidera chiarire la provenienza di campioni
incerti sulla base della loro similitudine
composizionale con gruppi formati da campioni di
provenienza nota - I campioni incogniti possono essere assegnati ai
vari gruppi in base a come si dispongono in
questo spazio
L'analisi discriminante si fonda sulla
ripartizione dello spazio delle variabili in zone
assegnate ai singoli gruppi, attraverso una
specifica regola di discriminazione che genera
delle funzioni chiamate, appunto, discriminanti
queste definiscono un nuovo spazio in cui i dati
sono riportati in forma di grafico cartesiano