Title: Trabajo del grupo ISG UPV-EHU en clasificaci
1Trabajo del grupo ISG UPV-EHU en clasificación
supervisada para DNA microarrays
(mayo00-junio02)
- Proyecto Elvira II
- Albacete, Junio 2002
2DNA microarray
- Filas ? genes Columnas ? casos, muestras,
biopsias, ejemplos, cell-lines...
3Selección de genes en DNA microarray
supervisados?
- Area pequeña dentro de la Bioinformática.
- Dimensionalidad altísima (gt 1,000).
- Problemas supervisados existe la variables
clase. - Literatura Brazma Vilo00, CAMDA00-01,
Golub99, Beibel00... - En CAMDA ? se cita la selección de variables
(Feature Subset Selection FSS) como un topic. - Coincidencias pocos genes... soprendente? No
tanto... Y buen porcentaje de bien clasificados. - Técnicas de clasificación supervisada utilizadas
SVM, Discriminant Analysis,..., K-NN,
Naive-Bayes, Arboles de decision, Reglas de
decisión (IF-THEN). - Explicatividad comprensibilidad árboles,
reglas.
4Varios ejemplos de DNA microarrays
DOMINIO CLASE GENES
Colon Biopsia tumor vs. normal 2,000
Leukemia Tipos leucemia AML, ALL 7,129
NCI-60 9 tipos de tumores 1,376
Alizadeh00 2 tipos de linfomas center B-like, activates B-like 2,984
Chen02 Hepato celular carcinoma vs. Ausencia de tumor en hígado 17,400
Garber01 Subtipos de cáncer de pulmón 24,000
5Nuestras líneas de trabajo
- Algoritmo de búsqueda búsqueda secuencial,
algoritmos EDAs. - Función de evaluación wrapper más que filter ?
son posibles los tiempos de cómputo ? búsqueda en
el areas de pocos genes. - Algoritmos de clasificación K-NN, Naive-Bayes,
árboles de clasificación, reglas IF-THEN... - Software propio y MLC (Stanford SGI).
- Nuestro Talón de Aquiles
- Interpretación biológica de los resultados
(modelos clasificatorios, genes escogidos,
porcentajes de error...). - Formación creación de las matrices de datos
desde SMD.
6Trabajos desarrollados
- R. Blanco, P. Larrañaga, I. Inza, B. Sierra
(2001). Selection of highly accurate genes for
cancer classification by estimation of
distribution algorithms. Workshop of Bayesian
Models in Medicine (AIME). - I. Inza, B. Sierra, R. Blanco, P. Larrañaga
(2002). Gene selection by sequential search
wrapper approaches in microarray cancer class
prediction. Journal of Intelligent and Fuzzy
Systems.
7Otras líneas aparte de la selección de genes
- Algoritmo K-NN pesado de atributos, búsqueda de
los pesos óptimos. - 3 estados de relevancia en genes underexpressed,
baseline, overexpressed. - Redes Genéticas
- Dimensionalidades ingentes ? Red Bayesiana?
- Red Bayesiana con simplificaciones número
máximo de padres... Aproximaciones por bootstrap. - CAUSALIDAD ? en vez de atacarlo directamente,
se plantea estudiar las propiedades de las
relaciones - Relaciones de padre hijo o esposos fuertes.
- Gen que media la relación directa entre otros
dos CI(X,YZ) - Activar / Inhibir influencia directa de uno de
los padres al mantener los valores de los demás
fijos. - Detección de subredes funcionales.
8Referencias de interés
- Congresos
- CAMDA Critical Assesment of Microarray Data
Analysis - ISMB International Symposium on Molecular
Biology - Revista Bioinformatics
- Lugares web
- Stanford Genomic Resources ? Stanford Microarray
Database - http//www.gene-chips.com/
- Hebrew University (N. Friedman, D. Peer, I.
Nachman...) - Tel Aviv University (R. Shamir)
- Human Genome Working Draft http//genome.ucsc.edu