Title: Minera
1Mineração de Dados no Transtorno Afetivo Bipolar
- Rogerio Salvini
- rogeriosalvini_at_inf.ufg.br
2Tópicos
- Mineração de dados/KDD
- Programação Lógica Indutiva (ILP)
- Aplicações
3KDD
- Na realidade, Mineração de Dados é parte de um
processo maior, chamado Descoberta de
Conhecimento em Bases de Dados (KDD) - apesar de
alguns autores utilizarem o termo
intercambiavelmente. - KDD é o processo não-trivial de identificar em
dados padrões que sejam válidos, novos
(previamente desconhecidos), potencialmente úteis
e compreensíveis, visando melhorar o entendimento
de um problema ou um procedimento de tomada de
decisão.
4KDD
- O processo de KDD é interativo, iterativo,
cognitivo e exploratório, envolvendo vários
passos com muitas decisões sendo feitas pelo
analista (que é um especialista do domínio dos
dados, ou um especialista de análise dos dados) - compreender o domínio
- preparar o conjunto dos dados
- descobrir padrões (mineração de dados)
- pós-processar os padrões descobertos, e
- implantação do conhecimento descoberto.
5KDD
6Mineração de Dados
- Mineração de dados (DM) é a etapa responsável
pela seleção dos métodos a serem utilizados para
localizar padrões nos dados, seguida da efetiva
busca por padrões de interesse numa forma
particular de representação, juntamente com a
busca pelo melhor ajuste dos parâmetros do
algoritmo para a tarefa em questão.
7Mineração de Dados
- DM utiliza técnicas e algoritmos de diferentes
áreas do conhecimento, principalmente
Inteligência Artificial (especialmente
Aprendizagem de Máquina), Banco de Dados
(recursos para manipular grandes bases de dados)
e Estatística.
8Aprendizado de máquina
- Área da Inteligência Artificial que estuda
métodos computacionais para adquirir novos
conhecimentos de forma automática - Um sistema de Aprendizado de Máquina (ML) é um
programa de computador que toma decisões baseado
em experiências acumuladas contidas em casos
resolvidos com sucesso - Esses casos constituem o conjunto de exemplos de
treinamento fornecidos ao algoritmo de aprendizado
9Aprendizado supervisionado
- No aprendizado supervisionado é fornecido ao
algoritmo de aprendizado um conjunto de exemplos
de treinamento descritos por um vetor de valores
de características, ou atributos, e pelo rótulo
da classe associada - Baseado no conjunto de treinamento o algoritmo de
aprendizado induz a classificação de uma hipótese
capaz de determinar corretamente a classe de
novos exemplos ainda não rotulados
10Linguagens de descrição
- Ao solucionar problemas com o uso do computador,
é importante definir como traduzi-los em termos
computacionais - Linguagens de descrição são necessárias para
descrever exemplos, hipóteses e conhecimento do
domínio - Em geral, essas linguagens podem ser divididas em
dois tipos - Baseada em atributo-valor ou proposicional
- Relacional
11Linguagens de descrição
- O formato atributo-valor é a linguagem de
descrição de objetos mais frequentemente
utilizada em ML - Objetos, ou exemplos, são descritos em termos de
atributos e valores desses atributos, por meio de
um vetor, contendo valores para os atributos de
um determinado exemplo e um rótulo que atribui
uma classe ao exemplo
12Linguagens de descrição
- A descrição relacional é baseada na Linguagem de
Primeira Ordem da Lógica Clássica - Objetos são descritos em termos de seus
componentes e relações entre esses componentes - Principais características
- Alta expressividade para representar conceitos
- Capacidade de representação do conhecimento do
domínio (background knowledge) - Sistemas de aprendizado relacional
- Programação Lógica Indutiva (ILP)
13Programação Lógica Indutiva
- Programação Lógica Indutiva (ILP) é uma área de
interseção de pesquisas entre Aprendizado de
Máquina e Programação Lógica - ILP traz duas grandes vantagens
- produz classificadores que são de fácil
entendimento por especialistas - consegue resolver problemas de aprendizado
multi-relacional
14Programação Lógica Indutiva
- Sistemas ILP têm sido usados com sucesso na
extração de modelos relacionais de dados em áreas
como - Bioinformática
- Engenharia
- Processamento de Linguagem Natural
- Meio Ambiente
- Engenharia de Software
- Aprendizado de Padrões e Link Discovery
- Alias Identification
15Programação Lógica Indutiva
- Dados
- um conjunto de exemplos positivos,
- um conjunto de exemplos negativos,
- a descrição destes exemplos (BK), e
- um conjunto de restrições que define a forma como
um classificador deve ser construído - Produzir um classificador representado em Lógica
de Primeira Ordem, que prove todos os exemplos
positivos e nenhum exemplo negativo
16Trens de Michalski
- A tarefa é encontrar uma regra capaz de predizer,
dada as propriedades dos seus vagões, se o trem
está viajando para Leste
17Trens de Michalski
- Conhecimento prévio (BK)
- has_car(east1,car_11).
- shape(car_11,rectangle).
- open_car(car_11).
- long(car_11).
- load(car_11,rectangle,3).
- wheels(car_11,2).
- has_car(east1,car_12).
- short(car_12).
- closed(car_12).
- ...
- short(car_14).
18Trens de Michalski
- Exemplos positivos
- eastbound(east1)
- eastbound(east2)
- eastbound(east3)
- eastbound(east4)
- eastbound(east5)
- Exemplos negativos
- eastbound(west6)
- eastbound(west7)
- eastbound(west8)
- eastbound(west9)
- eastbound(west10)
19Trens de Michalski
- eastbound(A) -
- has_car(A,B), short(B), closed(B).
20Relação filha
- Um exemplo relacional simples é o aprendizado da
relação filha(A,B), que estabelece que uma pessoa
A é filha da pessoa B, em termos do conhecimento
prévio das relações feminino e progenitor.
21Relação filha
Conhecimento prévio (BK) progenitor(ana,maria)
feminino(ana) progenitor(ana,jose)
feminino(maria) progenitor(jose,carol)
feminino(carol) progenitor(jose,carlos)
- Exemplos positivos
- filha(maria,ana)
- filha(carol,jose)
- Exemplos negativos
- filha(jose,ana)
- filha(carol,ana)
22Relação filha
- Assim, é possível induzir a seguinte hipótese
- filha(A,B) -
- feminino(A), progenitor(B,A).
- que é interpretada como
- A é filha de B se A é do sexo feminino e B é
progenitor de A.
23Protein
- Predizer quais genes codificam para proteínas
envolvidas no metabolismo. - Conhecimento prévio do gene G235580
- chromosome('G235580','11')
- complex('G235580','Respiration chain complexes')
- essential('G235580','Non-Essential')
- interaction('G235580','G236280','Physical',
'0.342639674') - motif('G235580','PS00504')
- phenotype('G235580','"Auxotrophies, carbon and"')
24Protein
- Cláusula saturada do exemplo
- metabolism(G235580)
- bottom clause
- metabolism(A) -
- essential(A,'Non-Essential'),
complex(A,'Respiration chain complexes'),
phenotype(A,'"Auxotrophies, carbon and"'),
motif(A,'PS00504'), - chromosome(A,'11'), interaction(A,B,C,D),
essential(B,'Non-Essential'), intertype(C,'Physica
l'), - phenotype(B,'"Auxotrophies, carbon and"'),
chromosome(B,'2'), interaction(B,E,C,G),
interaction(B,A,C,D), - interaction(B,F,C,H), essential(E,'Non-Essentia
l'), essential(F,'Non-Essential'),
complex(E,'Respiration chain complexes'), - complex(F,'Respiration chain complexes'),
phenotype(E,'"Auxotrophies, carbon and"'),
motif(E,'PS00197'), motif(F,'PS01000'), - chromosome(E,'12'), chromosome(F,'11'),
interaction(E,B,C,G), interaction(F,B,C,H). - literals 25
25Protein
- Regra gerada
- metabolism(A) - phenotype(A,'"Auxotrophies,
carbon and"'), interaction(A,B,_,_),
essential(B,'Non-Essential'), chromosome(B,'4'). - que pode ser interpretada como
- O gene A está envolvido no metabolismo se
- A tem fenótipo "Auxotrophies, carbon and" e
- A interage com um gene B e
- B não é essencial e
- B está no cromossomo 4
26Mamografias
- Banco de dados relacional real de mamografias,
extraída do "National Mammography Database" (NMD)
americano em um trabalho conjunto com a
Universidade de Wisconsin-Madison - 47669 exames de 18270 pacientes
- 435 anormalidades malignas e 65365 anormalidades
benignas num total de 65800 exemplos - Tarefa predizer se uma anormalidade é maligna
27Breast Imaging Reporting and Data System(BI-RADS)
Categoria Significado
BI-RADS 0 Necessita imagem adicional
BI-RADS 1 Negativo
BI-RADS 2 Benigno
BI-RADS 3 Provavelmente benigno
BI-RADS 4 Suspeito
BI-RADS 5 Altamente sugestivo de malignância
28Glossário BI-RADS(43 descritores organizados
hierarquicamente)
29Mamografias
- O sistema ILP gerou várias regras, de onde um
radiologista especialista identificou duas
potencialmente interessantes. - Estas regras foram
30Regra 1
- is_malignant(A) -
- 'BIRADS_category'(A,b5), 'MassPAO'(A,present),
- 'Age'(A,age6570),
- previous_finding(A,B,C), 'MassesShape'(B,none),
- 'Calc_Punctate'(B,notPresent),
- previous_finding(A,C), 'BIRADS_category'(C,b3).
31Regra 1
- Esta regra declara que se um achado (A) era
- classificado como BI-RADS 5,
- tinha uma massa presente
- em um paciente que
- tinha idade entre 65 e 70
- tinha duas mamografias anteriores (B, C)
- e a mamografia anterior (B)
- não tinha forma de massa descrita
- não tinha calcificações pontuadas
- e a mamografia anterior (C)
- foi classificada como BI-RADS 3
- então ele é maligno.
32Regra 1
- Esta regra é interessante pois ela acha um
relacionamento entre um achado malígno em um
paciente que teve uma anormalidade anterior
julgada como provavelmente benigna. - Isto pode representar um atraso no diagnóstico se
a anormalidade interpretada como provavelmente
benigna corresponde à achada depois diagnosticada
como câncer.
33Regra 2
- is_malignant(A) -
- 'BIRADS_category'(A,b5),
- 'MassPAO'(A,present),
- 'MassesDensity'(A,high),
- 'HO_BreastCA'(A,hxDCorLC),
- in_same_mammogram(A,B),
- 'Calc_Pleomorphic'(B,notPresent),
- 'Calc_Punctate'(B,notPresent).
34Regra 2
- Esta regra declara que se o achado (A) era
- classificado como BI-RADS 5,
- tinha uma massa presente
- tinha uma massa com alta densidade
- em um paciente que
- tinha um histórico anterior de câncer de mama
- tinha um achado extra na mesma mamografia (B)
- e o achado extra (B)
- não tinha microcalcificações pleomórficas
- não tinha calcificações pontuadas
- então ele é maligno.
35Regra 2
- Esta regra é interessante pois ela acha um
relacionamento entre malignância e alta densidade
de massas. - Em geral, densidade de massa não tinha sido
anteriormente pensada como sendo uma
característica altamente preditiva.
36Transtorno Afetivo Bipolar (TAB)
- Projeto PROMAN
- Dados longitudinais de 150 pacientes
Masculino Feminino TOTAL
TAB I 70 (88,6) 147 (89,1) 217 (88,9)
TAB II 9 (11,4) 18 (10,9) 27 (11,1)
Total 79 (100) 165 (100) 244 (100)
37Transtorno Afetivo Bipolar (TAB)
- Dados Iniciais 284 variáveis
- sócio-demográficas
- história clínica geral
- história clínica TAB
- SCID comorbidade psiquiátricas (atual e
passado) - avaliação de estado do humor (depressão e mania)
- qualidade de vida
- Dados de Seguimento
- 36 variáveis categóricas de estado de humor
DSMV depressão, mania, categoria do episódio,
medicamentos fármaco e dose - Escala de depressão do humor HAMILTON (17, 21 e
31 itens escores de 0-4 0-2) - Escala de Mania YOUNG (11 itens 0-8 0-4)
- Critérios do DSM-IV
- Conduta
38(No Transcript)
39(No Transcript)