Title: Agr
1Agrégation dalarmes faiblement structurées
- Alexandre Vautier, Marie Odile Cordier,Mireille
Ducassé et René Quiniou
2Normalisation des alarmes (1/6)Contexte
clients
alarmes
Concentrateur VPN Composant réseau chargé de
gérer des connexions VPN
Journal dalarmes
connexions
Date Type Autres champs (client message)
05/09/2004231102.750 IKE/24 80.13.14.15 Received local Proxy Host data in ID Payload Address 85.75.65.55, Protocol 17, Port 0
05/09/2004231228.500 IKE/41 IKE Initiator Rekeying Phase 2, Intf 2, IKE Peer 81.71.61.51 local Proxy Address 85.75.65.55, remote Proxy Address 81.71.61.51, SA (WindowsServer1)
. plus dun million dalarmes
3Problématique
Représentation
Journal dalarmes
Interactivité incrémentale
Aider lopérateur à exprimer ses
connaissances Extraire un résumé du journal
Opérateur
Processus dextraction des connaissances
4Plan
- Introduction
- Un exemple concret
- Les 3 étapes du processus
- Normalisation
- Agrégation
- Généralisation
- Perspectives
- Conclusion
5Normalisation
Date Type Attributs
0 A paul, server1
2 C paul, 0x10
9 A pierre, server1
11 C pierre,0x11
45 B 0x11, 44
46 B 0x11, 112
47 D server1, 0x11, pierre
68 B 0x10, 54
70 B 0x10, 40
102 E 0x10, 486A14FE
Modèles de normalisation
6Agrégation
0 A paul, server1
2 C paul, 0x10
Date Type Attributs
0 A paul, server1
2 C paul, 0x10
9 A pierre, server1
11 C pierre,0x11
45 B 0x11, 40
46 B 0x11, 112
47 D server1, 0x11, pierre
68 B 0x10, 54
70 B 0x10, 40
102 E 0x10, 486A14FE
9 A pierre, server1
11 C pierre,0x11
45 B 0x11, 40
46 B 0x11, 112
47 D server1, 0x11, pierre
paramètres
68 B 0x10, 54
70 B 0x10, 40
102 E 0x10, 486A14FE
7Généralisation
Modèles de transaction
Type Attributs
t1 A m,n
C m,o
t2 B p,q
B p,r
D s,p,t
t3 B u,v
B u,w
t4 E x,y
0 A paul, server1
2 C paul, 0x10
9 A pierre, server1
11 C pierre,0x11
45 B 0x11, 40
46 B 0x11, 112
47 D server1, 0x11, pierre
m 2 nserver1 o0x1? y
0 t1 mpaul, nserver1, o0x10
9 t1 mpierre, nserver1, o0x11
45 t2 p0x11, q40, r112, sserver1, tpierre
68 t3 u0x10, v54, w40
102 t4 x0x10, y486A14FE
68 B 0x10, 54
70 B 0x10, 40
102 E 0x10, 486A14FE
8Construction des connexionsperspectives
0 t1 mpaul, nserver1, o0x10
9 t1 mpierre, nserver1, o0x11
45 t2 p0x11, q40ms, r112, sserver1, tpierre
68 t3 u0x10, v54, w40
102 t4 x0x10, y486A14FE
Connexion paul
Connexion pierre
0 t1 mpaul, nserver1, o0x10
9 t1 mpierre, nserver1, o0x11
45 t2 p0x11, q54, r40, sserver1, tpierre
68 t3 u0x10, v40, w112
102 t4 x0x10, y486A14FE
construction de modèles de connexions
9Normalisation des alarmes
- But uniformiser la représentation des alarmes
- Problème message faiblement structuré
- Solution extraction dune liste dattributs à
partir des messages - Contrainte A un type dalarme correspond une
liste de types dattribut.
10Exemple de normalisation dalarmes
- Par signature dattribut
- Par signature dalarme
Nombres décimaux
Expressions régulières Message Message
normalisé
Nombres hexadécimaux
No answer from handle number 0x11 after 40ms
0x11, 40
Expression régulière Message Message
normalisé
Attribution of handle (Nombre hexadécimal) to
user (chaîne de caractères)
Attribution of handle 0x11 to user pierre
0x11, pierre
11Normalisation des alarmes (3/6)Méthode
Journal
Journal normalisé
Signatures dattibut (nombres - base 10 ou 16)
Signatures dalarme
12Normalisation des alarmes (4/6)Signature
dattribut
- Définition expression régulière représentant la
forme dun attribut à extraire dans le message
dune alarme. - Moyen dintroduire des connaissances
approximatives sur le journal par lopérateur - Exemples
- Adresse IP 250-520-40-901?0-90-9?
)\.)3 250-520-40-901?0-90-9 - Nom dutilisateur User\s\(\w)\
13Normalisation des alarmes (5/6)Signature
dalarmes
- Sous la forme dexpressions régulières
- Propre à un type dalarme
- Résultat et paramètre de la normalisation.
- Synthèse et spécification de la façon dont les
attributs sont extraits pour un type dalarme
donné. - Moyen dexprimer les connaissances précises de
lopérateur - Utile pour des messages très variables
14Normalisation des alarmes (6/6)Étude de cas -gt
plus graphique !!
- 1.262.117 dalarmes du journal du concentrateur
VPN (1 mois de fonctionnement) - 4 signatures dattributs présents à la première
extraction automatique - 4 extractions automatiques
- Ajout de 3 signatures dattribut
- 37 signatures générées ont du être modifiées et
utilisées pour lextraction
15Agrégation des alarmes (1/4)
- Propriétés du journal des transactions
identiques de types dalarme apparaissent dans le
journal. - ) propriété permettant de synthétiser
linformation. - Problème déterminer quelles transactions sont à
extraire. - Les alarmes dune transaction partagent des
valeurs dattribut identique. - Solution corréler les valeurs des attributs
pour agréger des alarmes proches dans le temps en
transactions primitives puis analyser ces
transactions.
16Agrégation des alarmes (2/4)Corrélation
relationnelle
- Deux alarmes sont corrélées si
- Elles partagent au moins na attributs identiques.
- Et si le délai qui les sépare est inférieur à
maxGap. - Une alarme a est agrégée à une transaction T si
il existe une alarme b de T corrélée à lalarme
a. - Les paramètres maxGap et na sont donnés a priori
par lopérateur - Lagrégation donne un aperçu rapide.
- Pour des paramètres donnés et un journal donné,
Il existe une unique façon dagréger les alarmes
17Agrégation des alarmes (4/4)Influence du
paramètre maxGap
na 1
maxGap
Date Type Attributs
0 A paul, server1
2 C paul, 0x10
9 A pierre, server1
11 C pierre,0x11
45 B 0x11, 40
46 B 0x11, 112
47 D server1, 0x11, pierre
68 B 0x10, 54
70 B 0x10, 40
102 E 0x10, 486A14FE
2 9 23 32 34
Empêcher la corrélation entre attributs non
pertinents
18Organisation des transactions (1/6)
- Généralisation des transactions primitives sous
la forme de modèles de transaction dans un espace
muni dune relation dordre. - But organiser linformation afin de mieux la
compresser relativement aux connaissances de
lopérateur - Moyen
- Visualisation des transactions et modifications
par lopérateur - Méthodes automatiques (règles dassociations)
19 Organisation des transactions (2/6) Modèle de
transaction
- Un modèle dalarme Alarme sans date dont les
attributs sont remplacés par des variables. Le
type reste inchangé. - Une variable possède un type et son domaine est
contraint. - Exemple
- Alarme 47 D server1, 0x11, pierre
- Modèle dalarme D a,b,c
- Variables as 2 , bi 2 0x00..0xFF, cs 2
- Un modèle de transaction Séquence de modèles
dalarme associés à leurs variables. - Un modèle de transaction (resp. alarme) couvre
des transactions (resp. alarmes) appelées ses
instances.
20Organisation des transactions (4/)Représentation
B u,v
B u,w
ui0x1?, vi, wi
D x,y,z
xs, yi0x10, zs
t4
t3
B p,q
B p,r
D s,p,t
pi, qi, ri, ss, ts
t2
21Organisation des transactions (4/6)Relation
dordre partiel
- Relation sur les modèles dalarme
- Une alarme Ag est plus général quune alarme As
ssi - Leurs types sont identiques
- les domaines des variables de As sont plus
contraints ou égaux à ceux de Ag - Relation sur les modèles de transaction
- Une transaction Tg est plus générale quune
transaction Ts - intuition toutes les alarmes de Tg sont dans
Ts - ssi Il existe un appariement entre toutes les
alarmes de Tg et des alarmes de Ts respectant le
relation dordre sur les alarmes.
22Organisation des transactions (5/6)Étude de cas-1
- Effectuée sur les 5000 premières alarmes du
journal - Maxgap 10s et na 1
- Construction de 628 transactions primitives
généralisées par 81 modèles de transactions.
23Organisation des transactions (6/6)Étude de cas-2
- Un modèle de transaction de 8 alarmes couvre 41
des alarmes du journal - 80 des modèles générés nont quune seule
instance dans le journal
24Perspectivesmodifications des transactions
- Modifications des transactions
- par fusion/découpage
- par addition de corrélations statistiques
- règles dassociations entre transactions
- manuelles puis automatiques (opérateur)
- analyse des variables (en post-traitement)
25Perspectiveamélioration de la normalisation
- Inférence grammaticale pour extraire les
attributs - Pas super important car la tache nest pas lourde
actuellement
26Perspectives (1/2) Caractérisation des attributs
- Des transactions primitives sont construites à
partir dattributs inintéressants (date,
serveur) - Classification des attributs en
- Identifiant de connexion/transaction
- Paramètres
- Classification manuelle puis automatique
(technique dapprentissage)
27Agrégation dalarmes faiblement structurées
Conclusion
- Données en nombre et faiblement structurées.
- Techniques simples mises en œuvres sur des
données réelles. - Toujours assisté, lopérateur contrôle la chaîne
de processus afin quelle lui fournisse une
représentation du journal. - Acquisition de connaissances par lexpert tout
au long du processus dextraction ? manipulation
seule des résultats
28Agrégation dalarmes faiblement structurées
Alexandre Vautier, Marie Odile Cordier,
Mireille Ducassé et René Quiniou
- Processus interactif dassistance à lexpression
et à lextraction des connaissances
MERCI !
alexandre.vautier_at_irisa.fr
29- Soient deux modèles dalarmes Ag et As. Ag est
plus général que As , Ag.type As.type et 8
vg 2 Ag, 9 vs 2 As, dom(vs) 2 dom(vg)
30Normalisation des alarmes (2/7)Problématique
Extraction assistée (par lopérateur) des
attributs
Date Type Liste dattributs
Date Type Champs
texte
Caractéristique essentielle pour un type
dalarme donné, seuls les attributs changent dans
le message normalement
- Quels attributs ? - Quelles sont mes
connaissances sur la structure des alarmes ?
31Problématique
Un journal dalarmes
processus
Résumé
- Caractéristiques
- compréhensible par lopérateur (taille et
sémantique) - perd le moins possible dinformations par
rapport au journal sous la forme de séquences
de modèle dalarme - basé sur des corrélations relationnelles entre
alarmes
Caractéristiques alarmes datées, typées
faiblement structurées, en grand nombre et
implicitement liées à un contexte
Résultats intermédiaires
Connaissances
Opérateur
32Problématique
- Les données un journal composées dalarmes qui
sont - datées, typées et faiblement structurées
(essentiellement du texte) - en grand nombre ( gt 1.000.000 )
- Un opérateur avec peu de connaissances sur le
journal et sans question précise - Quelles connaissances extraire du journal ?
- Ya-t-il eu des attaques (dans un contexte
réseau) ?
33Normalisation des alarmes (3/6)Méthode
Signatures dattribut Signatures dalarme
Journal
Extraction automatique
Signatures dalarmes
Journal normalisé