WATSON%20et%20Lingway%20KM - PowerPoint PPT Presentation

About This Presentation
Title:

WATSON%20et%20Lingway%20KM

Description:

D veloppement / adaptation / int gration / g n ralisation d'outils logiciels ... termes fig s , semi-fig s (aident pour la suite) chunks. candidats descripteurs ... – PowerPoint PPT presentation

Number of Views:38
Avg rating:3.0/5.0
Slides: 17
Provided by: jco46
Category:

less

Transcript and Presenter's Notes

Title: WATSON%20et%20Lingway%20KM


1
WATSON et Lingway KM
  • Une intégration doutils dextraction
    dinformation

2
Sommaire
  • 1. Projet WATSON
  • 2. Lingway KM
  • 3. Zoom sur modules Watson intégrés
  • Structuration logique et segmentation en phrases
  • Reconnaissance dentités nommées
  • Extraction de descripteurs de contenu
  • 4. Démonstration

3
1. Projet Watson
Thème "Ressources linguistiques et outils de base"
  • (Web Analyse des Textes, Sélection et Outils
    Nouveaux)
  • Objectifs
  • Développement / adaptation / intégration /
    généralisation d'outils logiciels linguistiques
  • robustesse performance gros volumes
  • Application pilote de pré-filtrage,
    catégorisation et extraction-résumé de pages Web

4
Partenaires Watson
5
Contexte et Applications pilotes
  • Besoin doutils danalyse de sites Web à la BNF
  • notamment le Futur Dépôt légal du Web / Internet
    archive
  • Applications effectuées
  • Expérience de caractérisation de sites Web (cf.
    pb de détection de limportance des sites)
  • Exploration de contenu de sites Web (analyse de
    sites de candidats politiques)
  • Travail en cours entre BNF et Lingway
  • implémentation opérationnelle dun système
    dexploration de sites Web, basé sur Watson et
    LingwayKM

6
Modules Watson
  • Modules
  • Structuration logique et segmentation en phrases
  • Reconnaissance dentités nommées
  • Marquage sémantique (basé sur rhétorique)
  • Taggeur
  • Chunkeur / Extracteur de termes
  • Résolveur de co-référence
  • Résumé
  • Catégorisation

7
2. Lingway KM
8
(No Transcript)
9
gtLapproche Lingway KM
  • Mieux comprendre les documents
  • Ajouter des  méta données  qui décrivent le
    contenu
  • Utiliser ces méta données lors de la recherche
  • Mieux comprendre la question
  • Reconnaître les mots
  • Leur associer des mots sémantiquement voisins
  • Mieux présenter les résultats
  • Montrer les mots qui ont permis de trouver
  • Donner des outils de navigation rapide

10
Chaîne de traitement linguistique des documents
dans LKM
  • Conversion (HTML, Txt, Word, PDF) en XML
  • avec structuration titres, paragraphes et phrases
  • Reconnaissance entités nommées
  • tagging et reconnaissance termes, chunking
  • extraction de candidats descripteurs
  • sélection statistique de descripteurs

11
Reconnaissance dentités nommées
  • Types
  • En standard Personnes, organisations, lieux
  • En version personnalisée auteur, compétences
    (CV) ...
  • Balisage XML des documents

... la journaliste ltPerson fnmFlorence
fctjournalistegt Florence Aubenaslt/Persongt ...
12
Reconnaissance dentités nommées
  • Combinaison de différentes techniques
  • appartenance à liste "PUBLICIS" nom d'un
    organisme
  • contexte linguistique immédiat "la société XYZ
    est"
  • structure linguistique interne
  • "Comité Interministériel dAudit des Programmes"
  • Listes dentités conséquentes
  • différentes listes  concentriques  de prénoms
    de toutes nationalités
  • Plus de 100.000 entreprises
  • 60.000 noms de lieu
  • Alimentation des listes
  • validation stat/manuelle des entités reconnues
    dynamiquement

13
Extraction de descripteurs
  • Entrée texte balisé avec entités nommées
  • Chaîne (intégrée pour perf)
  • tagging (probabiliste règles Brill)
  • cascade dautomates à états finis pour
  • termes figés , semi-figés (aident pour la suite)
  • chunks
  • candidats descripteurs syntagmatiques
  • puis, scoring statistique (à la TF-IDF)
  • intégration de descripteurs syntagmtiques et
    entités nommées pour représentation du contenu
    dun document / dun corpus

14
(No Transcript)
15
Démo Lingway KM
  • http//demo.lingway.com/lkm ...

16
Evaluation
  • personnes
  • bon rappel (gt 90),
  • précision 60, améliorée depuis cette
    évaluation
  • organisations
  • précision 70
  • rappel 50 (cf. citations dentreprises non
    listées, sans marqueurs introductifs)
  • descripteurs syntagmatiques
  • évaluation sur une vingtaine de documents
  • 500 descripteurs retenus sur 2500
  • 2 syntaxiquement faux
  • 5 manifestement non pertinents
  • Confusion entre descripteurs et entités nommées
Write a Comment
User Comments (0)
About PowerShow.com