Traitement Automatique du Langage : vers lintgration - PowerPoint PPT Presentation

1 / 41
About This Presentation
Title:

Traitement Automatique du Langage : vers lintgration

Description:

Fr d ric Foussier : au-del du discours commercial, les r alit s des ... Pas besoin de linguistique pour faire du TAL. Notre soft est compl tement ind pendant de ... – PowerPoint PPT presentation

Number of Views:198
Avg rating:3.0/5.0
Slides: 42
Provided by: christine243
Category:

less

Transcript and Presenter's Notes

Title: Traitement Automatique du Langage : vers lintgration


1
Traitement Automatique du Langage vers
lintégration
  • Le point de vue dun intégrateur sur les
    technologies du TAL

2
1. Mots et Merveilles
  • Frédéric Foussier au-delà du discours
    commercial, les réalités des fonctions offertes

3
de la sémantique ? bien sûr!
Notre soft est complètement indépendant de la
langue
Pas besoin de linguistique pour faire du TAL
Résumé et classification sont entièrement
automatisés
Nous gérons le multilingue en natif
Cest un produit intelligent qui comprend
véritablement la question
Lintervention de lutilisateur nest pas
nécessaire, même si elle reste bien sûr possible
4
Notre objectif
  • Étudier ce qui se cache derrière le discours
    commercial
  • Parce que lon constate quon (nous) vend du TAL
    sans en faire!
  • 2 catégories de vendeurs
  • Les positifs
  •  le TAL, cest bien pour vendre, donc jen
    fais 
  • Les négatifs
  •  le TAL, cest connoté cher et compliqué, donc
    je fais mieux sans 

5
Les positifs
  • ou ceux qui disent quils en font

6
 Ca corrige vos fautes dorthographe 
  • Les questions à poser
  • Quels types de fautes ?
  • Fautes de frappe (lexique)
  • Fautes de français (ou danglais ou de quelle
    autre langue?)
  • Fautes daccord (grammaire)
  • Fautes de syntaxe
  • Le correcteur orthographique est-il dépendant de
    la langue?
  • Comment cela fonctionne-t-il?
  • En comparant par rapport aux entrées dune liste
    de mots?
  • En calculant la grammaire à la volée pour les
    fautes daccord?
  • Intégrable sur le traitement de texte? la
    messagerie? la base de données?

7
 Vous dictez, il écrit 
  • Les questions à poser
  • Dépendant ou indépendant du locuteur?
  • Durée dapprentissage?
  • Langue prise en compte?
  • Tolérance aux accents régionaux? nationaux?
  • ex. canadien pour le FR ou australien pour ENG?
  • Taux de reconnaissance?
  • Ar-ti-cu-la-ti-on lenteur de lélocution
    obligatoire?
  • Et, surtout, pour qui?
  • Voyants ou non-voyants? Secrétaires ou cadres?
  • Pourquoi ne pas apprendre à taper plutôt que de
    perdre son temps à corriger les erreurs de
    transcription?

8
plus besoin de données structurées
  • Les questions à poser
  • Est-ce à dire
  • plus besoin de tables? de vues? (SGBD-R)
  • Quoi à la place ? SGML? HTML ? XML?
  • Mais alors cela implique
  • des index multi-champ?
  • des interrogations multi-bases?
  • En fait, comment faut-il structurer le
    plein-texte?

9
Pas besoin de connaître la base pour trouver
  • Les questions à poser
  • Les questions à poser
  • Comment permet-il de saffranchir de cette
    connaissance? En utilisant un   bon  moteur de
    recherche ? Des taxonomies?
  • Quest-ce quun  bon moteur de recherche?
  • Celui qui vous remonte le plus possible (au
    risque de remontées non pertinentes) taux de
    rappel élevé
  • Celui qui vous remonte le plus ciblé (au risque
    de pertes dans les remontées) taux de précision
    élevé
  • Ne faut-il pas choisir (finalement) entre rappel
    et précision?
  • Dans le cas où le rappel est bas, y-a-t-il
    reformulation automatique (élargissement) pour
    obtenir un meilleur taux de rappel)? Dans le cas
    où la précision est basse, comment mesure-t-on
    une précision basse?

10
cest du texte libre
  • Les questions à poser
  • Libre jusquoù?
  • Booléen retraduit?
  • SQL?
  • Langage naturel?
  • Gestion des composés (ex  chemin de fer )
    automatique (sans séparateurs tels que )
  • Gestion des adverbes / adjectifs
  • Élimination des mots vides? Comment ?
  • Vraie question ( telle quon la poserait à une
    documentaliste)?
  • quelle a été la nature des liens entre la ville
    de A et lindustrie du caoutchouc au début des
    années 40?

11
il comprend le sens
  • Les questions à poser
  • Il ne sarrête donc pas aux mots-mêmes, mais il
    est capable de gérer des concepts? Il y a donc
    un dictionnaire de synonymes? ou une manière
    quelconque de saffranchir du signifiant (au
    profit du signifié)?
  • Ne dois-je pas pouvoir obtenir des documents qui
    ne contiennent pas nécessairement les mêmes
    termes que ceux que jutilise dans la requête? Si
    ce nest pas le cas, en quoi comprend-t-il le
    sens?

12
ça fonctionne, quelle que soit la langue
  • Extrait dun petit argumentaire de salon
  • -  Quelle que soit la langue  dites-vous? ça
    fonctionnerait avec le urdu?
  • - Oui
  • - Mais, vous avez un dictionnaire durdu?
  • - Non, pas besoin!
  • - Mais alors comment cela fonctionne-t-il?
  • - En fait, il travaille sur les chaînes de
    caractères
  • - Ah oui, donc, en fait, il faudrait dire ça
    fonctionne parce que ça ne travaille pas au
    niveau du sens, ni du mot, mais à celui du
    caractère
  • Oui, cest tout à fait ça, mais ...cela ne
    revient-il pas au même?

13
Il traduit le sens 
  • Les questions à poser
  • Est-ce par appariement simple de termes?
  • chemin ltgt path, road, etc.
  • Si oui, comment choisit-il parmi les n
    traductions possibles?
  • Le premier dans la liste?
  • Le plus fréquent dans le corpus (le plus
    fréquemment indexé?) Si oui, comment?
  • Est-ce significatif (cela présuppose que le terme
    le fréquent est le approprié gt vers
    lappauvrissement généralisé)
  • Comment gère-t-il les composés?
  • Groupe nominaux tels que
  • chemin de fer ? iron path ?
  • Groupes verbaux tels que
  • bring something about ? porter à propos de ?

14
Il traduit le sens  (suite)
  • Les questions à poser
  • Il ne traduit pas les mots plutôt? (traduction
    littérale)
  • Sil ne fait pas de traduction mot à mot, comment
    traduit-il  intelligemment ?
  • Parle-t-on ici de multilinguisme également?
  • De combien de paires de langue à combien de
    paires?
  • Traduction de la requête? de la base?
  • Choix entre les traductions possibles?
  • manuel (semi-automatique) ? par statistiques ?
  • par enchaînement des analyseurs (
    morpho-lexical, syntaxique, sémantique)
  • par réseaux de neurones (apprentissage)

15
il classe automatiquement vos items
  • Les questions à poser
  • Quel est le classement opéré? Comment créé-t-il
    les catégories?
  • Le libellé des catégories est-il nécessairement
    issu des mots du corpus? Sinon, cela
    implique-t-il lutilisation dun pdc externe?
    Comment seffectue dès lors le matching corpus /
    pdc externe?
  • Comment crée-t-il les sous-catégories?
  • Comment calcule
  • la hauteur (nombre de descripteurs maîtres c.a.d.
    catégories de niveau 1) ?
  • la profondeur (nombre de niveaux  sous  un
    descripteur maître) ?
  • la meilleure proportion entre hauteur et
    profondeur ?

16
 il classe automatiquement vos items  (suite)
  • Les questions à poser
  • Jusquoù va lautomatisation?
  • Quelle est la part d  affinage  manuel?
  • Classe-t-il daprès un plan de classement
    existant? ou construit-il un plan de classement
    dynamique?
  • Comment évolue le pdc en fonction des mises à
    jour?
  • Y-a-t-il une re-catégorisation automatique à
    chaque maj.?
  • Sinon, à partir de combien ditems
    supplémentaires y-a-t-il re-calcul?
  • Comment peut-on juger de la pertinence du
    classement?

17
Les négatifs
  • ou ceux qui disent quils font aussi bien (voire
    mieux) avec moins et moins cher

18
Quand on a ça, pas la peine dacheter du TAL
  • Les questions à poser
  • Comment imitez-vous le TAL? ou
  • Comment faites-vous pour faire mieux (ou
    seulement aussi bien) ?
  • Sans dictionnaire?
  • Sans correcteurs?
  • Sans moteurs dindexation? de recherche?
  • Sans plein-texte?
  • Etc.
  • En fait, de quelle partie exactement vous
    passez-vous?
  • Pour quelle raison?
  • Manque defficacité de la technologie ?
  • Coûts de développements trop chers ?

19
XML, cest quand même plus simple
  • Les questions à poser
  • En quoi est-ce plus simple? À lexploitation? A
    laffichage?
  • Mais, par exemple, est-ce plus simple à la
    recherche?
  • Comment seffectue le  tagging ?
  • avec une typologie de 50 documents différents?
  • Puis-je effectuer une vraie recherche de contenu
     question réponse  (et non une recherche
    requête documents résultats)?

20
Conclusion en forme de clin d
  • Méfiez-vous du Tout A LEgout
  • Laissez le TAL aux spéTiAListes

21
2. La quête du TAL
  • Christine Reynaud émergeant dune offre
    confuse, le TAL trouve de nouveaux
    différenciateurs.

22
Vous faites du TAL ?
Du QUOI ??
Ah, oui des logiciels de traduction !
Le TAL ça ne marche pas, il suffit de voir les
traducteurs automatiques ou les correcteurs
grammaticaux un enfant de 5 ans ferait mieux !
Cest bien joli, mais il faut au moins un
doctorat de linguistique pour maintenir les bases
de connaissances
Oui, cest vraiment intéressant, mais chez nous
il y a tant dautres priorités
23
Le TAL, ça sert à quoi ?
Contenus non-structurés
Référentiels documentaires
Référentiels métier
24
Une brique dans une application
  • Recherche documentaire avancée
  • Multilinguisme traduction, cross-language
    applications
  • Catégorisation Relation client,
    personnalisation, collaboration
  • Hotlines, SVI, FAQ qualification et routage des
    demandes, réponse automatisée (FAQ, courrier)
  • Agents de recherche, abonnements, commerce 1 to 1
    (up/cross-selling)
  • Partage de documents selon profil, travail
    collaboratif
  • Extraction, structuration
  • Reprise de fonds documentaires
  • Veille, CRM analytique
  • Codification assistée dans des référentiels
    métiers (e-commerce, places de marché,
    e-procurement, déclarations administratives)

25
Une interface dapplicationPlusieurs niveaux de
traitement possibles
Application
Séquence vocale
Charstring
Analyse
Lexies
Morphologie
Recherche Extraction Catégorisation
Termes
Shallow parsing
Concepts et prédicats
Sémantique
Ressources
Dictionnaire Standard lg1
Traduction
Terminologie
Réseau sémantique
26
2 grandes approchesUne même quête du sens
Concept
K ApprentissageConnaissance dynamique
Agrégats, clustering
Un individu statistique entretenant des relations
de corrélation ou de distance avec son contexte
Statistique
Chaîne de caractères
Séquence vocale
Analyse, extraction
Une entité dans un graphe de référence,
entretenant des relations typées avec son contexte
Linguistique
Syntaxe de surface
Morphologie
Sémantique
K Référentiel
27
Quelle différence ?
  • Des différences de technologies peu lisibles pour
    le public
  • Interactions historique des 2 approches
    laboratoires de recherche en TAL
  • Recours aux statistiques généralisées mais tous
    les degrés de mise en oeuvre du TAL,
    fonctionnalités communes
  • Recherche et catégorisation,
  • Résumé,
  • Traduction
  • Des axes dexcellence divergents
  • TAL énoncés courts, analyse, extraction,
    structuration, communautés partageant des
    référentiels relativement stables, applications
    verticales
  • Statistiques agrégation, exploration de grands
    corpus, communautés dynamiques autour de contenus
    mouvants, actualité

28
Une brève histoire du TAL
29
Et aujourdhui ? Désillusion ou maturation ?
Beaucoup dacteurs spécialisés ont disparu mais
  • Des fonctions TAL se sont infiltrées en KM, CRM
  • Routage de requêtes, réponses automatisées
  • Text mining, signaux faibles
  • Le retour des référentiels
  • Catalogues électroniques
  • XML, web sémantique

30
DifférenciateursRecherche Augmenter le rappel
  • Recherche dans des énoncés courts
  • Vocabulaire de la requête absent de la réponse
    attendue
  • Critères de fréquence inopérants

Contrôle d'accès
G07C 9/00 Appareils enregistreurs de l'entrée ou
de la sortie d'une personne isolée G07C 9/02 -
Tourniquets avec moyens d'enregistrement (aspect
déclenchement par pièces de monnaie G07F)
Exemple fourni par Lingway, application pour
lINPI
31
Différenciateurs Recherche Augmenter la
précision
  • Reconnaître un  concept  ne suffit pas toujours
  • Identifier lobjet principal et des modifieurs
    dans un énoncé (prédicats)

Moteur à allumage par étincelles
84253991 Treuils et cabestans, à moteur à
allumage par étincelles ou par compression
  • Identifier les négations ou exclusions

Câpres au vinaigre
20059030 FR Câpres, préparées ou conservées
autrement qu'au vinaigre ou à l'acide acétique,
non congelées
Exemple projet NOMAN SchlumbergerSema/Lingway
pour Eurostat
32
DifférenciateursExtraire linformation 1/2
Saffranchir du document pour analyser
linformation
  • Veille passer de la sélection de documents
    (revue de presse) à une analyse mesurée de
    linformation (évolutions, signaux faibles)

emzm annonce limplantation dune usine
dengrais azotés dans la province de mlxfmq
Le gouvernement mslùqp a signé un contrat
dimportation de cuves de type spmap
33
DifférenciateursExtraire linformation 2/2
Saffranchir du document pour analyser
linformation
Extraire une information et linjecter dans un
référentiel ou une BD
Exemple wrapping fourni par Lingway
34
DifférenciateursStructurer
Identifier la structure sémantique du document
  • Structurer dans un format balisé un document
    non-structuré
  • Veille stockage structuré de linformation
    pertinente
  • Commerce électronique comparer des offres
  • Migration de fonds documentaires vers un format
    balisé

Exemple à suivre
35
Le texte intégral dun brevet, cest lourd à
digérer.
Exemple xml fourni par Lingway
36
Structurer le non-structuré
Exemple xml fourni par Lingway
37
DifférenciateursMultilinguisme
Le réseau sémantique, pivot des données propres
aux langues
  • Homogénéiser les traitements dans des
    applications localisées
  • Applications cross language

En
En
Oil industry
Oil processing
Fr
Industrie pétrolière
Transformation du pétrole
Fr
???????? ??????????????
Ru
Ru
????????????????
K01380
K01405
38
Acteurs
Agrégation
Autonomy
Albert
Part linguistique
Arisem
Part des statistiques
Sinequa
Temis
LexiQuest (SPSS)
Lingway
Analyse, extraction
39
Lintégration une réalitéQuelques références
SchlumbergerSema
  • PSA (Projet Vigie) - LexiQuest
  • Application Veille technologique et
    concurrentielle
  • Prestation Gestion de projet et Intégration
  • France Télécom (Projet Ari_at_Net) LexiQuest,
    Arisem
  • Application Veille technologique et
    concurrentielle
  • Prestation Gestion de projet et Intégration
  • Ministère de la Défense (Projet SICA) - LexiQuest
  • Application KM - système de recherche et de
    filtrage
  • Prestation conseil, (audit de lexistant et
    évaluation de loffre), gestion de projet,
    intégration
  • EUROSTAT (Projet NOMAN) - Lingway
  • Application Codification assistée et
    multilingue de déclarations dans une nomenclature
  • Prestation conseil, gestion de projet,
    conception et prototypage

40
Lintégration leçons apprisesAvant-projet
  • Éditeur / intégrateur un tandem qui gagne
  • Des briques par vocation
  • Les technologies de TAL constituent rarement des
    applications en soi mais des briques dune
    application (KM, CRM)
  • Compréhension des enjeux, processus et
    environnement du client
  • Arbitrage entre les besoins client et le coût des
    solutions TAL
  • Prise en compte des contraintes
    organisationnelles
  • Prise en compte du cadre technologique
  • Lintégrateur rassure
  • Sur la maturité des technologies rôle de
    conseil
  • Sur la capacité de maître duvre dun projet
    dintégration
  • Sur la viabilité du contractant (TAL beaucoup
    de petites sociétés)

41
Lintégration leçons apprisesFacteurs de
succès des projets
  • Sécuriser la recette au plus tôt
  • Anticiper les résultats attendus (maquettes,
    tests)
  • Accorder les moyens nécessaires à lélaboration
    du protocole dévaluation, en interaction
    client/prestataire(s)
  • Prendre les moyens de la maintenance
  • Évaluer au plus tôt la charge de maintenance
  • Spécifier et mettre en oeuvre les solutions
  • Modèle économique de lexploitation et de la
    maintenance
  • Outillage technologique
  • Organisation appropriée
Write a Comment
User Comments (0)
About PowerShow.com