Title: Traitement Automatique du Langage : vers lintgration
1Traitement Automatique du Langage vers
lintégration
- Le point de vue dun intégrateur sur les
technologies du TAL
21. Mots et Merveilles
- Frédéric Foussier au-delà du discours
commercial, les réalités des fonctions offertes
3de la sémantique ? bien sûr!
Notre soft est complètement indépendant de la
langue
Pas besoin de linguistique pour faire du TAL
Résumé et classification sont entièrement
automatisés
Nous gérons le multilingue en natif
Cest un produit intelligent qui comprend
véritablement la question
Lintervention de lutilisateur nest pas
nécessaire, même si elle reste bien sûr possible
4Notre objectif
- Étudier ce qui se cache derrière le discours
commercial - Parce que lon constate quon (nous) vend du TAL
sans en faire! - 2 catégories de vendeurs
- Les positifs
- le TAL, cest bien pour vendre, donc jen
fais - Les négatifs
- le TAL, cest connoté cher et compliqué, donc
je fais mieux sans
5Les positifs
- ou ceux qui disent quils en font
6 Ca corrige vos fautes dorthographe
- Les questions à poser
- Quels types de fautes ?
- Fautes de frappe (lexique)
- Fautes de français (ou danglais ou de quelle
autre langue?) - Fautes daccord (grammaire)
- Fautes de syntaxe
- Le correcteur orthographique est-il dépendant de
la langue? - Comment cela fonctionne-t-il?
- En comparant par rapport aux entrées dune liste
de mots? - En calculant la grammaire à la volée pour les
fautes daccord? - Intégrable sur le traitement de texte? la
messagerie? la base de données?
7 Vous dictez, il écrit
- Les questions à poser
- Dépendant ou indépendant du locuteur?
- Durée dapprentissage?
- Langue prise en compte?
- Tolérance aux accents régionaux? nationaux?
- ex. canadien pour le FR ou australien pour ENG?
- Taux de reconnaissance?
- Ar-ti-cu-la-ti-on lenteur de lélocution
obligatoire? - Et, surtout, pour qui?
- Voyants ou non-voyants? Secrétaires ou cadres?
- Pourquoi ne pas apprendre à taper plutôt que de
perdre son temps à corriger les erreurs de
transcription?
8plus besoin de données structurées
- Les questions à poser
- Est-ce à dire
- plus besoin de tables? de vues? (SGBD-R)
- Quoi à la place ? SGML? HTML ? XML?
- Mais alors cela implique
- des index multi-champ?
- des interrogations multi-bases?
- En fait, comment faut-il structurer le
plein-texte?
9Pas besoin de connaître la base pour trouver
- Les questions à poser
- Comment permet-il de saffranchir de cette
connaissance? En utilisant un bon moteur de
recherche ? Des taxonomies? - Quest-ce quun bon moteur de recherche?
- Celui qui vous remonte le plus possible (au
risque de remontées non pertinentes) taux de
rappel élevé - Celui qui vous remonte le plus ciblé (au risque
de pertes dans les remontées) taux de précision
élevé - Ne faut-il pas choisir (finalement) entre rappel
et précision? - Dans le cas où le rappel est bas, y-a-t-il
reformulation automatique (élargissement) pour
obtenir un meilleur taux de rappel)? Dans le cas
où la précision est basse, comment mesure-t-on
une précision basse?
10cest du texte libre
- Les questions à poser
- Libre jusquoù?
- Booléen retraduit?
- SQL?
- Langage naturel?
- Gestion des composés (ex chemin de fer )
automatique (sans séparateurs tels que ) - Gestion des adverbes / adjectifs
- Élimination des mots vides? Comment ?
- Vraie question ( telle quon la poserait à une
documentaliste)? - quelle a été la nature des liens entre la ville
de A et lindustrie du caoutchouc au début des
années 40?
11il comprend le sens
- Les questions à poser
- Il ne sarrête donc pas aux mots-mêmes, mais il
est capable de gérer des concepts? Il y a donc
un dictionnaire de synonymes? ou une manière
quelconque de saffranchir du signifiant (au
profit du signifié)? - Ne dois-je pas pouvoir obtenir des documents qui
ne contiennent pas nécessairement les mêmes
termes que ceux que jutilise dans la requête? Si
ce nest pas le cas, en quoi comprend-t-il le
sens?
12ça fonctionne, quelle que soit la langue
- Extrait dun petit argumentaire de salon
- - Quelle que soit la langue dites-vous? ça
fonctionnerait avec le urdu? - - Oui
- - Mais, vous avez un dictionnaire durdu?
- - Non, pas besoin!
- - Mais alors comment cela fonctionne-t-il?
- - En fait, il travaille sur les chaînes de
caractères - - Ah oui, donc, en fait, il faudrait dire ça
fonctionne parce que ça ne travaille pas au
niveau du sens, ni du mot, mais à celui du
caractère - Oui, cest tout à fait ça, mais ...cela ne
revient-il pas au même?
13Il traduit le sens
- Les questions à poser
- Est-ce par appariement simple de termes?
- chemin ltgt path, road, etc.
- Si oui, comment choisit-il parmi les n
traductions possibles? - Le premier dans la liste?
- Le plus fréquent dans le corpus (le plus
fréquemment indexé?) Si oui, comment? - Est-ce significatif (cela présuppose que le terme
le fréquent est le approprié gt vers
lappauvrissement généralisé) - Comment gère-t-il les composés?
- Groupe nominaux tels que
- chemin de fer ? iron path ?
- Groupes verbaux tels que
- bring something about ? porter à propos de ?
14Il traduit le sens (suite)
- Les questions à poser
- Il ne traduit pas les mots plutôt? (traduction
littérale) - Sil ne fait pas de traduction mot à mot, comment
traduit-il intelligemment ? - Parle-t-on ici de multilinguisme également?
- De combien de paires de langue à combien de
paires? - Traduction de la requête? de la base?
- Choix entre les traductions possibles?
- manuel (semi-automatique) ? par statistiques ?
- par enchaînement des analyseurs (
morpho-lexical, syntaxique, sémantique) - par réseaux de neurones (apprentissage)
15il classe automatiquement vos items
- Les questions à poser
- Quel est le classement opéré? Comment créé-t-il
les catégories? - Le libellé des catégories est-il nécessairement
issu des mots du corpus? Sinon, cela
implique-t-il lutilisation dun pdc externe?
Comment seffectue dès lors le matching corpus /
pdc externe? - Comment crée-t-il les sous-catégories?
- Comment calcule
- la hauteur (nombre de descripteurs maîtres c.a.d.
catégories de niveau 1) ? - la profondeur (nombre de niveaux sous un
descripteur maître) ? - la meilleure proportion entre hauteur et
profondeur ?
16 il classe automatiquement vos items (suite)
- Les questions à poser
- Jusquoù va lautomatisation?
- Quelle est la part d affinage manuel?
- Classe-t-il daprès un plan de classement
existant? ou construit-il un plan de classement
dynamique? - Comment évolue le pdc en fonction des mises à
jour? - Y-a-t-il une re-catégorisation automatique à
chaque maj.? - Sinon, à partir de combien ditems
supplémentaires y-a-t-il re-calcul? - Comment peut-on juger de la pertinence du
classement?
17Les négatifs
- ou ceux qui disent quils font aussi bien (voire
mieux) avec moins et moins cher
18Quand on a ça, pas la peine dacheter du TAL
- Les questions à poser
- Comment imitez-vous le TAL? ou
- Comment faites-vous pour faire mieux (ou
seulement aussi bien) ? - Sans dictionnaire?
- Sans correcteurs?
- Sans moteurs dindexation? de recherche?
- Sans plein-texte?
- Etc.
- En fait, de quelle partie exactement vous
passez-vous? - Pour quelle raison?
- Manque defficacité de la technologie ?
- Coûts de développements trop chers ?
19XML, cest quand même plus simple
- Les questions à poser
- En quoi est-ce plus simple? À lexploitation? A
laffichage? - Mais, par exemple, est-ce plus simple à la
recherche? - Comment seffectue le tagging ?
- avec une typologie de 50 documents différents?
- Puis-je effectuer une vraie recherche de contenu
question réponse (et non une recherche
requête documents résultats)?
20Conclusion en forme de clin d
- Méfiez-vous du Tout A LEgout
- Laissez le TAL aux spéTiAListes
212. La quête du TAL
- Christine Reynaud émergeant dune offre
confuse, le TAL trouve de nouveaux
différenciateurs.
22Vous faites du TAL ?
Du QUOI ??
Ah, oui des logiciels de traduction !
Le TAL ça ne marche pas, il suffit de voir les
traducteurs automatiques ou les correcteurs
grammaticaux un enfant de 5 ans ferait mieux !
Cest bien joli, mais il faut au moins un
doctorat de linguistique pour maintenir les bases
de connaissances
Oui, cest vraiment intéressant, mais chez nous
il y a tant dautres priorités
23Le TAL, ça sert à quoi ?
Contenus non-structurés
Référentiels documentaires
Référentiels métier
24Une brique dans une application
- Recherche documentaire avancée
- Multilinguisme traduction, cross-language
applications - Catégorisation Relation client,
personnalisation, collaboration - Hotlines, SVI, FAQ qualification et routage des
demandes, réponse automatisée (FAQ, courrier) - Agents de recherche, abonnements, commerce 1 to 1
(up/cross-selling) - Partage de documents selon profil, travail
collaboratif - Extraction, structuration
- Reprise de fonds documentaires
- Veille, CRM analytique
- Codification assistée dans des référentiels
métiers (e-commerce, places de marché,
e-procurement, déclarations administratives)
25Une interface dapplicationPlusieurs niveaux de
traitement possibles
Application
Séquence vocale
Charstring
Analyse
Lexies
Morphologie
Recherche Extraction Catégorisation
Termes
Shallow parsing
Concepts et prédicats
Sémantique
Ressources
Dictionnaire Standard lg1
Traduction
Terminologie
Réseau sémantique
262 grandes approchesUne même quête du sens
Concept
K ApprentissageConnaissance dynamique
Agrégats, clustering
Un individu statistique entretenant des relations
de corrélation ou de distance avec son contexte
Statistique
Chaîne de caractères
Séquence vocale
Analyse, extraction
Une entité dans un graphe de référence,
entretenant des relations typées avec son contexte
Linguistique
Syntaxe de surface
Morphologie
Sémantique
K Référentiel
27Quelle différence ?
- Des différences de technologies peu lisibles pour
le public - Interactions historique des 2 approches
laboratoires de recherche en TAL - Recours aux statistiques généralisées mais tous
les degrés de mise en oeuvre du TAL,
fonctionnalités communes - Recherche et catégorisation,
- Résumé,
- Traduction
- Des axes dexcellence divergents
- TAL énoncés courts, analyse, extraction,
structuration, communautés partageant des
référentiels relativement stables, applications
verticales - Statistiques agrégation, exploration de grands
corpus, communautés dynamiques autour de contenus
mouvants, actualité
28Une brève histoire du TAL
29Et aujourdhui ? Désillusion ou maturation ?
Beaucoup dacteurs spécialisés ont disparu mais
- Des fonctions TAL se sont infiltrées en KM, CRM
- Routage de requêtes, réponses automatisées
- Text mining, signaux faibles
- Le retour des référentiels
- Catalogues électroniques
- XML, web sémantique
30DifférenciateursRecherche Augmenter le rappel
- Recherche dans des énoncés courts
- Vocabulaire de la requête absent de la réponse
attendue - Critères de fréquence inopérants
Contrôle d'accès
G07C 9/00 Appareils enregistreurs de l'entrée ou
de la sortie d'une personne isolée G07C 9/02 -
Tourniquets avec moyens d'enregistrement (aspect
déclenchement par pièces de monnaie G07F)
Exemple fourni par Lingway, application pour
lINPI
31Différenciateurs Recherche Augmenter la
précision
- Reconnaître un concept ne suffit pas toujours
- Identifier lobjet principal et des modifieurs
dans un énoncé (prédicats)
Moteur à allumage par étincelles
84253991 Treuils et cabestans, à moteur à
allumage par étincelles ou par compression
- Identifier les négations ou exclusions
Câpres au vinaigre
20059030 FR Câpres, préparées ou conservées
autrement qu'au vinaigre ou à l'acide acétique,
non congelées
Exemple projet NOMAN SchlumbergerSema/Lingway
pour Eurostat
32DifférenciateursExtraire linformation 1/2
Saffranchir du document pour analyser
linformation
- Veille passer de la sélection de documents
(revue de presse) à une analyse mesurée de
linformation (évolutions, signaux faibles)
emzm annonce limplantation dune usine
dengrais azotés dans la province de mlxfmq
Le gouvernement mslùqp a signé un contrat
dimportation de cuves de type spmap
33DifférenciateursExtraire linformation 2/2
Saffranchir du document pour analyser
linformation
Extraire une information et linjecter dans un
référentiel ou une BD
Exemple wrapping fourni par Lingway
34DifférenciateursStructurer
Identifier la structure sémantique du document
- Structurer dans un format balisé un document
non-structuré - Veille stockage structuré de linformation
pertinente - Commerce électronique comparer des offres
- Migration de fonds documentaires vers un format
balisé
Exemple à suivre
35Le texte intégral dun brevet, cest lourd à
digérer.
Exemple xml fourni par Lingway
36Structurer le non-structuré
Exemple xml fourni par Lingway
37DifférenciateursMultilinguisme
Le réseau sémantique, pivot des données propres
aux langues
- Homogénéiser les traitements dans des
applications localisées - Applications cross language
En
En
Oil industry
Oil processing
Fr
Industrie pétrolière
Transformation du pétrole
Fr
???????? ??????????????
Ru
Ru
????????????????
K01380
K01405
38Acteurs
Agrégation
Autonomy
Albert
Part linguistique
Arisem
Part des statistiques
Sinequa
Temis
LexiQuest (SPSS)
Lingway
Analyse, extraction
39Lintégration une réalitéQuelques références
SchlumbergerSema
- PSA (Projet Vigie) - LexiQuest
- Application Veille technologique et
concurrentielle - Prestation Gestion de projet et Intégration
- France Télécom (Projet Ari_at_Net) LexiQuest,
Arisem - Application Veille technologique et
concurrentielle - Prestation Gestion de projet et Intégration
- Ministère de la Défense (Projet SICA) - LexiQuest
- Application KM - système de recherche et de
filtrage - Prestation conseil, (audit de lexistant et
évaluation de loffre), gestion de projet,
intégration - EUROSTAT (Projet NOMAN) - Lingway
- Application Codification assistée et
multilingue de déclarations dans une nomenclature
- Prestation conseil, gestion de projet,
conception et prototypage
40Lintégration leçons apprisesAvant-projet
- Éditeur / intégrateur un tandem qui gagne
- Des briques par vocation
- Les technologies de TAL constituent rarement des
applications en soi mais des briques dune
application (KM, CRM) - Compréhension des enjeux, processus et
environnement du client - Arbitrage entre les besoins client et le coût des
solutions TAL - Prise en compte des contraintes
organisationnelles - Prise en compte du cadre technologique
- Lintégrateur rassure
- Sur la maturité des technologies rôle de
conseil - Sur la capacité de maître duvre dun projet
dintégration - Sur la viabilité du contractant (TAL beaucoup
de petites sociétés)
41Lintégration leçons apprisesFacteurs de
succès des projets
- Sécuriser la recette au plus tôt
- Anticiper les résultats attendus (maquettes,
tests) - Accorder les moyens nécessaires à lélaboration
du protocole dévaluation, en interaction
client/prestataire(s) - Prendre les moyens de la maintenance
- Évaluer au plus tôt la charge de maintenance
- Spécifier et mettre en oeuvre les solutions
- Modèle économique de lexploitation et de la
maintenance - Outillage technologique
- Organisation appropriée