Title: Analyse longitudinale Typologie de parcours professionnels
1Analyse longitudinale Typologie de parcours
professionnels à partir des cartes de Kohonen
- Jean-Francois Giret et Patrick Rousset
- giret_at_cereq.fr , rousset_at_cereq.fr
2Thème principalUne typologie des parcours
dinsertion
- Vs Economie
- Mise en évidence de la durée et des formes de
processus de transitions à partir - De données longitudinales issues de lenquête
Génération 98 la position mensuelle sur le
marché du travail de jeunes pendant leur phase
dintégration. - Dune méthode longitudinale qui prend en compte
la proximité entre les situations de travail en
intégrant la dynamique dans le temps. - Vs Statistiques
- Classification de séries temporelles
qualitatives - Linformation des variables est qualitative.
- Linformation temporelle donnée par lordre des
variables est quantitative.
3La méthode
- La méthode proposée
- Elaboration dune distance entre les trajectoires
en deux étapes - Distance entre les statuts de travail en
intégrant lévolution dans le temps (approche
qualitative). - Déduction de la distance entre les trajectoires
(approche euclidienne). - Classification sur un grand nombre de classes
(100 ) à partir des cartes dauto-organisation. - Quelques méthodes de traitement des trajectoires
- Analyse de données classiques cumul mensuel des
écarts, c2, euclidien, axes principaux,
classification - Optimal matching mesure des écarts entre items,
évolution dans le temps et ordre des données. - Processus markoviens, en particulier chaines de
Markov cachées approche de la dynamique du temps.
4Les données
- Les données sont issues de lenquête du Céreq
Génération 98 - Un échantillon de 16000 jeunes interrogés en mars
1998, 2003 et octobre 2005 représentatif des
750000 sortants du système éducatif en 1998. - Lemploi est codé en 5 états CDI, CDD,
apprentissage, emploi jeunes, intérim. - Le hors-emploi est codé en 4 états chômage,
inactivité, service national, reprise détudes.
4 exemples de parcours codées à partir de 5
positions mensuelles
Etudes, service national, Inactivité, Chômage,
emploi.
5Problématique des parcours
- La notion de corrélation doit intégrer le délai
dans le temps - Cas où on assimile corrélation et incidence.
- La trajectoire Chômage -gt CDD -gt CDI est plus
révélatrice de transitions Chômage CDD et CDD
CDI que Chômage CDI. - Nécessité dun équilibre entre petites et grandes
fréquences? - Le regroupement ditems doit être neutre
principe déquivalence distributionnel. - Lintérêt de certains états décroit avec le temps
et avec leur fréquence (par exemple le service
militaire). - Du point de vue de lindividu, rare ne signifie
pas important - Exemple du CDI.
- fait référence à une approche qualitative et
à une approche quantitative.
6Problèmes liés aux données
- Quand finit linsertion? / Quelle longueur de
trajectoires? - Quand plus rien ne change? / Tant quon a des
données? - / Poids des mois en fonction de linnovation?
- La pratique montre que la stabilisation de
parcours marque fortement toute classification. - Privilégier les séquences où il se passe quelque
chose?/ Quelle importance donner à la
stabilisation en fin de la trajectoire? /
Travailler sur un grand nombre de trajectoires? - Problème du poids de certains item (CDI) qui se
traduit par une forte inertie pour une faible
variation de trajectoire. - Eviter les classes fourre-tout en travaillant sur
un grand nombre de classes.
7Distances
8Hypothèse sur les états de travail
- Hypothèse Existence de proximités entre les
statuts de travail qui évoluent en fonction du
temps.
9Profils de transitions probables
- La situation S(état, mois) introduit le temps.
- Lunivers des transitions probables du présent S
vers chaque situation future S est définie par
le profil PS de composantes - avec
- Le coefficient a assure que PS est un profil
- F mesure le flux relatif entre les situations S
et S comme la probabilité empirique datteindre
S en partant de S - Le coefficient dinertie dans le temps b pondère
la proximité entre S et S en décroissant avec le
délai - La distance intra situations la distance du c²
intra profils.
10Distance entre situation
- La distance intra situations la distance du c²
intra profils. - Aspects principaux
- Respect du principe déquivalence
distributionnel. - distance intra situations et coût (de
substitution) de loptimal matching. - coefficient dinertie b et chaine de Markov.
- Remarque
- Possibilité dintroduire une information
complémentaire (sur les états de travail) pour
définir la distance entre les situations.
11Les évènements principaux
- De la matrice des distances intra situations, on
déduit - Linertie des situations et la matrice de
covariance D (cf J.P. Benzecri) - , où d est le carré de la distance.
- Les composantes principales dinertie (les
vecteurs propres de D ) - Les vecteurs propres sont appelées évènements
principaux. - Ils positionnent une situation dans la structure
des états demploi, le temps et la durée. - Par exemple contrat de qualification dun an dès
la sortie des études et enchainement par un CDI,
stabilisation en situation de non-emploi (à
mi-chemin entre chômage et inactivité) 4 ans
après la sortie du système scolaire.
12Distance entre trajectoires
- Au final, les trajectoires sont codées comme
combinaisons linéaires des évènements principaux. - Canonique (en terme de situations) Combinaison
linéaire des évènements principaux Ee - La distance entre les trajectoires est la
distance euclidienne entre les trajectoires
recodées. - Le poids des mois est lié à leur innovation.
-
13Classification par les cartes dauto-organisation
- Point de départ distance de type euclidienne
entre les trajectoires. - Cas traité distance précédente.
14La classification à partir des cartes
dauto-organisation
- Lalgorithme vs Kohonen
- Généralise les méthodes de classification de type
centres mobiles ou nuées dynamiques en
introduisant une notion de voisinage entre les
classes. - Le système de représentation
- Les classes sont organisées sur une carte en
fonction de leur proximité dans lespace des
données. - Préservation de la topologie
- Deux individus associés à des unités voisines sur
la carte sont proches dans lespace des données.
- Exemples de structures à une ou deux dimensions
- Vert, Bleu and Rouge indiquent 3 niveaux de
voisinage aux rayons 2, 1, 0
15Classification des algorithmes de classification.
- Les classiques
- - La classification hiérarchique.
- un regroupement pour chaque niveau, dendrogramme.
- Il existe une version qui utilise un graphe de
voisinage donné à priori (L. Lebart). - - Les centres mobiles, K-means, simple
competitive learning. - nombre de classes fixé, données de grande taille.
- Les réseaux de neurones
- - Le perceptron multicouches.
- apprentissage supervisé.
- Les cartes dauto-organisation
- nombre de classes fixé, données de grande taille
- Lalgorithme de Kohonen.
- structure de carte fixée à priori avec système
de représentation adapté. - Neural Gas.
- apprentissage de la structure de la carte, pas de
système de représentation.
16Lalgorithme de Kohonen Une généralisation des
Centres Mobiles
- On détermine à priori un réseau (carte) et une
fonction de voisinage (rayon) qui décroit en
fonction du temps. - Initialisation aléatoire des centres de classes.
- A chaque itération t1
- On tire au hasard une observation x(t1).
- On détermine comme gagnant Gt1 le centre de
classe le plus proche de x. - On modifie par la formule
- Centres Mobiles (vs stochastique Forgy 1965)
seul Gt1. - Kohonen Gt1 et ses voisins (définies sur la
carte par la fonction de voisinage).
- Remarque Si R et R sont modifiés ensemble,
ils se rapprochent
17Représentation de la typologie des parcours à
partir des cartes dauto-organisation
- Chaque unité est utilisée comme une fenêtre
graphique dans laquelle un chronogramme
caractérise la classe. - Deux classes voisines ont des chronogrammes
similaires. - la proximité traduit bien la continuité dans le
temps.
Cartographie des parcours professionnels
Chronogramme
Fréquence
temps
18Deux niveaux de regroupement
- Le regroupement en macro-classes des centres de
classes correspond à un positionnement par
rapport au CDI.
Deux niveaux de regroupement les macro-classes
19La proximité sur la carte interprétée par le type
de contrat
- Axe Nord-sud Opposition CDI - autres situations
- Autre situations décliné en hors emploi, contrats
courts, emplois aidés
Contrats courts
Hors emploi
Emplois aidés
20Parcours et caractéristiques individuelles
Cartographie du niveau de diplôme
Cartographie du sexe
Cartographie de lorigine ethnique
Cartographie de lorigine sociale
Femme - Niveau de diplôme - père cadre
Origine étrangère
21La robustesse
- De la bonne prise en compte de la proximité entre
les états de travail dépend la qualité et la
robustesse de la représentation. - Effets robustes
- Opposition CDI-hors CDI.
- Lévolution (décalage) dans le temps.
- Proximités chômage-inactivité, CDD en fin de
période-chômage, intérim-chômage.
22Effet de la distance sur la robustesse
- De la bonne prise en compte de la proximité entre
les états de travail dépend la robustesse de la
méthode. - Cas du couplage codage binaire de la
trajectoire, distance euclidienne - Les proximités liées à lévolution dans le temps
sont bien rendues par les cartes (linformation
quantitative). - Les Proximités en terme de situation de travail
manquent de robustesse et de signification
(linformation qualitative).
Deux apprentissages des cartes dauto-organisation
s
23Effet de la distance sur la robustesse
Perspectives
- La robustesse est liée au coefficient b de
pondération du futur. - La robustesse dépend de b sans pouvoir être le
critère principal de son choix qui doit être
dabord économique. - Les modèles markoviens pour déterminer b.
- La sensibilité des cartes dauto-organisation à
une distorsion due à la distance doit être
relativisée - Lavantage de la représentation avec les cartes
dauto-organisation est assuré dès que la
distance prend en compte une part assez grande
de la proximité entre les situations. - Le champ dapplication ne demande pas un niveau
de précision maximal. - La représentation symbolique des cartes inclue
déjà une distorsion. - Elle y est donc moins sensible que les plans de
projection.
24Perspective La pondération du futurLe
coefficient b
- Les critères pour choisir b doivent dabord être
économiques et ensuite concerner la robustesse. - Rappel expression du potentiel pour le futur
b(t)1 Robustesse mais Perte de pertinence.
b(t)0 après 6 mois Diminution de la
robustesse.
25Autres perspectives
- Travailler sur un découpage du travail plus large
(nombre ditemsgt9). - Travailler sur une structure de carte de
dimension 3. - Mesure et amélioration de la robustesse de
lapprentissage des cartes.
26Extensions
- Tout travail explicatif des classes
- Qualitatif
- Quantitatif dans un espace euclidien
- Par exemple à partir de la distance des
individus aux centres des classes.
27Conclusion
- Concernant le choix de la distance
- La distance entre les items introduit la
dynamique du temps. - La méthode distingue la distance entre les
situations de celle entre les trajectoires - La distance entre les situations (un c² entre
profils) répond aux problèmes usuels de
linformation qualitative. - La distance entre les trajectoires est la
distance euclidienne. - ? Les poids des mois dans une trajectoire ne
dépendent pas des fréquences des items mais de
leur innovation. - Concernant le choix des cartes dauto-organisation
- Lorganisation des classes par voisinage traite
la redondance due à lévolution au cours du temps
et à linertie dû au poids du CDI - ? Les cartes dauto-organisation permettent de
travailler confortablement avec un grand nombre
de classes.
28! Merci pour votre attention !
- Les parcours dinsertion Jean-François Giret
giret_at_cereq.fr et Yvette!! - Les cartes dauto-organisation et distance
Patrick Rousset rousset_at_cereq.fr