Combinaison de classifieurs non supervisés

Aller à : navigation, rechercher

Dans un premier temps, nous nous sommes attachés à « adapter » le processus de classification à l'utilisateur. Après avoir proposé une extension de l'algorithme COBWEB, nous avons étudié et implanté un nouveau processus de classification basé sur la collaboration entre méthodes de classification existantes. L'objectif est ici de délivrer l'utilisateur du problème du choix des méthodes de classification et de leur paramétrage. Contrairement aux approches de combinaison de classifications existantes qui ne remettent pas en cause les classifications proposées, notre idée est de confronter et raffiner des classifications construites suivant des stratégies pouvant être différentes (sur des données éventuellement différentes) afin de dériver une solution consensuelle. Ainsi, chaque classifieur collabore avec les autres classifieurs et utilise leurs résultats pour remettre en cause ses propres résultats. Suite à ce processus de collaboration, une solution unifiante peut alors être construite par un mécanisme de vote adapté. Ce processus de classification non supervisé collaborative multi-stratégies a été implantée par la méthode SAMARAH (Sytème d'Apprentissage Multi-Agents de Raffinement Automatique de Hiérarchies).

Dans un deuxième temps, nous nous sommes intéressés à la labellisation semi-automatique des clusters proposés par notre classifieur multi-stratégies. En effet, si celui-ci fournit des résultats de bonne qualité, il ne fournit aucun indication sur les clusters produits. Or, l'expérience montre qu'affecter à chaque cluster une sémantique c'est-à-dire une correspondance dans le monde réel n'est pas une tâche facile pour un expert. Notre proposition est d'intégrer directement la prise en compte de connaissances du domaine d'application dans le processus de classification non supervisée. L'idée est ici de favoriser la construction de clusters plus facilement identifiables.

Notre validation a principalement été effectuée sur des problèmes de classification d'images de télédétection. Nous avons obtenu des résultats très satisfaisants dans ce domaine. Plusieurs types d'images différents ont été utilisés, comportant plusieurs types de problèmes ou de difficultés (pixels mixtes, beaucoup de petites zones engendrant beaucoup de pixels de bordure, bruit, ...) et analysés suivant les deux approches (par pixels et orientée objets) les plus couramment utilisées dans le domaine de l'observation de la Terre. Cependant, notre méthode étant très générale et ne modifiant en rien les algorithmes utilisés, elle peut s'appliquer dans presque tous les domaines de la classification. Ainsi, des résultats satisfaisants ont aussi été obtenus dans le domaine de la segmentation d'images médicales et sur des jeux de données issus de l'UCI.

Cet axe de recherche a été initié par Jerzy Korczak suite aux travaux de thèse d'Alain Ketterlin sur la formation de concepts et de Fatiha Hammadi-Mesmoudi sur la classification neuronales d'images digitalisées. Il s'agissait d'intégrer et unifier des résultats venant de classifieurs hétérogènes. Le cas de la classification supervisé a été étudié dans les travaux de Jean-Pierre Novak sur des méthodes neuronales pour la segmentation d'images de télédétection et l'apprentissage de concepts (thèse dirigée par Jerzy Korczak).

Les deux aspects liés à la collaboration de méthodes non supervisées sont au coeur de nos travaux. Ils ont principalement été traités dans le cadre de la thèse de Cédric Wemmert (co-encadrée par Jerzy Korczak et Pierre Gançarski), le stage de Master Recherche de Germain Forestier (co-encadré par Cédric Wemmert et Pierre Gançarski) ainsi que les études post-doctorales de David Sheeren et Nicolas Durand dont Pierre Gançarski a assuré la direction scientifique.

Ces travaux ont été développés et validés dans le projet européen TIDE et l'ACI FODOMUST.