Fouille de données multistratégies

Aller à : navigation, rechercher

L'extraction de connaissances à partir des données (ECD) est définie comme un processus de découverte d'informations implicites, inconnues auparavant et potentiellement utiles à partir de données. Ce processus se fait en plusieurs étapes : préparation des données (recherche, nettoyage et codage des données), fouille des données (recherche d'un modèle, de connaissances), validation et interprétation du résultat et enfin intégration des connaissances apprises.

La fouille de données ou data mining est un maillon important dans cette chaîne de traitements des données vers les connaissances. Ainsi de nombreuses méthodes issues de la statistique, des bases de données, de l'analyse de données, de l'apprentissage automatique, de la reconnaissances des formes ont été étudiées et mises en oeuvre pour décrire les données, les structurer et les classifier mais aussi pour les expliquer et produire un modèle prédictif.

Dans ce cadre, la classification non supervisée ou automatique ou encore clustering prend tout son sens pour décrire la structure d'un grand volume de données. Son but est d'extraire d'un tel ensemble de données, c'est-à-dire d'un ensemble d'individus ou objets décrits selon un certain nombre de dimensions, des groupes « naturellement » cohérents appelés couramment classes ou clusters et ce sans connaissances préalables sur la répartition des classes dans l'espace des données (ou observations) : l'utilisateur ne sait pas quelles classes il va obtenir.

Comme la statistique exploratoire, son rôle est de mettre en évidence des propriétés sur les données et de suggérer des hypothèses. Ainsi, contrairement à un apprentissage supervisé qui tente d'expliquer un phénomène dont certaines manifestations lui sont fournies en exemple, la classification automatique a pour but de détecter des régularités pour aider à la compréhension des données, pour résumer et alléger la description de celles-ci ou encore pour inférer des informations éventuellement manquantes pour un objet grâce à la connaissance de sa classe d'appartenance.

Alors que la classification supervisée cherche à modéliser au plus juste et au plus précis un phénomène, la classification non supervisée a pour but principal de permettre à l'utilisateur de s'approprier ses données, de les comprendre et d'en extraire des régularités ou des propriétés cachées pouvant être grossières, incomplètes voire entachées d'erreurs. Placer l'utilisateur au c\oeur du processus de classification non supervisée est donc primordial.

Or, cet utilisateur est bien souvent débordé par la profusion et la complexité des méthodes de classification et des données qu'il est amené à traiter.

Notre rôle en tant qu'informaticien est donc double. Si d'une part, nous nous devons d'offrir à cet utilisateur des méthodes de classification efficaces, d'autre part, celles-ci se doivent d'être les plus naturelles possible aussi bien dans leur façon de procéder (algorithme mis en jeu) que dans leur paramétrage. Notre activité de recherche se situe dans cette optique. Notre volonté est de proposer un processus de classification non supervisé centré utilisateur.

Nos travaux se sont déroulés suivant deux grande axes. Ils ont principalement porté sur la combinaison de classifieurs non supervisés et sur la pondération d'attributs.

Ces travaux sont réalisés en part en collaboration avec le Laboratoire Image est Ville et ont été validés dans le cadre de la télédétection.

Ils ont donné lieu à plusieurs réalisations logicielles.