Fouille de données

Aller à : navigation, rechercher
Thématique Fouille de données

La thématique Fouille de données, portée par Cédric Wemmert, se focalise sur des méthodes d'apprentissage automatique et d'extraction de connaissances à partir de données complexes (ex : images, bases de données, etc.). Le but de ces recherches est double : il consiste d'une part, à étudier et développer des méthodes d'extraction de connaissances, et d'autre part, à appliquer ces méthodes à l'analyse de bases de données et d'images numériques. Les approches étudiées et développées sont basées sur des méthodes d'apprentissage, de classification non-supervisée et de fouille de données relationnelles. Les principaux domaines d'applications sont les images de télédétection ou médicales, les données biochimiques, ou encore la gestion de données client.

Publications du thème :

Opérations

Fouille de données multistratégie

Les travaux que nous menons en fouille de données multistratégie se déroulent suivant trois grands axes:

  • collaboration entre méthodes de classification existantes et plus précisément combinaison de classifieurs non supervisés: chaque classifieur collabore avec les autres classifieurs et utilise leurs résultats pour remettre en cause ses propres résultats. Suite à ce processus de collaboration, une solution unifiant peut alors être construite par un mécanisme de vote adapté.
  • méthodes coévolutives de classification non supervisée avec pondération d'attributs inspirées de Kmeans : méthode Maclaw (Modular Approach for Clustering with Local Attribute Weighting) qui consiste à construire localement un cluster par individu, la classification globale étant construite par union de ces clusters (un par population).
  • intégration des connaissances dans les processus de classification non supervisée soit directement dans Samarah, soit dans des méthodes plus classiques du type Kmeans (Thèse de Germain Forestier)

Le processus global de classification non supervisé collaborative multi-stratégies intégrant ces trois aspects a implanté par la méthode Samarah (Système d'Apprentissage Multi-Agents de Raffinement Automatique de Hiérarchies).

Ces travaux sont réalisés en grande partie en collaboration avec le Laboratoire Image et Ville (UMR CNRS/UDS 7011) et ont été validés dans le cadre de la télédétection. Ainsi, le domaine d'application principal de nos méthodes est la classification automatique d'images de télédétection et plus largement la classification d'images.

Parallèlement, plus récemment, nous nous sommes intéressés à la classification de bases de données multimédias.

Tous ces travaux ont donné lieu à plusieurs réalisations logicielles.

Fouille de données relationnelles

La fouille de données relationnelles concerne l'extraction de connaissances à partir de bases de données (relationnelles, bien sûr), et plus généralement l'apprentissage à partir de données qui ne se représentent pas naturellement sous la forme d'une seule table attribut-valeur, par exemple des réactions chimiques.

Nos domaines d'application comprennent :

  • la chimie
  • la qualité de l'eau
  • la gestion de la relation client
  • la géographie

Nos thèmes de travail sont :

  • la découverte de règles
  • des classeurs bayésiens naïfs
  • l'optimisation à l'aide de courbes ROC
  • la propositionnalisation et plus généralement la représentation du problème et la préparation des données

Fouille de données structurées

La fouille de données structurées concerne l'extraction de connaissances à partir de données complexes fortement structurées de façon spatiale, sémantique et/ou temporelle. Il s'agit d'adapter et de développer des méthodes exploitant les liens entre les objets à classifier.

Ces recherches s'attachent à l'exploitation de données multisource, multivue, multiresolution et multitemporelles. Cette dernière est principalement appliquée au domaine de la télédétection, riche de données images représentant différentes descriptions d'une même zone géographique : à différentes, résolutions, par différents satellites et à différents instants.

Par exemple, les deux sauts technologiques que sont d'une part l'apparition de la très haute résolution spatiale (THR) en imagerie satellitaire et d'autre part la disponibilité croissante de séries temporelles de telles images, nous ont amené à proposer de nouvelles approches pour l'analyse multi-source d'images satellites, l'analyse multi-résolution d'images de télédétection en milieu urbain (Thèse de Camille Kurtz, débutée en octobre 2009) et pour l'analyse temporelle des comportements des objets dans des séries d'images (Thèse de François Petitjean débutée en octobre 2009, Thèse de Germain Forestier débutée en octobre 2007).

Enfin, la précision des informations présentent dans les images à très haute résolution permet d'envisager l'extraction d'ensembles d'objets structurés spatialement de façon plus ou moins complexe. Ce problème peut trouver une solution en modélisant l'organisation spatiale des objets recherchés sous la forme de graphe de contraintes. La vérification de la satisfaction des contraintes spatiales imposées par le modèle peut se faire en se ramenant à un problème de satisfaction de contraintes (CSP). Différents algorithmes basés sur la vérification de la consistance d'un graphe (consistance d'arc ou de chemin) sont alors mis en œuvre dans ce cadre. De premiers résultats permettant d'extraire les zones de lotissement ont été obtenus.

Fouille de Données et Gestion des Connaissances (en collaboration avec le thème Ingénierie des Connaissances)

L'augmentation de la disponibilité des images satellite à haute résolution spatiale est une occasion pour caractériser et identifier des objets urbains. Des méthodes d'analyse d’images à l'aide d'approches orientées objet basées sur l'utilisation des connaissances du domaine, sont nécessaires pour classifier les données. Un problème important dans ces approches est l’exploitation et la formalisation des connaissances domaine. L'utilisation d’ontologies formelles semble un choix judicieux pour traiter ces questions.

Par conséquent, le but de ces travaux est de définir une ontologie thématique pour l’étiquetage automatique des régions.

Il s'agit ici de développer à partir de documents thématique une ontologie du domaine afin d'aider un géographe dans son activité d'interprétation d'images provenant de satellites divers et variés.

Les concepts qu'utilisent les experts sont fortement dépendants à la fois des outils de traitement d'images existants (ou dont on peut deviner qu'ils existeront dans un futur proche) mais aussi et surtout de l'information intrinsèque contenue dans ces images. En effet tout n'est pas interprétable avec certitude dans la détection d'objets dans les images: sans données externes, on ne peut savoir de façon directe si un bloc d'habitation a 2, 3 ou 4 étages. Une ontologie devrait mieux permettre de décrire l'interprétation d'une image satellite en cours d'étude. Elle devrait permettre de gérer automatiquement un certain nombre de contraintes ou de règles portant sur des proximités possibles ou impossibles entre des objets de type X et des objets de type Y, d’accélérer le processus et finalement d'assurer ainsi une meilleure cohérence des résultats. Même si dans le cas d'images urbaines, la combinatoire des couples (objet X, objet Y) se trouvant à côté l'un de l'autre est grande, les contraintes négatives (décrivant des impossibilités) seront très utiles.

La construction de cette ontologie passe par un procédé d'extraction des connaissances à partir de textes de ce domaine. Cette phase va fournir les éléments essentiels pour construire l’ontologie : la liste des concepts et des relations sémantiques du domaine.

La phase suivante concerne la normalisation et la formalisation des connaissances : c'est là que vont s'opérer les choix de représentations liés à l'exploitation future de l'ontologie. Cette phase sera faite en liaison avec les experts en interprétation des images urbaines (géographes du LIVE et chercheurs du LSIIT).

En effet, l'ontologie à construire est à la croisée de deux ontologies : une ontologie du domaine urbain et une ontologie des outils de reconnaissance. L’ontologie complète comportera donc des concepts liés au domaine urbain (rue, blocs…), des concepts liés aux images (spectre, résolution…) et des concepts liés aux algorithmes de traitement et de reconnaissance existants. La représentation explicite des relations possibles entre ces différents types de concepts est une partie cruciale de cette ontologie. Il s’agit de stipuler que tel algorithme est adapté pour reconnaitre tel objet dans une image ayant telles caractéristiques. Ceci devrait permettre de compléter la reconnaissance d’objets incomplètement reconnus, par exemple, des maisons accolées ou des rangées d’arbres.

Nous en profiterons pour élaborer des scénarios d'usage de l'ontologie pour préciser sa fonction dans le processus d'interprétation des images et dans l'exploitation des résultats. Au niveau du formalisme de définition de l’ontologie, des extensions de OWL (standard fondé sur les logiques de description) seront étudiées pour prendre en compte des informations quantitatives (proximité, taille…) mais aussi qualitatives (degré de confiance et d’appartenance).

Principaux projet et collaborations

Projets en cours

  • ANR - Programme MN - Projet Coclico (Collaboration, Classification, Incrémentalité et Connaissances) (Novembre 2012 - Octobre 2016) : COCLICO est un projet de recherche visant à étudier et proposer une méthode générique innovante permettant une analyse multi-­‐‐échelle de grands volumes de données spatiotemporelles fournies en continue de qualité très variable, mettant en œuvre une approche multistratégie incrémentale dans laquelle la collaboration entre les différentes méthodes de fouille de données sera guidée par des connaissances du domaine thématique (Géosciences, Géographie, Géomatique et Télédétection) formalisées en ontologies et du domaine de l’analyse (connaissances sur les méthodes), et garantissant un objectif de qualité finale prenant en compte la qualité des données et celles des connaissances.
    Le consortium de ce projet regroupe un ensemble d'experts en apprentissage, en qualité des données, structuration et extraction de connaissances à partir de données (LSIIT, LIPN, AgroParis Tech et Espace-Dev), et d'experts en biodiversité et en géographie (Espace-Dev, LIVE).
  • ANR - Programme MN - Projet Fresqueau (Fouille de données pour l'évaluation et le suivi de la qualité hydrobiologique des cours d'eau) (Octobre 2011 - Décembre 2014) : L'objectif de ce projet est de contribuer au développement d'outils opérationnels pour évaluer la qualité des masses d'eau, et notamment, comparer et utiliser l'ensemble de tous les paramètres disponibles qui pourront traduire l'état des cours d'eau ainsi que l'ensemble des informations permettant de décrire les usages et les mesures prises.
    Ces données se caractérisent par une grande hétérogénéité et une grande complexité, avec des problèmes de qualité de données (données incomplètes, incertaines), de mise en forme et de structuration (différentes sources et points de vue), de granularité temporelle et spatiale. Concernant les méthodes, il s'agit principalement de mettre au point des méthodes permettant la découverte de relations spatiales et temporelles, et de méthodes permettant une synthèse non simplificatrice d'informations complexes et hétérogènes et leur mise en relation avec une expertise.
    La plateforme finale inclura un entrepôt de données, ainsi qu'une typologie de stations, et un ensemble de méthodes d'analyse et de fouille de données. La typologie sera un moyen pour guider l'analyse et l'interprétation des relevés d'une station, en lien avec les pressions constatées, dans le but d'évaluer la qualité globale d'une masse d'eau.
    Le consortium de ce projet regroupe un ensemble d'experts en structuration et extraction de connaissances à partir de données (LHYGES, TETIS, LSIIT et LIRMM), et d'experts en hydroécologie (LHYGES, TETIS, AQUASCOP et AQUABIO).
  • ANR - Programme COSINUS - Projet FOSTER (FOuille de données Spatio-Temporelles: application à la compréhension et à la surveillance de l'ERosion) (Janvier 2011 - Mars 2013) : L'exploitation de ces masses de données spatiotemporelles générées par les sciences de l'environnement pose donc un grand nombre de problèmes. Dans ce contexte, ce projet a pour objectif de concevoir, développer et mettre en oeuvre des nouveaux processus d’analyse adaptés aux masses de données spatio-temporelles dans l’optique d’une gestion améliorée de l’environnement. Deux tâches critiques de ce processus seront plus particulièrement étudiées : la segmentation des images satellitaires basée sur des méthodes collaboratives, et la construction de modèles descriptifs (motifs, « clustering », …) et/ou prédictifs (arbres de décision,…) intégrant de l'information spatio-temporelle. Ce projet visera ainsi à apporter de nouveaux moyens (méthodes, algorithmes, logiciels) d’exploitation des masses de données spatio-temporelles générées par les sciences environnementales, avec plus particulièrement la volonté d’assister la découverte de connaissances de la part des experts « propriétaires » de telles données. Ce projet regroupe (1) des informaticiens des laboratoires LIRIS, LISTIC, LSIIT et PPME avec des expertises complémentaires dans les domaines de la fouille de données et de l'imagerie; (2) des géologues, géographes et géophysiciens des laboratoires PPME et IPGS experts dans la caractérisation et la quantification des phénomènes érosifs et des processus de glissements de terrain; (3) la société Bluecham dont le coeur de métier est d’opérer des systèmes d’aide à la décision en environnement intertropical.
  • Société Atlante (2010) : Etude prospective sur l'imagerie thermique (confidentielle)
  • CNES (Centre National d'Etudes Spatiales)
    • Etude ORFEO GT3 (2011-2012) : Modélisation des objets d'intérêt dans les images de télédétection et de leurs relations spatiales pour une extraction guidée par ces connaissances (Stage M2R)
    • Bourse cofinancée avec Thalès (2009-2012) : Classification non supervisée de séries temporelles d'images satellites hétérogènes
    • Thèse CNES/Région Alsace : Extraction et analyse relations spatiales entre objets d'intérêt dans les images de télédétection guidées par des connaissances du domaine (2011/2014) : L'environnement proposé dans le cadre de cette étude (dirigée par Cédric Wemmert) devra permettre une utilisation conjointe d'un ensemble de données multisources, hétérogènes et complexes (optique, photo, altitude, multi-résolution). L'objectif est de parvenir à extraire, modéliser et utiliser des informations sur des relations spatiales entre objets d'intérêt pour guider le processus d'extraction d'information et de classification d'images à partir de cet ensemble de données.
  • Laboratoire Roche (Sept. 2010 - Sept. 2012). Ce projet porte sur l'analyse d'images correspondantes à des coupes de tissus dans le but d'extraire des informations sur l'efficaité (ou non) de molécules médicamenteuses.
  • Projet DAHLIA (Sept. 2010 - Sept. 2013) (http://www.projet-dahlia.com , site en construction ...). Ce projet, soutenu par la Région Alsace porte sur le maintien à domicile des personnes agées. Il regroupe plusieurs sociétés ainsi que des membres de l'équipe RP et de l'équipe MIV. L'équipe FDBT (Pierre Gançarski et Nicolas Lachiche) travaille (en collaboration avec Christophe Collet de l'équipe MIV) plus précisément sur la modélisation des comportements des personnes âgées dans le but de détection de comportements anormaux nécessitant une aide d'urgence en utilisant de l'information provenant des capteurs est incomplète, laquelle peut être empreinte d'incertitude, d'imprécision et de flou. L'équipe RP travaille sur les aspects capteur (de position, vidéo, sonore, etc.). Dans ce projet deux thèses débuteront en septembre, chacune sur un de ces deux aspects.


Projets plus anciens

  • ANR - Programme blanc GéOpenSim (Sept. 2007 - Mars 2011) : Le projet GéOpenSim proposé en réponse à l'appel à projet blanc ANR 2007 par Anne Ruas (IGN - Paris), Christiane Weber (LIV - Strasbourg) et Pierre Gançarski a été retenu et financé. L'objectif de ce projet de recherche est de concevoir une nouvelle plate-forme OpenSource dédiée à l'analyse des tissus urbains qui disposerait des caractéristiques suivantes : (1) une représentation vectorielle et multi-niveaux de l'information géographique apte à décrire les tissus urbains, (2) des mécanismes permettant de simuler des évolutions du tissu urbain en se basant sur une représentation d'agents géographiques vectoriels et sur des mécanismes de croissances et de dépendances fonctionnelles, (3) une bibliothèque composée d'algorithmes d'analyse et d'agrégation et d'algorithmes d'apprentissage permettant d'enrichir la description de l'espace.
  • RBS (CIFRE 2007-2010) - Structuration automatique d'ensembles d'images et de séquences vidéo
  • ANR Jeunes Chercheuses et Jeunes Chercheurs - Projet ECOSGIL (Sept. 2005- Sept.2008) : "Extraction des COnnaissances Spatiales pour la Gestion Intégrée du Littoral" Coordinateurs : A. Puissant (UCBN, Caen puis LIVE Strasbourg) et C. Wemmert (ULP, Strasbourg).
  • ACI Masses de données - Projet FoDoMuSt (Fouille de Données Multi-stratégies) (Sept.2004 - Sept. 2008) : Ce projet, (coordinateur général Pierre Gançarski), regroupa une quinzaine de personnes (dont 10 permanents) issues de trois laboratoires de recherche français : le LSIIT, le LIV (Laboratoire Image et Ville, Strasbourg, coord. locale : Christiane Weber) et ERIC (Equipe de Recherche en Ingeniérie des Connaissances, Lyon, coord. local : Omar Boussaïd). Il a permis l'embauche de deux post-doctorants au sein de l'équipe AFD : David Sheeren (septembre 2005/août 2006) et Nicolas Durand (septembre 2005/mars 2006). Les objectifs de cette collaboration étaient de proposer une méthode d'aide à l'interprétation de l'information issue d'une masse de données images et de définir et préciser le processus d'extraction d'informations et de connaissances permettant l'utilisation conjointe et complémentaire de différentes sources d'informations (FoDoMuSt). Ce projet a déjà donné lieu à près de 20 réunions entre 2004 et 2007, une présentation de 3 heures en séminaire avec invitation de membres externes au LSIIT, une trentaine de publications dont près d'un tiers en revue internationale.
  • Contrat R&D CNES/FDBT (2007/2008) : Par ce projet, dirigé par Pierre Gançarski et Cédric Wemmert en collaboration avec Anne Puissant (MCF en Géographie, LIV Strasbourg), il s'agissait de fournir un système interactif d'aide à l'interprétation d'images satellite. De plus, une méthode générique permettant l'utilisation conjointe d'images de différents types et différentes résolutions a été développée et testée. Les expérimentations se focaliseront sur des données SPOT (haute résolution) et type Pléiades (très haute résolution). Ce contrat a permis l'embauche au sein du LSIIT-AFD d'un post-doctorant pendant 6 mois ainsi que d'une apprentie ingénieur de développement pendant 12 mois.