Communications 

Classification multi-dates des modes d’occupation du sol :
comparaison des approches « pixel » et « objet »


Session Télédétection
 


Emilien Barussaud
David Sheeren
Jean-Paul Lacombe


Institut National Polytechnique de Toulouse (INPT)
Ecole Nationale Supérieure Agronomique (ENSAT)
UMR 1201 DYNAFOR INRA-INPT/ENSAT
Av. de l'Agrobiopôle, BP 32607 - 31326 Castanet-Tolosan
T. +33.(0)5.62.19.39.81

 

Mots-clés, logiciels ESRI utilisés et publics visés
 


Mots-clés : classifications supervisées – approches « pixel » et « objet » - échelle d’analyse

Logiciels ESRI et ITT utilisés :  ENVI 4.3, Module ENVI Feature Extraction, ArcMap 9.1

Public visé : Spécialistes Télédétection

 

Introduction


Au sein de l’UMR DYNAFOR, l’équipe BIOFRAG (Fragmentation des habitats forestiers et biodiversité) oriente plus particulièrement ses recherches sur les liens entre les hétérogénéités présentes dans les paysages et la diversité des populations et des communautés que ces derniers abritent, cela à des échelles variables. Ses compétences s’exercent dans les domaines de l’analyse spatiotemporelle des milieux (SIG, télédétection, cartographie), de l’agro-écologie, de l’écologie du paysage ou encore de la sylviculture. La zone d’étude dont il est ici question se situe dans la région Midi Pyrénées, au sud-ouest de Toulouse.

La cartographie des éléments du paysage, dont l’abondance, la répartition et les formes influent sur le fonctionnement des communautés animales ou végétales, est une étape importante dans la démarche de l’UMR DYNAFOR. Dans ce contexte, la télédétection permet d’obtenir des données sur une vaste zone d’étude. Il est donc nécessaire d’établir une méthodologie de traitement des images satellitales permettant d’aboutir à une classification la plus précise possible :
- d’un point de vue thématique : distinguer les classes d’occupation du sol répondant aux enjeux de la recherche
- d’un point de vue spatial : réussir à détecter le plus de détails possibles, en particulier les petits fragments boisés (ripisylves, haies, arbres isolés…), lesquels jouent un rôle important en écologie du paysage


Objectifs


Nous nous proposons dans cet article de comparer les résultats de classifications « par pixel » et « par objet » des modes d’occupation du sol à partir d’images SPOT 5. L’évaluation se fera selon deux méthodes, correspondant à deux échelles géographiques :
- la matrice de confusion qui évalue la qualité statistique de la classification sur l’ensemble de la zone étudiée.
- la confrontation de la classe « bois » à des polygones de validation établis à partir de la BD Ortho à 2 mètres pour les petits fragments boisés.
Ce travail sera également l’occasion de comparer les deux approches en termes de répétabilité des opérations et de temps de calcul.
 
Les classifications « par pixel » sont réalisées sous ENVI 4.3 et les classifications « par objet » en utilisant le module ENVI Feature Extraction sur ENVI Zoom.


Données et méthodes


Images à analyser :



Nous disposons de deux scènes SPOT 5 (10 m en mode multispectral) : 02 juin 2005 (80,81*77,17 km) et 11 novembre 2005 (74,12*73,88 km). Elles sont orthorectifiées et les défauts radiométriques provenant des écarts de sensibilité entre les détecteurs élémentaires de l’instrument de prise de vue sont corrigés. Pour chacune des dates, les données, sous forme de compte numérique, sont disponibles sur 4 canaux : Vert, Rouge, Proche Infrarouge et Moyen Infrarouge.
Les deux scènes ne se recouvrent pas totalement : celle de novembre (74,12 * 73,88 km) est décalée vers le Sud de 7,63 km et vers l’Ouest de 3,58 km par rapport à celle de juin qui est, par ailleurs, légèrement plus étendue (80,81*77,17 km). Nous redimensionnons la scène de manière à conserver le plus grand espace commun entre les deux scènes. Nous avons volontairement exclu de notre étude la vallée de la Garonne et le Sud de l’agglomération toulousaine, les espaces fortement urbanisés n’entrant pas dans le périmètre de cette étude.



Cliquez pour agrandir
Figure 1 : Coordonnées de la scène redimensionnée (cadre bleu)

Données d’apprentissage :



Qu’il s’agisse de l’approche « pixel » ou « objet », nous cherchons, dans la mesure du possible à répartir les données d’apprentissage de manière homogène sur l’ensemble de la scène ainsi qu’à à couvrir l’hétérogénéité interne de chaque thème.
 
Un même jeu de données d’apprentissage (Regions Of Interest) est utilisé pour l’ensemble des classifications « par pixel ». Pour les classifications « par objet », le fait de faire varier l’échelle d’analyse (étape Segment) et le niveau d’agrégation des petits éléments (étape Merge) oblige l’utilisateur à redéfinir un jeu de données d’entraînement. Ce dernier est en effet constitué d’objets dont les contours sont déterminés par ces deux étapes.
 
Nous établissons huit classes d’occupation du sol. Lors de l’approche « par pixel », nous contrôlons la séparabilité des ROIs d’apprentissage afin d’évaluer la possibilité de les distinguer correctement.
 
Les huit classes retenues sont :
- Boisement de feuillus
- Boisement de conifères
- Cultures en novembre (et sol nu en juin)
- Cultures en juin (et sol nu en novembre)
- Végétation herbacée aux deux dates (prairies et parcelles cultivées aux deux dates confondues)
- Sol nu aux deux dates
- Eau
- Zone de marnage (eau en juin et sol plus ou moins végétalisé en novembre)
 
La moins bonne séparabilité est observée pour le couple Boisement de feuillusVégétation herbacée aux deux dates, avec une valeur de 1,832. C’est un cas limite mais cette valeur traduit aussi une réalité : l’existence de formations intermédiaires comme les landes, friches, parcelles récemment déboisées, clairières etc.
Suivent les paires :
Cultures en novembre / Végétation herbacée aux deux dates 1,933
Boisement de feuillus / Boisement de conifères 1,994
Les autres paires ont une séparabilité de 1,999 ou plus, c'est-à-dire parfaite ou quasiment parfaite.

Données de validation :



Un unique jeu de données de validation sera utilisé pour réaliser l’ensemble des matrices de confusion, qu’il s’agisse des classifications « pixel » ou « objet ». Il est réalisé à partir de nos connaissances du terrain et d’enquêtes de terrain préexistantes et comporte 427 polygones couvrant au total, 0,5 % de la scène. Chaque thème est représenté dans le jeu de validation en proportion de la part qu’il occupe dans la classification.
 
De même, un unique fichier de formes réalisé sous ArcMap à partir de la BD Ortho nous servira pour évaluer la détection des petits fragments boisés (voir fig.2). Nous avons délimité 200 polygones de validation correspondant à des segments de haies et à des arbres isolés. En réalisant une intersection entre la classe « bois » (feuillus et conifères réunis) de notre classification et ces données d’évaluation, nous pourront évaluer le pourcentage de fragments détecté pour chaque méthode.



Cliquez pour agrandir
Figure 2 : Exemple de délimitation de polygones de validation


Résultats et discussions


Comparaison des méthodes sur l’ensemble de la scène :



Les méthodes « par pixel » donnent des classifications dont la qualité statistique est bonne. Parmi les cinq méthodes, celles du maximum de vraisemblance et celle du Séparateur à Vastes Marges (SVM) avec un noyau gaussien donnent les meilleurs résultats. Le coefficient Kappa vaut 0,9615 dans le premier cas et 0,9623 dans le second (voir fig.3).
En sortie, le logiciel ENVI fournit une classification (chaque pixel est attribué à la classe la plus probable) ainsi qu’un fichier « rule » qui associa à chaque pixel une probabilité d’appartenance à chacune des huit classes. On peut donc, grâce à l’existence de ces données, fixer un seuil de probabilité en-dessous duquel on décide de ne pas classer les pixels. Le seuil optimum peut notamment être recherché sous ENVI au moyen de la fonction « courbes ROC ». Par ailleurs, en combinant les données de classe et de probabilité, on peut faire figurer sur une carte le degré de fiabilité de notre classification.


Figure 3 : Comparaison des trois classifications SVM (fonctions noyaux linéaire [Lin.], polynomiale de degré 2 [Poly.2] et Radial Basis Fonction [RBF] (ou « noyau gaussien)) et de deux autres méthodes (Maximum Likelihood [M L] et Mahalanobis Distance [M D])

Le résultat des méthodes « par objet » dépend fortement du choix des paramètres. Nous en avons fait varier certains et avons comparé les résultats avec ceux des méthodes pixels.
Lors de l’étape « Segment », qui fixe l’échelle (de 0 pour un découpage très fin à 100 pour un découpage grossier) à laquelle les objets sont définis, le meilleur compromis est trouvé aux alentours de la valeur 40. A partir de 50 – 60, le coefficient Kappa diminue puis, à partir de 70, le découpage est trop grossier pour que l’on puisse déterminer des zones d’entrainement correspondant à des classes précises. En dessous de 40, le temps de calcul augmente sans que l’on gagne pour autant en qualité (voir figure 4). Précisons que les légères variations du coefficient Kappa entre les échelles 10 et 50 sont difficiles à interpréter ; en effet, elles sont peut-être dues en partie à une différence de qualité des données d’apprentissage, ces dernières étant redéfinies à chaque nouvelle classification.


Figure 4 : Variation du coefficient Kappa de la classification en fonction de l’échelle. Niveau d’agrégation : 70 ; Attributs : moyenne de la signature spectrale sur les 8 bandes ; Algorithme : Plus proche voisin, degré 1

En gardant 40 pour échelle, nous faisons varier le niveau d’agrégation (étape « Merge ») de 10 (conservation des petits éléments) à 90 (regroupement des petits éléments). La qualité statistique de la classification ne varie pas significativement. On observe notamment des valeurs très proches pour les deux extrêmes, 10 et 90. (voir figure 5).
 
Figure 5 : Variation du coefficient Kappa de la classification en fonction du niveau d’agrégation. Echelle : 40 ; Attributs : moyenne de la signature spectrale sur les 8 bandes ; Algorithme : Plus proche voisin, degré 1

Nous avons, jusqu’ici, utilisé comme attributs les moyennes de la signature spectrale des objets sur les huit bandes. Le module ENVI FX peut réaliser automatiquement une sélection des attributs les plus discriminants. Toutefois, dans notre cas, cette méthode ne donne pas de bons résultats : le coefficient Kappa de la classification ainsi obtenue ne vaut que 0,8031. Si l’on utilise les quatre attributs de texture en plus des attributs spectraux, on obtient 0,9479. Enfin, si l’on utilise la saturation et l’intensité en plus des attributs spectraux, le coefficient Kappa est de 0,9405. Il apparaît donc que, dans notre cas, se limiter aux huit moyennes spectrales est une bonne solution, puisque l’on obtient un coefficient Kappa de 0,9595. Toutefois, en raison du très grand nombre de combinaisons possibles, nous ne pouvons pas affirmer qu’elle est la meilleur. En outre, le choix des meilleurs attributs dépend également de l’échelle et du niveau d’agrégation.
 
Le moindre intérêt des attributs non-spectraux peut s’expliquer, dans notre cas, par le fait que nous travaillons sur un milieu majoritairement « naturel » : il est donc plus difficile de distinguer des géométries ou des textures récurrentes.

Comparaison des méthodes pour les fragments boisés :



Parmi toutes les méthodes « pixel » et « objet » testées au cours de cette étude, la classification « pixel » par la méthode du Séparateur à Vaste Marge avec un noyau gaussien est la plus performante pour détecter les fragments boisés. En effet, 43,17 % de la surface des polygones de validation est effectivement classée comme « bois ». Ce chiffre n’a pas une signification absolue puisque la classification a une précision de 10 mètres et les polygones de validation une précision de 2 mètres. Toutefois, ce chiffre permet de comparer entre elles les différentes classifications. On remarque par exemple que la classification « pixel » par le maximum de vraisemblance, comparable à SVM au regard du coefficient Kappa, donne ici un résultat légèrement moins bon : 40,17 %.
Concernant l’approche « objet », c’est le niveau d’agrégation qui s’avère déterminant. Comme on pouvait s’y attendre, le plus on agrège, le moins on détecte de fragments boisés (voir figure 6). Avec une échelle de 40 et un niveau d’agrégation de 10, on se rapproche (38,27 %) des résultats obtenus avec l’approche pixel sans toutefois les égaler. En revanche, la variation de l’échelle, pour un niveau d’agrégation fixé (ici 70), a des conséquences difficiles à interpréter (voir figure 7). Là encore, il faudrait réaliser davantage de tests avant d’établir des conclusions définitives.


Figure 6 : Variation du pourcentage de fragments boisés détecté en fonction du niveau d’agrégation. Echelle : 40 ; Attributs : moyenne de la signature spectrale sur les 8 bandes ; Algorithme : Plus proche voisin, degré 1


Figure 7 : Variation du pourcentage de fragments boisés détecté en fonction de l’échelle. Niveau d’agrégation : 70 ; Attributs : moyenne de la signature spectrale sur les 8 bandes ; Algorithme : Plus proche voisin, degré 1


Conclusions


Nous avons cherché à comparer les méthodes de classification « pixel » et « objet » ainsi qu’à évaluer l’impact de différents paramètres dans le module ENVI Feature Extraction. Pour cela, nous avons proposé une validation à deux échelles différentes.

La première difficulté rencontrée dans l’utilisation d’ENVI FX est le nombre élevé de combinaisons possibles de paramètres. Nous avons toutefois réussi à montrer :
- qu’en dessous d’un seuil de 50, l’échelle influe peu sur la qualité statistique globale de la classification
- qu’au dessus de ce seuil, la qualité diminue fortement avant que la réalisation même d’une classification supervisée devienne impossible (absence de données d’entrainement cohérentes due à la taille des objets)
- qu’une fois l’échelle fixée, le choix du niveau d’agrégation n’influençait pas la qualité globale de la classification
- qu’en revanche, l’étape « Merge » était déterminante pour la détection de petits éléments comme les fragments boisés et qu’en fixant un niveau d’agrégation bas, on s’approchait des résultats obtenus avec les méthodes « pixel ».
 
Dans notre cas, nous pouvons estimer que la combinaison d’une échelle de 40 avec un niveau d’agrégation de 10 est le meilleur compromis. On obtient ainsi, par la méthode du plus proche voisin, un coefficient Kappa de 0,9600 et la détection de 38,27 % des fragments boisés, résultats comparables à ceux de la meilleur classification « par pixel » qui donne un coefficient Kappa de 0,9623 et la détection de 43,15 % des fragments boisés.
 
Une fois l’échelle et le niveau d’agrégation définis, la méthode « objet » offre le grand avantage d’être beaucoup plus rapide que la méthode « pixel ». Elle nous permettra donc d’approfondir, par la suite, la recherche des meilleurs attributs et algorithmes.


© ESRI France
Accueil - Plénière - Communications - Ateliers - Concours - Partenaires - Contact