Suite

Comment améliorer la précision de la classification des images 3 bandes (RVB) ?

Comment améliorer la précision de la classification des images 3 bandes (RVB) ?


J'espère extraire quelques caractéristiques simples de la végétation (armoise) à partir d'images NAIP de 1 m à 3 bandes (RVB). Malheureusement, il n'y a pas de bande proche infrarouge disponible pour cet ensemble de données et j'ai besoin d'utiliser cette imagerie particulière pour une analyse de séries chronologiques, donc je suis coincé avec les 3 bandes. S'il s'agissait d'images à 4 bandes, j'envisagerais d'ajouter les indices de végétation NDVI et EVI comme données auxiliaires pour la classification. Je prévois d'incorporer la texture dans la classification.

Quels indices de bande supplémentaires ou informations utiles à partir de données largement disponibles (par exemple, NED, relief) puis-je incorporer dans la classification pour augmenter la précision ? Je suis flexible dans l'approche de classification que j'adopte.


J'ai fait ce genre de chose pour un projet universitaire il y a quelques années en utilisant une photographie aérienne de 25 cm. C'est une chose difficile à accomplir. J'ai effectué un certain nombre d'analyses de texture sur l'imagerie et ajouté les bandes à l'imagerie RVB pour avoir plus d'informations pendant le processus de classification. Bien qu'il ne remplace pas la bande NIR, il a fourni des informations supplémentaires qui ont augmenté la précision de la classification.


Détermination du bilan d'utilisation des terres à l'aide d'images satellitaires et d'un système d'information géographique : étude de cas dans la province de Sulawesi du Sud, en Indonésie

Cette étude a été menée pour produire une carte d'équilibre utilisation des terres/occupation des sols (LULC) basée sur un SIG pour une certaine période comme référence pour les décideurs politiques dans la planification de leur futur développement régional. Cette étude mesure également la précision de la classification supervisée basée sur la télédétection et l'intégration du système d'information géographique (SIG) aux conditions de terrain. En juin 2005, l'imagerie satellitaire 7 ETM+ a été utilisée comme cartes d'actifs pour évaluer les changements d'affectation des terres (LUC). Bien qu'en mars 2019, les cartes de responsabilité aient utilisé l'imagerie satellitaire 8 OLI/TIRS. L'analyse des méthodes consiste en un traitement de pré-image, une interprétation d'image, un point aléatoire, une vérification sur le terrain et une évaluation de la précision. Les résultats du traitement d'image ont été superposés à une carte topographique indonésienne pour dessiner une carte d'équilibre LULC. Les résultats indiquent qu'en juin 2005 et mars 2019, chaque LULC avait une valeur d'exactitude d'évaluation de 82 % et 86 %, avec une valeur d'exactitude d'évaluation prévue de 18,05 % et 20,50 %, respectivement. Ces résultats sont vérifiés pour déterminer les performances d'adéquation des approches d'imagerie sur le terrain sur la base des critères de coefficient de Cohen Kappa de 0,45 et 0,48 pour juin 2005 et mars 2019. Sur la base de ces résultats, la précision et l'adéquation du traitement d'image étaient excellentes car elles sont plus plus de 80 % et satisfont au critère de performance Cohen Kappa. De plus, les données géospatiales sur la carte d'équilibre LULC sont essentielles pour guider les planificateurs et les décideurs dans la planification de leur développement régional.


Les forêts, étant le plus grand puits de carbone terrestre et le principal hôte de la biodiversité terrestre, occupent une place importante dans les fonctions et services des écosystèmes terrestres. Une gestion efficace et une utilisation durable des forêts et des ressources forestières nécessitent une compréhension précise et efficace des attributs forestiers dans les domaines de la structure, de la biologie, de l'écologie et de la phénologie à diverses échelles spatiales et temporelles. Les attributs de l'écosystème forestier qui sont importants pour comprendre un phénomène ou qui sont associés à une question de recherche spécifique sont considérés comme des informations thématiques (par exemple, des traits fonctionnels ou structurels de la forêt), qui sont généralement liées à une zone géographique spécifique et dans un laps de temps. Une collecte de données robuste et efficace ainsi qu'une interprétation intelligente et fiable des données sont les éléments clés soutenant l'extraction d'informations thématiques. De nouvelles applications de ces informations déclenchent une nouvelle compréhension des fonctionnalités des forêts et soutiennent la gestion et les décisions politiques.

Ce numéro spécial appelle à des articles originaux qui démontrent de nouvelles avancées dans l'extraction d'informations thématiques dans divers types de forêts (boréales, tempérées et tropicales), et de nouvelles avancées dans les applications de ces informations dans la gestion des ressources forestières, la protection du climat et la conservation de la biodiversité, etc.

Les sujets de ce numéro spécial incluent, sans s'y limiter, les suivants :

  • Nouveaux capteurs, plateformes et leur intégration pour l'extraction d'informations thématiques forestières
  • Nouveaux algorithmes, méthodologies et procédures d'interprétation des données et d'extraction d'informations
  • Analyses d'informations multi-échelles et multitemporelles
  • Applications des informations thématiques en sylviculture, écologie forestière, protection du climat et de la biodiversité, etc.

Dr Xinlian Liang
Pr Hans Verbeeck
Dr Markus Hollaus
Dr Ninni Saarinen
Dr Yunsheng Wang
Pr Juha Hyyppä
Éditeurs invités

Informations sur la soumission du manuscrit

Les manuscrits doivent être soumis en ligne sur www.mdpi.com en s'inscrivant et en se connectant à ce site Web. Une fois inscrit, cliquez ici pour accéder au formulaire de soumission. Les manuscrits peuvent être soumis jusqu'à la date limite. Tous les articles seront évalués par des pairs. Les articles acceptés seront publiés en continu dans la revue (dès leur acceptation) et seront répertoriés ensemble sur le site Web du numéro spécial. Des articles de recherche, des articles de synthèse ainsi que de courtes communications sont invités. Pour les articles prévus, un titre et un court résumé (environ 100 mots) peuvent être envoyés au bureau éditorial pour annonce sur ce site.

Les manuscrits soumis ne doivent pas avoir été publiés auparavant, ni être à l'étude pour publication ailleurs (à l'exception des actes de conférence). Tous les manuscrits font l'objet d'un examen approfondi par le biais d'un processus d'examen par les pairs en simple aveugle. Un guide pour les auteurs et d'autres informations pertinentes pour la soumission de manuscrits sont disponibles sur la page Instructions pour les auteurs. Télédétection est une revue bimensuelle internationale à comité de lecture en libre accès publiée par MDPI.

Veuillez visiter la page Instructions pour les auteurs avant de soumettre un manuscrit. Les frais de traitement des articles (APC) pour la publication dans cette revue en libre accès sont de 2400 CHF (francs suisses). Les articles soumis doivent être bien formatés et utiliser un bon anglais. Les auteurs peuvent utiliser le service d'édition en anglais de MDPI avant la publication ou pendant les révisions d'auteur.


Intégration de la texture et de la réponse spectrale aux techniques d'IA pour l'identification de l'empreinte des bâtiments à l'aide d'images satellites haute résolution

La croissance rapide et les progrès de l'application de la télédétection (RS) et des systèmes d'information géographique (SIG) dans plusieurs domaines d'application ont aidé de nombreux chercheurs à analyser un large éventail d'informations provenant de l'imagerie satellitaire. Les informations sur les établissements qui incluent les empreintes des bâtiments sont un paramètre essentiel pour différentes applications telles que la planification urbaine, la planification environnementale et la gestion des catastrophes. Le modèle de réseau de neurones conventionnel (CNN) VGG-16 (Visual Geometry Group) est un modèle populaire utilisé pour détecter et classer les images d'entrée. Dans cette étude, une nouvelle approche a été proposée par l'intégration du modèle VGG-16-CNN avec les informations spectrales et texturales des images satellites pour l'identification des empreintes des bâtiments. Le modèle a été formé et mis en œuvre pour identifier les empreintes du bâtiment à l'aide d'une image satellite haute résolution Worldview-3 sur une partie de la ville de Mumbai dans l'État du Maharashtra, en Inde. La précision de la classification dans l'approche proposée est de près de 94 % par rapport à 82 % dans le cas de l'algorithme du détecteur monocoup (SSD) seul. Les paramètres métriques tels que le score F1 de 0,957, l'intersection sur l'union (IoU) de 94,86 % et le taux d'erreur total de 8,133 % ont également indiqué une meilleure performance de l'approche proposée. En particulier, l'approche est très bénéfique pour les autorités de développement urbain car elles doivent surveiller le grand nombre de terrains vacants répartis dans les zones urbaines.

Ceci est un aperçu du contenu de l'abonnement, accessible via votre institution.


Une approche de classification de la couverture terrestre basée sur un SIG adaptée à la gestion de l'eau urbaine à petite échelle

Dans le contexte du stress climatique, de l'urbanisation et de la croissance démographique, les outils de conception et de planification qui aident à la planification décentralisée et environnementale des infrastructures sont de plus en plus courants. Afin de soutenir la conception de systèmes d'infrastructures hydrauliques urbaines de plus en plus complexes, des bases de données spatiales précises et facilement accessibles décrivant les types d'occupation du sol sont cruciales. Ainsi, une méthodologie de catégorisation des occupations du sol qui complète ces outils est proposée. En utilisant des images SIG de haute précision spatiale qui sont facilement obtenues à partir de techniques de survol, des données radiométriques et géométriques sont générées pour créer une classification multifonctionnelle de la couverture terrestre urbaine, conçue pour être applicable à divers outils de planification urbaine servant différents objectifs, par ex. gestion de l'eau urbaine. La méthodologie développe 13 catégories individuelles d'occupation du sol sur la base des capacités complètes des images NDVI et nDSM, qui sont ensuite adaptées pour répondre aux exigences des outils de planification. Validation via une application d'étude de cas à Innsbruck (Autriche), une précision de classification globale de 89,3 % a été atteinte. La précision du processus a été limitée dans la différenciation de certaines catégories (par exemple, l'herbe sèche et le béton, les arbres et l'herbe irriguée, etc.), ce qui pourrait entraîner des limitations soumises aux applications de modèles prévues. Malgré cela, les résultats de la classification ont donné une grande précision, démontrant que la méthodologie peut être utilisée par divers logiciels pour améliorer l'analyse de la gestion de l'eau en milieu urbain.

Ceci est un aperçu du contenu de l'abonnement, accessible via votre institution.


Descripteurs de caractéristiques de forme spatiale dans la classification d'objets fabriqués à l'aide de données de télédétection à haute résolution spatiale

Les caractéristiques spatiales et spectrales sont deux attributs importants qui forment la base de données basée sur les connaissances, utiles dans la classification des objets fabriqués, à l'aide de données de télédétection. Les caractéristiques spectrales à elles seules peuvent être insuffisantes pour identifier les bâtiments et les routes dans les zones urbaines en raison de l'homogénéité spectrale et de la similitude qu'ils présentent. Cela a conduit les chercheurs à explorer les caractéristiques spatiales décrites en termes de descripteurs de forme pour améliorer la précision de la classification des objets fabriqués. Cet article traite des paramètres des caractéristiques de forme spatiale et de la méthode de mise en œuvre de ces caractéristiques pour améliorer l'extraction d'objets d'ingénierie, en utilisant la machine à vecteurs de support (SVM). Les résultats classés SVM obtenus à l'aide de caractéristiques de forme spatiale sont comparés à des caractéristiques statistiques de cooccurrence de niveaux de gris dans lesquelles les premiers ont montré une meilleure précision de classification pour les bâtiments et les routes. La précision de la classification est également calculée en utilisant les caractéristiques spectrales des bâtiments et des routes par des classificateurs tels que le mappeur d'angle spectral et la divergence d'informations spectrales. L'analyse montre que les caractéristiques de forme spatiale améliorent les résultats de classification des bâtiments et des routes dans les zones urbaines.

Ceci est un aperçu du contenu de l'abonnement, accessible via votre institution.


Classification d'images orientées objet stratifiée basée sur la division de scènes d'images de télédétection

La méthode traditionnelle de segmentation d'images de télédétection utilise le même ensemble de paramètres pour l'ensemble de l'image. Cependant, en raison de la nature dépendante de l'échelle des objets, les paramètres de segmentation optimaux pour une image globale peuvent ne pas convenir à tous les objets. Selon l'idée de dépendance spatiale, le même genre d'objets, qui ont la même échelle spatiale, se rassemblent souvent dans la même scène et forment une scène. Sur la base de ce scénario, cet article propose une méthode d'analyse d'images orientée objet stratifiée basée sur la division de scènes d'images de télédétection. Cette méthode utilise d'abord une sémantique moyenne qui peut refléter la complexité visuelle d'une image pour classer l'image de télédétection en différentes scènes, puis au sein de chaque scène, un algorithme de recherche de grille amélioré est utilisé pour optimiser le résultat de la segmentation de chaque scène, de sorte que l'échelle optimale peut être parfaitement adopté pour chaque scène. Étant donné que la complexité des données est efficacement réduite par le traitement stratifié, l'optimisation à l'échelle locale garantit la précision de la classification globale de l'ensemble de l'image, ce qui est pratiquement significatif pour les applications de géodétection à distance.

1. Introduction

GEOBIA a été la méthode dominante pour le traitement des images de télédétection à haute résolution spatiale [1, 2]. Les dimensions spatiales sont cruciales pour les méthodes GEOBIA [3], et l'échelle a une grande influence sur la classification orientée objet d'une image de télédétection. Cependant, en raison de la complexité du type de caractéristiques, il n'y a pas d'échelle optimale absolue adaptée à tous les objets [4–6] L'échelle est un problème qui doit être résolu dans la segmentation d'images [7]. La qualité de la segmentation sera limitée par les paramètres définis par l'expérience de l'utilisateur [8], et l'algorithme d'optimisation détermine les paramètres de segmentation optimaux de l'image globale, qui est un résultat de compromis de tous les objets.

Différents objets ou phénomènes géographiques ont des échelles spatiales et temporelles inhérentes [9], et il est de plus en plus difficile de reconnaître des motifs complexes en haute résolution [10]. Pour extraire des objets ou les séparer de leur environnement, l'échelle de traitement (échelle de segmentation) doit être définie de manière similaire aux échelles spatiales des objets [11]. La sélection d'échelle basée sur l'objet est la clé de l'analyse d'image basée sur l'objet, et la sélection d'une échelle inappropriée entraînera une sur-segmentation ou une sous-segmentation [12]. Cela réduira la précision et l'efficacité de l'extraction d'informations à plusieurs échelles à partir d'images à haute résolution spatiale [13-15]. De nombreuses méthodes ont été utilisées pour sélectionner les paramètres optimaux pour la segmentation multi-échelle [16–25] cependant, les paramètres de segmentation optimaux pour une image globale peuvent ne pas convenir à différents objets lors du traitement de grandes images hétérogènes [26, 27]. Un problème clé qui reste à résoudre est de déterminer une échelle de segmentation appropriée qui permette de caractériser différents objets et phénomènes dans une seule image [28, 29]. Cependant, les observations indiquent qu'il y a une tendance : les mêmes types d'objets ont souvent une échelle spatiale similaire et s'agrègent souvent dans la même zone. Par conséquent, il s'agit d'un moyen réalisable de diviser l'image globale en différentes scènes, puis d'utiliser un algorithme d'optimisation pour segmenter l'image de la scène en objets d'image, ce qui améliorera la qualité de segmentation globale. Différente de la méthode de classification de scène conventionnelle qui vise à déterminer l'attribut de classe d'une image [30–32], la division de scène mentionnée dans cet article vise à diviser une image entière en plusieurs scènes. Les méthodes utilisées pour classer les images de télédétection en scènes peuvent être grossièrement réparties dans les trois catégories suivantes : le tracé des limites de la main, avec la segmentation du seuil de la couche, et la segmentation ou la division de la scène basée sur la classification.

La méthode de traçage des limites de la main ordinaire [33-35] délimite les limites de la scène en fonction de la composition des couleurs ou de la différence entre les valeurs des caractéristiques, telles que la luminosité et le NDVI. Cette méthode peut garantir que le résultat répondra aux exigences subjectives de l'utilisateur, mais elle souffre de la subjectivité de l'opérateur et prend beaucoup de temps [36].

La méthode de segmentation de seuil de la couche de présentation choisit une caractéristique, telle que la luminosité ou le NDVI, pour diviser approximativement l'image en plusieurs scènes en définissant des seuils [37, 38]. Par exemple, les valeurs NDVI entre une scène de couverture végétale et une scène de couverture non végétale sont différentes, de sorte que l'image peut être grossièrement divisée en plusieurs scènes en utilisant une valeur de seuil définie. Dans cette méthode, le seuil a une grande influence sur le résultat, et la sélection du seuil est souvent accomplie en utilisant des statistiques d'échantillon ou des échantillons aléatoires. Par conséquent, le seuil et les échantillons utilisés pour les statistiques influencent les résultats de la division.

La méthode de division de scène basée sur la segmentation combine deux idées : l'une consiste à définir des paramètres à grande échelle dans la segmentation d'images pour obtenir un grand objet, dont la taille est proche des scènes [39, 40] et une autre consiste à fusionner de petits objets pour former de grandes scènes [ 41]. Les logiciels eCognition, SPAING et MAGIC fournissent également des opérations de segmentation et de classification d'images [41], mais le résultat de la segmentation est facilement influencé par des objets linéaires tels que la route et la rivière, donc même si la couverture est la même, une scène souhaitée sera séparée en deux scènes ou plus.

De plus, une image peut également être classée en scènes en utilisant la luminosité de la texture ou le NDVI [42, 43], mais cette méthode est une opération de classification simple. Par exemple, il divisera l'image en scènes végétales et non végétales, en scènes lumineuses et ombragées, ou en scènes rocheuses et non rocheuses. Cette méthode peut nécessiter des échantillons d'apprentissage, elle ne fournit donc de bons résultats qu'à partir d'images spécifiques et manque d'universalité, ce qui limite son application.

En résumé, de nombreux problèmes peuvent être rencontrés dans ces méthodes décrites : certaines méthodes sont moins efficaces, ne conviennent que pour certains types d'images, influencées par des facteurs subjectifs, ou le résultat ne répond pas aux exigences. Par conséquent, une nouvelle méthode incorporant la sémantique moyenne (entropie, homogénéité et moyenne) pour diviser l'image de télédétection en différentes scènes est proposée. Cette méthode n'est pas influencée par des facteurs subjectifs et convient à la plupart des types d'images car la valeur de teinte et sa texture peuvent être calculées dans presque tous les types d'images. Le résultat montre que cette méthode peut efficacement améliorer la précision de la classification lorsqu'elle est combinée avec des méthodes d'optimisation des paramètres de segmentation, telles qu'un algorithme de recherche de grille amélioré.

2. Méthodes

2.1. Structure de scène et dépendance à l'échelle dans l'image de télédétection

La combinaison de l'effet d'échelle de la télédétection avec le concept géographique de structure de scène peut constituer une percée pour résoudre le problème d'échelle [44]. La structure de scène est la composition et la structure de différentes échelles d'unités géographiques dans une certaine zone géographique. Une entité géographique ou le modèle spatial d'un phénomène présente souvent un certain degré de dépendance à l'échelle, donc l'utilisation de différentes périodes et plages spatiales pour observer les mêmes objets peut fournir des résultats ou des conclusions différents [44]. Une structure de scène différente a une complexité visuelle différente, et plus d'objets dans une scène conduiront à une scène plus complexe. L'échelle d'intérêt dans cette étude est l'échelle de segmentation. Afin d'obtenir un résultat de segmentation de haute précision, l'échelle de segmentation doit être similaire aux échelles spatiales inhérentes aux unités géographiques.

2.2. Le principe de la segmentation stratifiée

Une scène est délimitée par l'aménagement du territoire ou regroupée par influence économique, et le type et le modèle de distribution d'un type d'objet dans une scène sont similaires, mais la structure de la scène entre différentes scènes peut être différente. Par conséquent, différentes scènes ont des paramètres de segmentation appropriés individuels. La plupart des méthodes de segmentation et des algorithmes d'optimisation des paramètres visent à déterminer le meilleur résultat pour une image globale, mais il s'agit d'un compromis entre différents objets et ne convient pas à différents types d'objets. Dans cette étude, une analyse d'image orientée objet stratifiée basée sur la division de scènes d'images de télédétection est proposée. Cette méthode peut décomposer l'image entière complexe en plusieurs scènes de structure spatiale simples (Figure 1). Les objets de couleur similaire auront une valeur de teinte similaire, donc certaines fonctionnalités telles que la valeur de teinte peuvent être utilisées pour diviser l'image en scènes. De plus, la complexité visuelle et la structure des différentes scènes peuvent également différer, de sorte que la texture de la teinte peut être utilisée pour la refléter. Alors que la moyenne peut refléter la teinte principale (objet principal) d'une scène, l'entropie et l'homogénéité peuvent refléter la structure de la scène. Selon l'entropie et l'homogénéité, l'image peut être divisée en scènes de type couverture unique et en scènes de type couverture complexe. Et selon la valeur moyenne, la scène de type couverture unique peut être redivisée en plusieurs scènes à dominante caractéristique. En utilisant des méthodes d'optimisation des paramètres pour segmenter différentes scènes individuellement, l'échelle segmentée finale de chaque scène deviendra aussi proche que possible de l'échelle spatiale inhérente aux unités géographiques.

2.3. Optimisation des paramètres de segmentation basée sur un algorithme de recherche de grille amélioré

Un algorithme de recherche de grille amélioré a été utilisé pour optimiser les paramètres de segmentation. L'algorithme de recherche de grille (GSA) utilise la grille, qui est divisée en deux paramètres d'optimisation dans une certaine plage d'espace, pour trouver un ensemble de paramètres optimisés en parcourant tous les croisements de la grille. Dans ce processus, toutes les combinaisons de paramètres sont parcourues. Étant donné une plage de sélection de paramètres suffisamment large et une taille de pas suffisamment courte, la méthode peut trouver la solution optimale globale et obtenir la combinaison optimale de paramètres en même temps. Cependant, cela demande beaucoup de temps. Pour améliorer l'efficacité de la GSA pour l'optimisation des paramètres, une GSA améliorée (IGSA) est proposée. Premièrement, il obtient une solution optimale approximative en utilisant une grande échelle et une taille de pas. Ensuite, l'un des paramètres est fixe et une petite taille de pas est utilisée pour rechercher une autre valeur de paramètre dans une plage de recherche étroite à proximité du paramètre fixe. Habituellement, cette méthode améliorée se concentre sur une combinaison optimale approximative et se développe avec des directions de croisement [45]. Par conséquent, la première sélection de la taille du pas est particulièrement importante pour la recherche de grille avec des directions de croisement étendues.

3. Expériences et analyses

3.1. Données expérimentales

Pour tester la robustesse de la méthode, deux domaines d'étude ont été sélectionnés. La première est une image pansharpened QuickBird (Image A) de la ville de Hualien, Taiwan, Chine (Figure 2). La taille est de 12000 × 12000 pixels, avec une résolution de 0,7 m par pixel. Les principaux types d'occupation du sol dans cette image sont les bâtiments, les plantes, les terres nues, les routes et l'eau. La seconde est une image multispectrale QuickBird (Image B) de la région d'Alma Cray (mine de cuivre), Ouzbékistan (Figure 2), et elle a une taille de 3400 × 3400 pixels, et la résolution est de 2,4 m par pixel. Les types de couverture sont les bâtiments, les plantes, les terres nues, les mines et l'eau.

3.2. Division de scène : la première étape de la segmentation stratifiée

Comme le montrent les étapes du processus sur la figure 1, après le prétraitement, les bandes proche infrarouge, rouge et verte ont été sélectionnées pour la synthèse des couleurs RVB dans les deux études. Ensuite, l'image a été transformée de l'espace colorimétrique RVB à l'espace colorimétrique HSV. Les valeurs de couche de teinte peuvent représenter les couleurs de couverture, et les valeurs de teinte de couleur similaires sont également des approximations numériques. Les fenêtres de calcul doivent être plus petites que les tailles des objets mais suffisamment grandes pour distinguer les caractéristiques des objets, et sur cette base, huit couches de texture, représentant les caractéristiques des couches de teinte, ont été obtenues. Les valeurs de teinte reflètent les différences de couleur de la scène. Parce que l'objectif est la division de scène, les textures pour différentes valeurs de scène sont représentées avec différentes échelles de gris (valeurs). La plupart des mesures de texture au sein d'un groupe donné sont fortement corrélées. L'homogénéité, la dissemblance, la variance et le contraste sont fortement corrélés, et l'entropie est fortement corrélée avec le second moment [46]. Pour la division de scène, les différences de scène doivent être amplifiées. Ainsi, dans les couches de texture, les différences de valeurs dans différentes scènes doivent être réparties dans différentes plages. Par conséquent, l'entropie, les couches moyennes homogènes et les couches HSV ont été choisies pour coopérer avec l'image originale afin de produire une image intégrée pour la division de la scène. Les couleurs principales des différentes scènes étaient différentes et les limites de ces images sont plus prononcées que l'image d'origine.

La segmentation multi-échelle eCognition s'est avérée être la méthode supérieure à l'heure actuelle [21] ainsi, cette méthode a été utilisée pour la division de scène et la segmentation d'image de scène ultérieure. Il y a trois paramètres dans cette méthode : l'échelle, la forme et la compacité. Les paramètres d'expérience de l'image A étaient l'échelle : 1000, la forme : 0,1 et la compacité : 0,5 et les paramètres définis pour l'image B étaient l'échelle : 1500, la forme : 0,1 et la compacité : 0,5. Les bandes choisies pour la division de scène de l'image A étaient le proche infrarouge, la couche de teinte, la couche moyenne, la couche d'homogénéité et la couche d'entropie avec une pondération de 1 : 1 : 1 : 1 : 1. Les bandes choisies pour la division de scène de l'image B étaient bleues , vert, rouge, proche infrarouge, couche de teinte, couche moyenne, couche d'homogénéité et couche d'entropie avec une pondération de 1 : 1 : 1 : 1 : 2 : 2 : 2 : 2, qui a pondéré les couches de texture plus que l'autre paramètres. La figure 3 montre les résultats de la division de la scène après segmentation de l'image à l'aide des paramètres décrits et fusion des scènes d'écrasement. L'image globale A a été divisée en six scènes, et selon leurs différents caractères dominants, elles ont été nommées comme suit : bâtiment bas couvert, bâtiment haut couvert, plantes basses couvertes, plantes hautes couvertes et scène océanique (Figure 3). Les nuages ​​ont été supprimés de l'image, l'image globale ci-dessous n'inclut donc pas de scène de nuages. L'image globale B a été divisée en scènes de ville, de minéraux et de deux plantes basses couvertes (Figure 4).

3.3. Segmentation et classification des images

Le résultat de la segmentation a une grande influence sur la classification ultérieure, de sorte que la précision de la classification, dans une certaine mesure, peut refléter les mérites de la segmentation [47]. Par conséquent, le résultat de la classification peut être utilisé pour évaluer le résultat de la segmentation dans cette étude. Cet article met en place des expériences comparatives pour vérifier l'efficacité de la méthode d'analyse d'image orientée objet basée sur la division de scène. À l'exception de la division de scène, les autres processus de ces deux ensembles d'expériences sont identiques. L'image globale et les images de scène utilisent la même classification et les mêmes échantillons de test.

Les tableaux 1 à 4 indiquent le nombre d'échantillons de classification et d'essai. Un plus grand nombre de caractéristiques utilisées dans la classification nécessitent un temps de calcul plus long [48], donc seuls la luminosité, le NDVI, le NDWI et l'indice de forme ont été utilisés comme caractéristiques de classification. GSA a été utilisé pour obtenir des résultats de segmentation optimaux pour différentes scènes.


Le maïs est une culture vivrière importante dans le monde, largement distribuée dans de nombreux pays en raison de son excellente adaptabilité environnementale. De plus, le maïs est une importante source d'alimentation pour la production animale et c'est une matière première indispensable pour de nombreuses industries différentes. Avec l'augmentation de la population humaine et la diminution des terres arables, l'accent est mis de plus en plus sur l'augmentation du rendement du maïs.

L'analyse du réseau de neurones convolutifs (CNN) peut être utilisée pour la prédiction de rendement non destructive et est bien adaptée à la classification et à l'extraction de caractéristiques. L'objectif global de cette expérience était d'utiliser l'imagerie hyperspectrale pour former un modèle de classification CNN afin d'estimer le rendement en grains de maïs. Des images hyperspectrales à haute résolution ont été capturées à cinq stades de croissance du maïs - V5 (cinq feuilles avec collets visibles), V8 (huit feuilles avec collets visibles), V10 (dix feuilles avec collets visibles), V12 (12 feuilles avec collets visibles ) et R2 (stade blister). L'imagerie hyperspectrale a été débruitée à l'aide de la méthode d'analyse par ondelettes, puis a été utilisée pour entraîner et valider le modèle CNN. Les informations spectrales reflétant les caractéristiques internes et les informations spatiales fournies par l'image couleur (bandes rouges, vertes et bleues extraites de l'image hyperspectrale) reflétant les caractéristiques externes de la croissance du maïs sont extraites pour modélisation et vérification. Les résultats montrent que le modèle CNN intégré basé sur des images spectrales et couleur a une précision de classification de 75,50 %. En revanche, la précision d'un modèle CNN unidimensionnel basé uniquement sur des informations spectrales ou d'un modèle CNN bidimensionnel basé uniquement sur des informations d'image couleur était de 60,39 % et 32,17 %, respectivement. Le modèle CNN intégré (informations spectrales plus informations d'image couleur) est meilleur que les résultats des modèles CNN unidimensionnels ou bidimensionnels individuels. En plus. Le coefficient Kappa du modèle CNN intégré est de 0,69, ce qui indique une cohérence élevée de la classification. L'utilisation complète des informations spectrales et des informations d'image couleur, qui représentent des informations sur la canopée intérieure et extérieure du maïs, peut fournir une prévision plus précise du rendement du maïs que les modèles CNN unidimensionnels ou bidimensionnels.


Classification de photos aériennes à très haute résolution à l'aide de réseaux de neurones à convolution spectrale-spatiale

1 School of Systems, Management and Leadership, Faculty of Engineering and Information Technology, University of Technology Sydney, Building 11, Level 06, 81 Broadway, P.O. Box 123, Ultimo, NSW 2007, Australie

Abstrait

La classification des photographies aériennes reposant uniquement sur le contenu spectral est un sujet difficile en télédétection. Un réseau de neurones convolutifs (CNN) a été développé pour classer les photographies aériennes en sept classes de couverture terrestre telles que les bâtiments, les prairies, la végétation dense, les plans d'eau, les terres arides, les routes et les ombres. Le classificateur a utilisé le contenu spectral et spatial des données pour maximiser la précision du processus de classification. CNN a été formé à partir de zéro avec des échantillons de vérité terrain créés manuellement. L'architecture du réseau comprenait une seule couche de convolution de 32 filtres et une taille de noyau de 3 × 3, une taille de regroupement de 2 × 2, une normalisation par lots, un abandon et une couche dense avec activation Softmax. La conception de l'architecture et ses hyperparamètres ont été sélectionnés via une analyse de sensibilité et une validation de précision. Les résultats ont montré que le modèle proposé pouvait être efficace pour classer les photographies aériennes. La précision globale et le coefficient Kappa du meilleur modèle étaient respectivement de 0,973 et 0,967. De plus, l'analyse de sensibilité a suggéré que l'utilisation de la technique de décrochage et de normalisation par lots dans CNN est essentielle pour améliorer les performances de généralisation du modèle. Le modèle CNN sans les techniques ci-dessus a obtenu les pires performances, avec une précision globale et un Kappa de 0,932 et 0,922, respectivement. Cette recherche montre que les modèles basés sur CNN sont robustes pour la classification de la couverture terrestre à l'aide de photographies aériennes. Cependant, l'architecture et les hyperparamètres de ces modèles doivent être soigneusement sélectionnés et optimisés.

1. Introduction

Classer les données de télédétection (en particulier les orthophotos de trois bandes - rouge, vert, bleu (RVB)) avec les méthodes traditionnelles est un défi même si certaines méthodes dans la littérature ont produit d'excellents résultats [1, 2]. La principale raison en est que les ensembles de données de télédétection ont une variabilité intra et interclasse élevée et que la quantité de données étiquetées est beaucoup plus petite par rapport à la taille totale de l'ensemble de données [3]. D'autre part, les avancées récentes dans les méthodes d'apprentissage en profondeur telles que les réseaux de neurones convolutifs (CNN) ont montré des résultats prometteurs dans la classification des images de télédétection, en particulier la classification des images hyperspectrales [4-6]. Les avantages des méthodes d'apprentissage en profondeur incluent l'apprentissage de caractéristiques d'ordre supérieur à partir des données qui sont souvent utiles que les pixels bruts pour classer l'image dans certaines étiquettes prédéfinies. D'autres avantages de ces méthodes sont l'apprentissage spatial d'informations contextuelles à partir de données via le regroupement de caractéristiques à partir d'un voisinage spatial local [3].

Il existe plusieurs méthodes et algorithmes qui ont été adoptés par de nombreux chercheurs pour classer efficacement une photo aérienne à très haute résolution et produire des cartes d'occupation du sol précises. Des méthodes telles que l'analyse d'images à base d'objets (ou OBIA) ont été principalement étudiées en raison de leur avantage dans le traitement d'images à très haute résolution via des caractéristiques spectrales et spatiales. Dans un article récent, Hsieh et al. [7] a appliqué la classification des photos aériennes en combinant OBIA avec un arbre de décision utilisant la texture, la forme et les caractéristiques spectrales. Leurs résultats ont atteint une précision de 78,20 % et un coefficient Kappa de 0,7597. Vogels et al. [8] ont combiné l'OBIA avec la classification aléatoire des forêts avec des informations sur la texture, la pente, la forme, le voisinage et le spectre pour produire des cartes de classification des zones agricoles. Ils ont testé leur algorithme sur deux ensembles de données, et les résultats ont montré que la méthodologie employée était efficace avec des précisions de 90 % et 96 % pour les deux zones d'étude, respectivement. D'autre part, un nouveau modèle a été présenté par Meng et al. [9], où ils ont appliqué OBIA pour améliorer la classification de la végétation basée sur des photos aériennes et des systèmes de positionnement global. Les résultats ont illustré une amélioration significative de la précision de la classification qui est passée de 83,98 % à 96,12 % de la précision globale et de 0,7806 à 0,947 de la valeur Kappa. De plus, Juel et al. [10] showed that random forest with the use of a digital elevation model could achieve relatively high performance for vegetation mapping. In a most recent paper, Wu et al. [2] developed a model based on a comparison between pixel-based decision tree and object-based SVM to classify aerial photos. The object-based support vector machine (SVM) had higher accuracy than that of the pixel-based decision tree. Albert et al. [11] developed classifiers based on conditional random fields and pixel-based analysis to classify aerial photos. Their results showed that such techniques are beneficial for land cover classes covering large, homogeneous areas.

2. Related Works

The success of CNN in the fields like computer vision, language modeling, and speech recognition has motivated the remote sensing scientists to apply it in image classification. There are several works that have been done on CNN for remote sensing image classification [12–15]. This section briefly explains some of these works highlighting their findings and their limitations.

Sun et al. [16] proposed an automated model for feature extraction and classification with classification refinement by combining random forest and CNN. Their combined model could perform well (86.9%) and obtained higher accuracy than the single models. Akar [1] developed a model based on rotation forest and OBIA to classify aerial photos. Results were compared to gentle AdaBoost, and their experiments suggested that their method performed better than the other method with 92.52% and 91.29% accuracies, respectively. Bergado et al. [17] developed deep learning algorithms based on CNN for aerial photo classification in high-resolution urban areas. They used data from optical bands, digital surface models, and ground truth maps. The results showed that CNN is very effective in learning discriminative contextual features leading to accurate classified maps and outperforming traditional classification methods based on the extraction of textural features. Scott et al. [13] applied CNN to produce land cover maps from high-resolution images. Other researchers such as Cheng et al. [12] used CNN as a classification algorithm for scene understanding from aerial imagery. Furthermore, Sherrah [14] and Yao et al. [15] used CNN for semantic classification of aerial images.

This research investigates the development of a CNN model with regularization techniques such as dropout and batch normalization for classifying aerial orthophotos into general land cover classes (e.g., road, building, waterbody, grassland, barren land, shadow, and dense vegetation). The main objective of the research is to run several experiments exploring the impacts of CNN architectures and hyperparameters on the accuracy of land cover classification using aerial photos. The aim is to understand the behaviours of the CNN model concerning its architecture design and hyperparameters to produce models with high generalization capacity.

3. Methodology

This section presents the dataset, preprocessing, and the methodology of the proposed CNN model including the network architecture and training procedure.

3.1. Dataset and Preprocessing
3.1.1. Dataset

To implement the current research, a pilot area was identified based on the diversity of the land cover of the area. The study area is located in Selangor, Malaysia (Figure 1).


Training and Testing:

The computational intensive part of ML is the optimization of the parameters of the classifier. Neural networks commonly have millions of parameters and can only be optimized using special hardware, software libraries, and starting values for the parameters.

Hardware options for deep learning include:

· Specially designed, energy efficient ASICs

· Highly parallelized GPUs and

· Large memory supported CPUs.

We used high-end consumer hardware to train algorithms for image classification and object detection our computational server is the NVIDIA DevBox with four Maxwell GeForce Titan X GPUs. Advantages for different hardware choices depend on the application, available budget, and the desired training time.

There are several software frameworks for performing deep learning most support parallelization on NVIDIA GPUs. Initially, we chose to work with the deep learning framework Caffe because of the Python support and the access to pre-trained networks. For programmers comfortable with Python or C++, Tensorflow is a well-documented framework with a growing developer base. We generally design new network architectures in Tensorflow, but use Caffe to fine-tune pre-trained networks. NVIDIA Digits is a polished frontend to labeled data management and Caffe-based model training.