Suite

2 : Données - Géosciences

2 : Données - Géosciences


En admirant une carte bien conçue, il est facile d'oublier qu'elle est faite de données provenant de quelque part. Un individu ou un groupe de personnes a posé une ou plusieurs questions, recueilli des données en réponse et traité les chiffres bruts avant de tout mettre sur la carte. Ces données ne sont nécessairement qu'une petite partie de ce qui peut être mesuré, car il est impossible de mesurer toutes les caractéristiques de tous les lieux et de tous les temps. Au lieu de cela, nous nous concentrons sur comment et pourquoi les données ont été collectées pour quoi, où et quand.

Ce chapitre vous présentera :

  • Éléments et types courants de données spatiales.
  • Métadonnées ou données sur les données.
  • Comment les données du recensement américain – une enquête qui sous-tend de nombreux exemples et activités de ce livre – sont collectées et agrégées.

Résolution, précision et interopérabilité - des concepts importants qui font partie des métadonnées et qu'il est important de garder à l'esprit lors du choix des données appropriées pour un projet.

À la fin de ce chapitre, vous devriez être en mesure de poser des questions réfléchies sur les données utilisées dans la cartographie.

Les données cartographiques ont trois caractéristiques clés :

  • Spatial – un objet est localisé ou un événement s'est produit
  • Temporel – lorsque l'emplacement et les attributs étaient exacts (c'est-à-dire lorsqu'ils ont été collectés)
  • Attribut - quelle caractéristiques de l'objet ou de l'événement

Imaginez que nous ayons des données sur les États américains. Spatial Les caractéristiques des données, à savoir l'emplacement des frontières de l'État, sont nécessaires pour mettre les données sur une carte ou les utiliser. Plus généralement, les informations spatiales peuvent prendre la forme d'une adresse postale, de coordonnées latitude-longitude ou de la zone dans laquelle les données ont été collectées (par exemple, îlot résidentiel, ville, état, pays). Temporel les caractéristiques font référence à la façon dont les données représentent un « instantané » de ce à quoi ressemblaient les choses au moment où les données ont été collectées, telles que les données du recensement de l'an 2000. Enfin, attribut les caractéristiques décrivent la nature d'un lieu. Dans le cas des États, nous pourrions nous intéresser à la population ou au revenu ou à l'une des centaines d'autres caractéristiques.


Tableau de données et carte. Cette table attributaire et la carte liée montrent les limites des États avec les données du U.S. Census Bureau sur la densité de population. Le tableau et la carte représentent deux éléments clés des données spatiales : l'emplacement et les attributs. Un troisième élément important, non illustré, est l'heure à laquelle ces données ont été recueillies. [1]

Deux méthodes principales de collecte de données spatiales, ou de collecte d'informations sur des lieux, sont l'arpentage au sol et la télédétection. Arpentage au sol implique une personne ou un mécanisme observe ou interagit avec des personnes ou l'environnement dans un endroit particulier. Télédétection fait référence à la collecte de données à distance, souvent en prenant des photos depuis un avion ou un satellite.

2.2.1 Arpentage du sol

L'arpentage au sol est effectué par un individu ou un mécanisme interagissant avec un endroit particulier. Cela peut inclure une personne collectant des données de localisation avec un combiné qui fonctionne avec un système de positionnement global (GPS), une constellation de satellites qui envoient des signaux vers la terre où ils peuvent être utilisé pour déterminer la position. Les sondages impliquent de parler aux gens ou de voyager à différents endroits pour recueillir des informations. Un autre type de levé au sol se produit dans les stations météorologiques qui mesurent la température et d'autres informations climatologiques à un endroit donné. Ceci est similaire à un processus appelé géocodage, où les données avec un élément de localisation tel qu'une adresse ou un code postal, sont mises en correspondance avec leurs coordonnées au sol respectives déjà connues.

Arpentage est l'une des méthodes les plus anciennes pour déterminer l'emplacement. Essentiellement, les arpenteurs-géomètres utilisent une variété d'outils pour déterminer les positions précises des emplacements en triangulant à partir de la position des emplacements connus, ou en d'autres termes, en utilisant les mathématiques des angles et des distances pour trouver des emplacements. L'arpentage existe depuis des milliers d'années, probablement pour déterminer les limites des terres et aider à construire de grands bâtiments. À partir des années 1800, les arpenteurs-géomètres ont aidé à cartographier de nombreux pays, travaillant à partir de lieux connus vers des lieux inconnus.


Arpentage des terres. Les bases de la cartographie moderne ont été jetées par des personnes marchant et mesurant le terrain avec des télescopes spécialisés (à gauche) et des stations totales modernes compatibles GPS (à droite). [2][3]

Systèmes de positionnement global (GPS) sont des constellations de satellites en orbite autour de la terre. Ces satellites transmettent des signaux à la surface de la terre qui indiquent leur position dans l'espace et un signal horaire très précis. Un appareil équipé d'un récepteur GPS approprié peut interpréter ces signaux et déterminer l'emplacement de l'appareil sur la terre. Nous considérons l'utilisation d'une unité GPS pour trouver l'emplacement comme une forme d'arpentage au sol car les satellites eux-mêmes ne collectent pas d'informations ; c'est le combiné ou l'unité GPS qui détermine la position à partir des signaux satellites.


Constellation GPS. Le système de positionnement global est un système, ou une constellation, de satellites en orbite autour de la terre qui permet aux combinés d'établir leur localisation. [4]

Pendant des décennies, la localisation précise d'objets avec des unités GPS a nécessité un équipement coûteux et une formation spécialisée. Il a été entrepris principalement par les militaires, les scientifiques et les organisations gouvernementales. Avec les développements technologiques rendant les puces informatiques plus petites et plus rapides, les récepteurs GPS sont désormais la norme dans les téléphones mobiles. Il est possible pour toute personne d'enregistrer, ou de marquer, l'emplacement où une photo a été prise ou de suivre les mouvements quotidiens sans expertise particulière. Cette facilité d'utilisation augmente considérablement qui est capable de créer des données spatiales et la quantité de données spatiales qui existent et doivent être stockées.

Les GPS ont leurs inconvénients. Étant donné que les combinés doivent recevoir des signaux de satellites en orbite autour de la terre, ces signaux peuvent être bloqués par des objets solides, tels que des arbres, des bâtiments ou des éléments paysagers tels que les côtés de tunnels ou de ravins. Obtenir un signal fort dans une zone modérément boisée peut être difficile, tout comme dans une ville avec de grands immeubles. Il y a un nombre limité de satellites en orbite autour de la terre, et il y a des moments où le combiné est dans une position non optimale par rapport à ces satellites. Un combiné GPS doit recevoir des signaux d'au moins quatre satellites, et idéalement plus, qui sont répartis uniformément dans le ciel, mais il y a des moments où ces sources sont regroupées par rapport à la position du combiné et les coordonnées qu'il fournit seront inexactes. Enfin, selon la qualité du combiné, les coordonnées GPS peuvent également être inexactes lorsque le combiné se déplace rapidement, comme dans une voiture ou un avion. Notez que, d'une manière générale, les intempéries telles que la neige, la pluie ou les nuages ​​n'interfèrent pas avec les signaux GPS.


Combiné GPS. Les combinés sont équipés de radios et d'ordinateurs spécialisés qui reçoivent les signaux des satellites GPS et déterminent ensuite l'emplacement. [5]

Géocodage est le processus consistant à associer un emplacement géographique à une sorte d'information d'adresse, telle qu'une adresse de maison ou un code postal, ou une description verbale telle que "l'intersection d'Elm Avenue et de Main Street". Le géocodage prend un certain nombre de formes différentes, mais la plupart utilisent une forme de base de données d'adresses dont les emplacements sont connus avec précision. Les adresses non localisées sont mises en correspondance avec ces adresses connues dans la base de données.


Le géocodage consiste à faire correspondre les adresses postales à des adresses connues ou à de meilleures estimations basées sur des plages d'adresses postales le long des rues déjà présentes sur une carte. [6]

Enquêtes recueillir des informations sur les attributs des individus, des ménages, des entreprises ou des zones. Toutes les enquêtes ne collectent pas d'informations spatiales, mais lorsqu'elles le font, les données peuvent être liées à un emplacement sur une carte. Les sondages peuvent être envoyés par la poste aux ménages, recueillis en personne ou menés par téléphone. Ils se concentrent généralement sur une sous-population ou une activité spécifique (par exemple, les perceptions des élèves quant à la sécurité en rentrant chez eux). Un recensement est un type spécial d'enquête qui recueille des données sur tous les membres d'une population (par exemple, dans le but de tous les habitants d'un pays). Notez que les informations d'enquête sont généralement des informations d'attribut et que la détermination de l'emplacement nécessite un géocodage (comme avec une enquête par courrier qui enregistre l'adresse de la personne interrogée) ou l'utilisation d'un combiné GPS par la personne qui participe à l'enquête. Un autre type d'enquête se produit lorsque des entreprises comme Google équipent les voitures de récepteurs GPS et d'appareils photo et se déplacent en enregistrant des images de leur environnement.

Capteurs. Il existe un nombre croissant de capteurs utilisés pour mesurer un large éventail de faits humains et environnementaux. Nous avons depuis longtemps des stations climatiques, par exemple, qui mesurent de nombreuses variables, notamment la température, l'ensoleillement et les précipitations. Les emplacements de ces capteurs sont déterminés par GPS, arpentage au sol ou géocodage.


Station d'observation du climat. Des stations au sol telles que celles-ci collectent des informations sur la météo. [7]

2.2.2 Télédétection

Comme son nom l'indique, les données de télédétection sont collectées à distance de l'objet qu'elles étudient. Ces données sont généralement collectées par des capteurs montés sur des avions, des satellites ou des drones. Certains capteurs collectent des images avec des appareils photo qui fonctionnent essentiellement sur les mêmes principes que ceux que vous trouveriez dans un appareil photo portable ou un appareil photo numérique pour téléphone portable. Ces caméras collectent la lumière visible que les yeux humains peuvent reconnaître. D'autres capteurs détectent différentes parties non visibles du spectre électromagnétique, telles que l'infrarouge (chaleur). D'autres encore peuvent scanner activement la terre avec une technologie comme le radar.


Imagerie satellitaire. Peinture du satellite de télédétection Landsat 7. Notez que le satellite ne projette pas vraiment un faisceau de lumière à quatre côtés sur la surface de la Terre, c'est juste une licence artistique. Au lieu de cela, les capteurs du satellite enregistrent l'énergie électromagnétique réfléchie ou émise par la Terre. [8]

Vous avez probablement vu des données de télédétection comme fond de carte pour Google Maps ou d'autres cartes en ligne. Cette imagerie est également utilisée pour un large éventail d'objectifs, en particulier la surveillance des changements dans l'environnement sur de vastes zones telles que la déforestation en Amazonie ou les marées noires.


Image satellite d'une marée noire. Une image de l'espace d'une nappe de pétrole provenant de l'accident de Deepwater Horizon dans le golfe du Mexique (24 mai 2010). [9]

Des photos sont également prises par des avions et des drones. L'une des utilisations les plus courantes est de prendre des photos de la surface de la terre. Ces photos sont ensuite converties par des professionnels de la cartographie en cartes du sol.


Photogrammétrie aérienne. La photogrammétrie est le processus consistant à prendre des mesures du sol à partir de photos de la terre afin de rendre les données nécessaires aux cartes. [10]

Lorsque vous travaillez avec des cartes, vous utiliserez souvent des données que vous n'avez pas créées. Les métadonnées vous aident à déterminer si les données sur la carte sont appropriées pour votre question ou votre projet. Métadonnées sont des données sur des données. Nous sommes généralement plus intéressés par les caractéristiques des données spatiales, temporelles et attributaires, mais les métadonnées vont plus loin et fournissent des informations, notamment :

  • Qui a collecté les données ?
  • Comment les données ont-elles été collectées et classées ?
  • Quand les données ont-elles été collectées ?
  • Quelle est la précision des données ?
  • Quelle est la résolution des données ? (Plus d'informations à ce sujet ci-dessous !)

Soyez prudent en utilisant une carte si vous ne trouvez pas de métadonnées. Cette mise en garde est particulièrement importante car les métadonnées vous permettent d'évaluer dans quelle mesure les données peuvent fonctionner avec d'autres données. Ci-dessous, nous examinons les problèmes de résolution, de précision et d'interopérabilité entre les ensembles de données. Les cartographes explorent ces problèmes, puis les ajoutent aux métadonnées attachées à une carte.

Une forme importante de données d'enquête sont les données de recensement, ou celles collectées par les gouvernements nationaux sur leurs populations. Nous utilisons l'exemple des données de recensement collectées par le United States Census Bureau, car le recensement est la principale source de données sociales utilisées par le gouvernement, les organisations à but non lucratif et les entreprises. Ces données sont créées à l'aide de procédures bien documentées et sont disponibles à diverses échelles pour l'ensemble du pays. Enfin, de nombreux outils de cartographie en ligne gratuits fournissent des données de recensement, ce qui permet d'explorer les concepts de cartographie sans formation technique rigoureuse.

2.4.1 Contexte du recensement

Le recensement des États-Unis est effectué tous les dix ans dans le but de compter chaque personne dans le pays, bien que, comme décrit ci-dessous, il soit presque impossible d'atteindre cet objectif. Le recensement recueille des informations sur la race, l'âge et la situation de logement de la population. L'objectif principal du recensement, tel qu'établi dans la Constitution, est de déterminer le nombre de sièges que chaque État aura à la Chambre des représentants des États-Unis, la branche législative du gouvernement. Les limites des circonscriptions électorales doivent ensuite être redessinées dans les États qui ont gagné ou perdu des sièges entre les années de recensement (nous examinerons de plus près la façon dont le redécoupage est effectué et les défis spatiaux du processus dans les chapitres suivants). Les recensements déterminent également comment des centaines de milliards de dollars de financement fédéral sont distribués à de nombreuses fins importantes, notamment l'éducation, les soins de santé, la protection de l'environnement, les transports et d'autres formes d'aide fédérale aux États et aux villes.

Le premier recensement américain, effectué en 1791 par seize maréchaux américains et 650 assistants, dénombrait environ 3,9 millions de personnes. Ils ne posaient que quelques questions : le nombre de personnes libres, le nombre d'esclaves, le sexe et la race de chaque individu.


Formulaire de recensement 1791. Ce formulaire pour le premier recensement aux États-Unis a été rempli par un recenseur qui a posé quelques questions. [11]

En 1960, avec une population approchant les 180 millions d'habitants, il n'était plus possible d'avoir un agent recenseur dans chaque ménage. Au lieu de cela, des questionnaires ont été envoyés par la poste à chaque ménage, et des employés temporaires ont assuré un suivi en personne auprès des ménages qui n'avaient pas répondu.


Formulaire de recensement de 1960. Il s'agit d'une copie vierge du formulaire de recensement de 1960 qui a été posté à chaque ménage à remplir. [12]

Les questions posées à tous les ménages comprennent désormais le nombre de personnes selon l'âge, le sexe, l'origine ethnique, la propriété et la composition du ménage. Entre 1940 et 2000, un ménage sur six a également reçu une enquête plus détaillée sur le « formulaire long » qui posait des questions sur un éventail beaucoup plus large de sujets, notamment le revenu, la profession, la durée du trajet domicile-travail et le service militaire. Le Census Bureau a ensuite utilisé cet échantillon pour estimer les caractéristiques du reste de la population.

La demande de données sociales plus actuelles a conduit au développement de l'American Community Survey (ACS), qui a remplacé le questionnaire détaillé du recensement en 2010. L'ACS est menée chaque année afin de fournir des « instantanés » plus fréquents des données démographiques, économiques et caractéristiques de logement de la population. Cependant, seuls 2 à 3 millions de ménages reçoivent l'enquête par an (moins de 2 % de la population), ce qui introduit des erreurs statistiques substantielles dans les estimations pour l'ensemble de la population. Les données du recensement et de l'ACS sont collectées auprès de chaque ménage, mais afin de préserver la confidentialité et de rendre les données plus faciles à utiliser, le Census Bureau agrège les données dans des zones géographiques plus vastes.

Bien que des données soient disponibles pour un grand nombre de zones géographiques différentes, nous travaillerons principalement avec des secteurs de recensement et des comtés dans ce cours. Les secteurs de recensement ont une taille de population comprise entre 1 200 et 8 000 personnes, avec une taille optimale de 4 000 personnes. Les limites des secteurs de recensement suivent généralement des caractéristiques environnementales ou politiques, mais la taille spatiale des secteurs de recensement peut varier considérablement en fonction de la densité de l'établissement et de la population. Les limites et les formes des secteurs de recensement sont dessinées dans le but qu'elles restent à peu près les mêmes pendant longtemps afin que des comparaisons statistiques puissent être faites d'un recensement à l'autre.

2.4.2 Limites des données de recensement

Le recensement est la source la plus complète d'informations démographiques disponibles pour les États-Unis, mais il a encore des limites importantes.

Le principal défi est la précision et le sous-dénombrement. Le recensement tente de prendre un instantané du nombre de personnes et de leur lieu de résidence au 1er avril.st de l'année du recensement. La méthode de collecte des données suppose que chaque personne habite dans un logement avec une adresse postale et qu'elle répondra avec précision aux enquêtes. Le Census Bureau a estimé qu'environ 10 millions de personnes ont été manquées dans son dénombrement de 2010.


Recensement 2010. Le premier dénombrement du recensement de 2010 a eu lieu à Noorvik, en Alaska. Un démarrage précoce permet aux recenseurs d'atteindre les villages reculés avant que les résidents ne partent chasser et pêcher ou se déplacer pour des emplois par temps chaud après le dégel printanier. [13]

Le sous-dénombrement n'est pas aléatoire car il est plus répandu dans certaines régions et sous-populations. Ceux qui sont sans abri ou qui ont un logement instable au moment du recensement sont souvent oubliés. Les personnes résidant dans des régions rurales éloignées peuvent être difficiles à contacter par courrier ou en personne. Le recensement est également moins susceptible de recevoir des réponses de ceux qui se méfient du gouvernement, comme les personnes qui craignent que leurs réponses ne soient utilisées par les services d'immigration pour expulser des membres de leur famille sans papiers.

Parce que le recensement n'est effectué que tous les dix ans, les dénombrements ont des conséquences à long terme pour les États et les villes. L'exactitude des décomptes peut être très controversée dans les villes à court d'argent. Par exemple, Detroit a contesté les conclusions du recensement de 2010, ayant trouvé 40 000 personnes en deçà du seuil de population pour de nombreuses sources majeures de financement fédéral. Étant donné que les populations pauvres et marginalisées sont parmi les plus difficiles à dénombrer, les districts qui en ont le plus besoin sont également les plus exposés au sous-financement et à la sous-représentation.

Au-delà des problèmes d'exactitude, alors que le recensement et l'ACS fournissent un vaste ensemble de données sociales, de nombreux sujets ne sont pas couverts. Par exemple, il n'y a pas de questions sur la religion, les dépenses de consommation ou l'affiliation à un parti politique. La quantité et la formulation des questions posées dans le recensement ont changé au fil du temps, et les données ne sont pas toujours disponibles pour tous les endroits ou pour toutes les régions géographiques.

N'oubliez pas qu'il existe de nombreuses autres enquêtes sociales qui collectent des informations sur différents attributs, zones ou périodes. Par exemple, l'Association des statisticiens des organismes religieux américains mène l'« Étude sur les congrégations religieuses et l'adhésion » (RCMS) tous les 10 ans pour suivre les tendances d'affiliation religieuse. Les gouvernements locaux collectent des données pour des projets dans leur région spécifique. Il existe également des recensements menés dans des pays du monde entier avec différents niveaux de détail et de précision.

Lors du choix des données pour analyser un problème spécifique, il y a quelques concepts clés à garder à l'esprit : 1) résolution, 2) précision et 3) interopérabilité. Nous examinerons chacun de ces concepts au regard des trois éléments des données spatiales (localisation, attributs, temps). Chacun de ces concepts peut être regroupé sous le terme de métadonnées en ce sens qu'il s'agit d'informations sur des données (ou des données sur des données). Le développement et la compréhension des métadonnées impliquent de dépasser les bases des « données » en termes de localisation spatiale, d'attributs mesurés et de temps collecté.

2.5.1 Résolution

La résolution décrit l'étendue ou la spécificité des données que vous examinez. Il existe trois principaux types de résolution : spatiale, attributaire et temporelle. Une résolution plus élevée correspond à des zones plus petites sur lesquelles les données sont agrégées, à des distinctions plus étroites entre les catégories ou à des délais plus courts entre les collectes de données. Mais avant d'entrer dans les exemples de résolution liés à la cartographie des données sociales, réfléchissez au concept en relation avec la technologie de tous les jours.

Résolution spatiale. Vous avez probablement déjà vu le terme « résolution » utilisé pour décrire la qualité d'un écran d'ordinateur ou d'un appareil photo de téléphone portable. Chaque image est composée de nombreux petits carrés ou pixels. Lorsque les pixels qui composent l'image plus grande sont petits, plus de détails peuvent être distingués et l'image est dite avoir une résolution plus élevée. À mesure que la taille des pixels carrés augmente, il devient plus difficile de distinguer les petits détails, tels que les gouttelettes d'eau sur les pétales de fleurs. Cela peut être important si vous copiez une image à partir d'un site Web, puis redimensionnez l'image. Selon la résolution de l'image d'origine, vous pouvez soudainement voir des pixels qui étaient auparavant trop petits pour être vus.


Résolution spatiale. Comparaison d'une résolution supérieure et d'une résolution inférieure dans une photographie de feuilles (en haut) ou dans une grille (en bas). [14]

La résolution spatiale peut également faire référence à la question « Quelle est la plus petite unité de surface mesurée ? » Elle est similaire à la résolution en pixels, sauf que la carte n'est souvent pas divisée en carrés de taille égale. Au lieu de cela, la carte peut être divisée entre des limites administratives (telles que des secteurs de recensement, des comtés ou des États) qui ont des formes et des superficies différentes. Plus la zone sur laquelle les données ont été agrégées est grande, plus la résolution est faible et plus il est difficile de distinguer les petits détails dans les données. Dans la figure ci-dessous, les petites zones à forte densité de population ne sont pas visibles avec une résolution spatiale inférieure.


Résolution des données de recensement. Comparaison des données de densité de population agrégées par comté (à gauche) aux données agrégées par secteur de recensement (à droite). [15]

Prenons un exemple. Si vous essayiez de déterminer si le revenu médian de votre bloc avait augmenté au cours des 4 dernières années, mais que les seules données que vous pouviez trouver étaient la résolution au niveau du code postal, il serait difficile d'établir le modèle. Les codes postaux sont sensiblement plus grands que les blocs. Les changements de revenu médian dans d'autres parties du code postal peuvent masquer ou faussement améliorer ce qui se passe dans votre quartier.

Résolution d'attribution traite de la mesure dans laquelle les distinctions sont faites entre les catégories. Les données divisées en plusieurs catégories fournissent des distinctions plus détaillées et donc une résolution d'attribut plus élevée. Par exemple, imaginez que vous êtes intéressé par des données sur l'âge des individus. Si les données sont regroupées en seulement deux catégories – individus de moins de 18 ans et individus de plus de 18 ans – les données auraient une faible résolution d'attribut. Par comparaison, diviser les âges en plusieurs catégories (par exemple, 0-18, 18-34, 34-64, 65+) nous donnerait une résolution d'attribution plus élevée. Si vous avez besoin de connaître le nombre d'individus en âge de voter aux élections nationales, l'utilisation des données de résolution inférieure serait suffisante. Mais si vous êtes intéressé par le nombre de personnes âgées, vous aurez besoin d'une résolution de données plus élevée.

Résolution temporelle est la fréquence à laquelle les données sont collectées, et répond essentiellement à la question : À quelle fréquence ou sur quelle période une mesure est-elle prise ? Dans la section ci-dessus, nous avons noté que le US Census Bureau collecte des données tous les dix ans, alors que l'ACS mène une enquête chaque année. Le recensement est plus précis que l'ACS car il s'appuie sur une plus grande proportion de la population, mais au prix d'une résolution temporelle plus grossière. Il ne serait pas possible d'argumenter sur l'évolution démographique de votre quartier sur une période de cinq ans compte tenu de la résolution temporelle du recensement, car le recensement ne vous donnera un aperçu de votre quartier que tous les dix ans.

En résumé, lorsque vous examinez des données, posez-vous les questions suivantes : regardez-vous la bonne zone pour la question posée ? Les catégories des données sont-elles suffisamment spécifiques pour votre argumentation (ou avez-vous besoin d'élargir vos revendications) ? Les données sont-elles collectées assez fréquemment pour la période que vous souhaitez analyser ?

2.5.2 Précision

La précision décrit dans quelle mesure les données d'une carte s'alignent sur les objets du monde. Il existe trois principaux types de précision : spatiale, attributaire et temporelle.

Précision spatiale répond à la question de savoir dans quelle mesure l'emplacement d'un objet sur la carte correspond à son emplacement dans le monde. Il existe de nombreuses raisons pour lesquelles les emplacements de quelque chose sur une carte ne correspondent pas exactement à ceux sur le terrain en réalité. Les frontières entre les pays peuvent être mal tracées. Les points marqués à l'aide du GPS peuvent être décalés de leur emplacement réel si le signal est bloqué par des arbres ou des immeubles de grande hauteur. La figure ci-dessous montre l'exemple d'une personne dont les mouvements sont suivis par GPS dans un véhicule. La carte semble montrer la personne traversant plusieurs bâtiments, puis traversant une autoroute à neuf voies. Il n'apparaît ainsi sur les cartes qu'en raison d'une erreur dans la manière dont les mesures GPS ont été collectées.


Précision spatiale. Des points bleus marquent le chemin emprunté par un individu transportant un dispositif de localisation GPS dans un véhicule. [16]

Précision des attributs demande si les caractéristiques rapportées sur un objet sont vraies à propos de cet objet dans le monde. Des inexactitudes d'attributs peuvent apparaître dans les données d'enquête si les participants ne répondent pas, comprennent mal les instructions ou fournissent délibérément de fausses informations. Des inexactitudes peuvent également se produire lors de l'estimation des valeurs pour une petite zone sur la base d'un petit nombre de réponses. N'oubliez pas que l'ACS interroge environ 2 % de la population chaque année – 4 personnes sur 200 – puis estime les caractéristiques du reste de la population à partir de ses réponses. L'ACS a une meilleure résolution attributaire et temporelle que le recensement (plus de catégories qui sont collectées plus souvent), mais le recensement est plus précis dans le sens où il compte plus de personnes.

Précision temporelle se préoccupe de savoir si les détails sur un objet sont à jour par rapport aux changements dans le monde. Alors que les données peuvent être exactes et complètes au moment où elles sont collectées, les détails peuvent bientôt être inexacts en raison de changements dans le paysage social et physique. Par exemple, les objets sur une carte de référence imprimée deviendront moins précis au fil du temps à mesure que de nouvelles routes sont construites, supprimées ou reçoivent des changements de nom.


Précision temporelle. Les cartes routières statiques sont mises à jour beaucoup moins fréquemment que Google maps. [17]

2.5.3 Interopérabilité

L'interopérabilité décrit à quel point deux ensembles de données différents fonctionnent les uns avec les autres. Il existe trois principaux types d'interopérabilité : spatiale, attributaire et temporelle.

Posez-vous les questions suivantes : comparent-ils la même zone ? Utilisent-ils les mêmes catégories et les définissent-ils de la même manière ? Ces questions sont particulièrement pertinentes lors de l'utilisation de données collectées par différentes organisations ou sur plusieurs périodes.

Interopérabilité spatiale. Dans quelle mesure les unités spatiales correspondent-elles ? C'est la question qui concerne l'interopérabilité spatiale. Par exemple, les codes postaux et les secteurs de recensement sont des unités spatiales pour lesquelles les données sont fréquemment agrégées, mais leurs limites sont rarement les mêmes. Un secteur de recensement peut appartenir à plusieurs codes postaux et vice versa. Les données au niveau du code postal et les données au niveau du secteur de recensement ont une faible interopérabilité car elles ne présentent pas les caractéristiques du même groupe de personnes.


Géographies de recensement. Géographies de recensement. Zones géographiques pour lesquelles le US Census Bureau met des données à disposition, allant du niveau de l'État jusqu'aux blocs. [18]

Interopérabilité des attributs pose la question : dans quelle mesure les catégories de deux ensembles de données correspondent-elles ? Par exemple, lors du recensement de 2010, les individus pouvaient choisir parmi quinze catégories raciales différentes avec la possibilité de sélectionner plusieurs catégories. Par comparaison, lors du recensement de 1850, les individus n'étaient divisés qu'en trois catégories raciales : « blancs », « noirs » ou « mulâtres ». Ces deux ensembles de données ont une mauvaise interopérabilité des attributs car ils ont une résolution d'attributs très différente et n'ont pas de catégories correspondantes.


Formulaire de recensement 2010 sur la race. Lors du recensement de 2010, les individus pouvaient choisir parmi quinze catégories raciales différentes avec la possibilité de sélectionner plusieurs catégories. [19]

Même une catégorie qui porte un nom similaire entre deux années de recensement peut mesurer des attributs différents. La catégorie « Chinois » utilisée dans le recensement de 1870 a été appliquée aux individus de n'importe quelle partie de l'Asie, plutôt que de la Chine uniquement. Il n'est donc pas interopérable avec le « chinois » utilisé dans le recensement de 2010.

Interopérabilité temporelle. Dans quelle mesure les heures rapportées correspondent-elles ? L'interopérabilité temporelle est la plus préoccupante si vous discutez de ce à quoi ressemblent les choses à un moment donné, mais que vos données ne datent pas du même moment. Par exemple, imaginez que vous travaillez dans une organisation à but non lucratif qui essaie de comparer le nombre d'enfants âgés de 0 à 5 ans au nombre et à l'emplacement des centres de la petite enfance dans une région. Le nombre d'enfants le plus précis provient du recensement de 2010, mais votre organisation dispose d'informations sur les centres de l'enfance collectées en 2015. Ces deux ensembles de données ont une faible interopérabilité temporelle car aucun enfant âgé de 0 à 5 ans au moment du recensement ne serait encore dans ce nombre. tranche d'âge en 2015. Il serait difficile de déterminer si les centres de l'enfance sont bien situés sur la base de ces données. Comme indiqué ci-dessous, vous devez parfois vous soucier de l'interopérabilité spatiale et temporelle !


Interopérabilité spatiale et temporelle. Les limites des différentes années de recensement en Afrique du Sud ne s'alignent pas entre les années car de nouvelles régions ont été ajoutées au fil du temps. Une solution consiste à créer une nouvelle carte qui regroupe les régions ; cette géographie intégrée permet de comparer les données entre les cartes. [20]

En résumé, lorsque vous examinez plusieurs ensembles de données, demandez-vous : est-il judicieux de comparer ces données ? Les données générées pour la même zone utilisent-elles les mêmes unités spatiales ? Les catégories d'attributs sont-elles définies de la même manière par l'organisation ou les organisations qui ont produit les données et au fil du temps ? Les données ont-elles été produites sur une période comparable?

Il existe de nombreux logiciels pour faire des cartes et la plupart offrent une gamme de données à leurs utilisateurs. Bien que ces programmes soient traditionnellement développés pour les ordinateurs de bureau, un nombre important et croissant de sites Web et d'applications Web permettent aux utilisateurs de visualiser et de créer des cartes en ligne. Ces cartes et outils ont été développés dans le but de rendre les données plus accessibles aux chercheurs, aux politiciens et aux membres du public.

Social Explorer est un exemple d'outil de cartographie en ligne, développé pour faciliter l'accès et l'utilisation des données générées par le US Census Bureau. Gardez à l'esprit que de nombreuses organisations se concentrent sur la mise en ligne de cartes et n'ont joué aucun rôle dans la collecte des données sous-jacentes. Au lieu de cela, les cartes en ligne et les outils de cartographie agissent comme des bibliothèques en rassemblant des informations provenant de plusieurs sources. Notez que Social Explorer n'est pas la source des données cartographiées ; c'est notre outil pour explorer les données créées par le Census Bureau.

Chaque fois que vous regardez une carte, il est important de penser à la façon dont les données qui ont été visualisées ont été générées. Qui a créé la carte ? Comment les données sous-jacentes ont-elles été collectées ? Quelles questions ont été posées à qui ? Quelle est la précision de la carte ? Que manque-t-il? Même les données les plus soigneusement créées contiennent des erreurs et ont un contexte dans un paysage social, politique et culturel. Pour être un utilisateur et un créateur de cartes responsable, vous devez penser à ce que vous pouvez et ne pouvez pas montrer compte tenu de la résolution, de la précision et de l'interopérabilité des données disponibles. Il est important de citer les sources des données que vous incluez sur votre carte afin que votre public puisse trouver des informations supplémentaires.

Alors que nous explorons comment symboliser et simplifier les données, créer une carte attrayante et analyser les relations spatiales des données, rappelez-vous : une carte ne peut être aussi bonne que les données qui la composent.

Ressources

For more information about the history of census questions and procedures, and what the census does and does not ask:

  • US Census
  • Social Explorer

For more information about GPS:

  • Pennsylvania State University Geography 482: The Nature of Geographic Information
  • Adam Goetsch at USC


Big data in geoscience

I was looking for something to do in London this week. Tempted by the Deep-water contintental margins meeting in Piccadilly, I instead took the opportunity to attend a different kind of conference. The media group O'Reilly, led by the inspired Tim O'Reilly, organizes conferences. They're known for being energetic, quirky, and small-company-friendly. I wanted to see one, so I came to Strata.

Strata is the conference for big data, one of the woolliest buzzwords in computer science today. Some people are skeptical that it's anything other than a new way to provoke fear and uncertainty in IT executives, the only known way to make them spend money. Indeed, Google "big data" and the top 5 hits are: Wikipedia (obvsly), IBM, McKinsey, Oracle, and EMC. It might be hype, but all this attention might lead somewhere good.

We're all big data scientists

Geoscientists, especially geophysicists, are unphased by the concept of big data. The acquisition data from a 3D survey can easily require 10TB (10,240GB) or even 100TB of storage. The data must be written, read, processed, and re-written dozens of times during processing, then delivered, loaded, and interpreted. In geoscience, big data is normal data.

So it's great that big data problems are being hacked on by thousands of developers, researchers, and companies that, until about a year ago, were only interested in games and the web. About 99% of them are not working on problems in geophysics or petroleum, but there will be insight and technology that will benefit our industry.

It's not just about data management. Some of the most creative data scientists in the world are at this conference. People are showing dense, and sometimes beautiful, visualizations of giant datasets, like the transport displays by James Cheshire's research group at UCL (right). I can't wait to show some of these people a SEG-Y or LAS file and, unencumbered by our curmudgeonly tradition of analog display metaphors, see how they would display it.


Voir la vidéo: Téléchargement et préparation des images Aster sous Erdas