Suite

Interpolation spatiale de 30 stations météorologiques vers d'autres zones

Interpolation spatiale de 30 stations météorologiques vers d'autres zones


J'ai des données mensuelles (et parfois quotidiennes) sur les températures d'environ 30 stations météorologiques suédoises au milieu du XIXe siècle que je souhaite interpoler à l'ensemble du pays. J'utilise ArcGIS et Stata.

Pour les années suivantes, j'ai des données sur des stations météorologiques supplémentaires (environ 100), j'ai donc pensé à utiliser les dernières données pour calibrer un modèle utilisant les anciennes stations pour prédire la météo dans les nouvelles stations. Étant donné que je connais la météo réelle des nouvelles stations, j'ai pu calibrer pour modéliser pour obtenir le meilleur ajustement possible. Mais je ne sais pas quelle bonne méthode pour obtenir un ajustement approprié (je ne veux pas risquer un surajustement par exemple).


Vous pouvez probablement obtenir une interpolation raisonnable en utilisant une régression linéaire (en supposant que vos 30 stations météorologiques sont un échantillon représentatif) en utilisant l'altitude, la latitude et la distance de la côte comme variables indépendantes avec le jour comme facteur. J'ai déjà fait cela en utilisant ArcGIS et R.

Températures quotidiennes à 9h et 15h sur 10 jours en 2003 à partir des stations météorologiques du sud-est de l'Australie

Étapes de base :

  • Obtenez un modèle d'élévation numérique de votre région.
  • Obtenir un littoral vectoriel ou raster
  • Générer un raster de latitude (exemple)
  • Générer une distance à partir du raster de la côte (peut-être avec la distance euclidienne)
  • Pour les variables pour lesquelles vous n'avez pas de données pour chaque station, utilisez l'outil Échantillonner ou Extraire les valeurs en points pour interroger le raster approprié. Je n'avais besoin de le faire que pour la distance par rapport à la côte, car les données de ma station météo contenaient lon, lat et l'altitude.
  • Insérez l'altitude, la latitude et la distance en tant que variables indépendantes, la température en tant que variable dépendante et le jour en tant que facteur dans un modèle de régression linéaire dans r/sps/stata/etc…
  • Si vous obtenez un ajustement correct, utilisez les coefficients du modèle pour créer une expression de calculatrice raster (température = α + βélever*élévation + βlatitude*lat + βdist*dist) pour estimer la température à partir de l'altitude, de la latitude et de la distance. Vous devrez peut-être scripter cela car vous obtiendrez des coefficients différents pour chaque jour.

Cet article évalue les performances de six différentes méthodes d'interpolation basées sur le système d'information géographique : pondération de distance inverse (IDW), fonction de base radiale (RBF), interpolation polynomiale globale, interpolation polynomiale locale, krigeage et cokrigeage, en utilisant la base de données Ohio homes développée entre 1987 et 2011. La méthode d'interpolation la plus performante à utiliser dans la prévision des concentrations de gaz radon dans les zones non mesurées de l'Ohio, aux États-Unis, a été déterminée en validant les prévisions du modèle avec des mesures de performance opérationnelle. De plus, cette étude a effectué une analyse basée sur le niveau du code postal qui a fourni une image complète de la distribution de la concentration de gaz radon dans l'Ohio.

La méthode RBF a été identifiée comme la méthode la plus performante. Bien que la méthode RBF ait donné de meilleurs résultats que l'IDW, elle était statistiquement similaire aux autres méthodes d'interpolation. Le RBF a prédit les résultats de la concentration de gaz radon indiquait une augmentation significative du nombre de codes postaux qui dépassaient les limites d'action de l'Agence de protection de l'environnement des États-Unis et de l'Organisation mondiale de la santé, indiquant ainsi la nécessité d'atténuer les concentrations de gaz radon en Ohio à des niveaux sûrs afin pour réduire les effets sur la santé. L'approche démontrée dans cet article peut être appliquée à d'autres régions du monde touchées par le radon.


Comparaison des méthodes d'interpolation spatiale pour l'estimation de la distribution des précipitations dans le Distrito Federal, Brésil

Les informations climatologiques disponibles de Distrito Federal ne satisfont pas aux exigences d'un diagnostic climatique détaillé, car elles ne fournissent pas la résolution spatiale nécessaire à des fins de gestion des ressources en eau. La climatologie annuelle et saisonnière (1971-2000) des précipitations de 6 stations météorologiques et 54 pluviomètres du centre du Brésil a été utilisée pour tester huit méthodes d'interpolation spatiale différentes. Les facteurs géographiques (c'est-à-dire l'altitude, la longitude et la latitude) expliquent une grande partie des précipitations dans la région et, par conséquent, des modèles multivariés ont été inclus. La performance des estimations a été évaluée par une validation indépendante en utilisant l'erreur quadratique moyenne, le coefficient de corrélation et le critère d'efficacité de Nash-Sutcliffe. La pondération de distance inverse (IDW), le krigeage ordinaire (OK) et la régression multivariée avec interpolation des résidus par IDW (MRegIDW) et OK (MRegOK) ont effectué les erreurs les plus faibles et la corrélation la plus élevée et le critère d'efficacité de Nash-Sutcliffe. En général, les méthodes d'interpolation fournissent des distributions spatiales similaires des précipitations partout où le réseau d'observation est dense. Cependant, l'inclusion de variables géographiques dans la méthode d'interpolation devrait améliorer les estimations dans les zones où la densité du réseau d'observation est faible. Néanmoins, l'évaluation des incertitudes à l'aide d'une méthode géostatistique fournit des informations supplémentaires et qualitatives qui doivent être prises en compte lors de l'interprétation de la distribution spatiale des précipitations.

Ceci est un aperçu du contenu de l'abonnement, accessible via votre institution.


2. Enregistrements de débit de pointe de l'USGS

[3] Pour caractériser la distribution spatiale des grandes crues américaines, nous avons analysé les Fichiers de débit de pointe dérivé des enregistrements des stations de jaugeage des cours d'eau de l'USGS et conservés dans le cadre du système national d'information sur l'eau de l'USGS [ Lepkin et DeLapp, 1979 ] (les données sont disponibles sur http://waterdata.usgs.gov/usa/nwis/nwis). Le fichier de débit de pointe pour chaque station contient les valeurs du plus grand débit instantané (débit de pointe) pour chaque année hydrologique (1er octobre au 30 septembre) d'exploitation de la station, ainsi que des notes concernant les facteurs affectant le débit et la qualité de l'enregistrement de débit. Pour les enregistrements compilés jusqu'à l'année hydrologique 1997 (se terminant le 30 septembre 1997), les débits de pointe annuels sont signalés pour 23 216 stations actuelles et anciennes, comprenant ensemble plus de 0,5 million de valeurs annuelles de débit de pointe.

2.1. Inondations météorologiques les plus importantes à partir de bassins entre 2,6 et 26 000 km 2

[4] À partir des fichiers de débit de pointe des stations de jaugeage des cours d'eau avec des zones de drainage comprises entre 2,6 et 26 000 km 2 (1 à 10 000 mi 2 ) et avec 5 années ou plus d'enregistrement, nous avons extrait les 10 % supérieurs des débits de pointe annuels. La base de données résultante comprenait 43 645 débits de pointe annuels provenant de 18 735 stations. Chaque station a 1 à 15 débits de pointe annuels par station, selon la durée de l'enregistrement. À partir de ces données, nous avons rejeté près de 8 000 (environ 19 %) des débits de pointe annuels qui ont été codés dans les fichiers de débit de pointe tels qu'estimés, influencés par des ruptures de barrage ou affectés par la réglementation, la dérivation, l'urbanisation, l'exploitation minière, les changements agricoles ou la canalisation. . La base de données qui en résulte se compose de 35 663 débits de pointe annuels provenant de 14 815 stations de jaugeage de ruisseaux aux États-Unis et à Porto Rico (Figure 1).

[5] En nous concentrant sur les bassins entre 2,6 et 26 000 km 2 , et en excluant les enregistrements codés comme étant affectés par des facteurs anthropiques tels que la régulation ou la dérivation, nous avons probablement réduit l'influence de ces facteurs sur les débits de pointe annuels restants. L'inspection des dossiers conservés, cependant, indique que bon nombre des débits de pointe annuels analysés ont en effet été affectés dans une certaine mesure par la réglementation, la dérivation et l'urbanisation. En somme, des pratiques de codage incohérentes dans le temps et entre les différents bureaux déclarant ces données font qu'il est difficile d'isoler complètement les débits de pointe annuels touchés par de tels facteurs uniquement sur la base des informations contenues dans les fichiers de débit de pointe.

[6] D'autres aspects des données sous leur forme actuelle entravent également une évaluation quantitative impartiale de la distribution spatiale des grands flux. Alors que les stations de jaugeage des cours d'eau de l'USGS mesurent le débit des bassins de chaque État et de Porto Rico, la couverture n'est pas uniforme, la densité des stations correspondant en partie à la densité de population, comme en témoigne le grand nombre de stations le long de la côte est et d'autres zones urbaines (Figure 1). De plus, de nombreux bassins hydrographiques inclus dans l'analyse ont plusieurs stations avec des zones contributrices qui se chevauchent, comme dans le cas courant d'une série de stations le long d'une rivière individuelle. Dans ces situations, les enregistrements des débits de pointe annuels pour ces stations peuvent ne pas être indépendants car la même crue peut être mesurée (et incluse dans les fichiers de débit de pointe) sur plusieurs sites. Ce facteur est réduit mais non éliminé en excluant les bassins supérieurs à 26 000 km 2 . Néanmoins, le grand nombre et la large distribution des stations dépassent vraisemblablement les facteurs anthropiques retenus dans la base de données qui peuvent affecter systématiquement la distribution spatiale des grands débits de pointe, au moins pour l'évaluation qualitative de la distribution spatiale des grands débits.

[7] À partir des enregistrements définitifs conservés de 35 663 débits de pointe annuels provenant de 14 815 stations de jaugeage des cours d'eau, un graphique du débit de pointe par rapport à la zone de drainage montre, comme prévu, que les grands bassins ont généralement des débits de pointe plus importants (Figure 2). Néanmoins, certains bassins produisent des débits plus importants que d'autres bassins de taille similaire. Pour distinguer le plus grand de ces débits annuels maximaux par rapport à la zone de drainage, nous avons ensuite stratifié les données de la figure 2 dans les débits unitaires ∼90e et ∼99e (débit de pointe divisé par la zone de drainage) en utilisant une paire d'équations de loi de puissance (Tableau 1) formulé pour maintenir des distributions globales similaires des zones de bassin versant par rapport à la population totale des stations analysées (Figure 3). Bien que nous appelions ces sous-ensembles de débits unitaires élevés les ∼90e et ∼99e centiles, il s'agit essentiellement de débits unitaires ∼99e et ∼99,9e centiles par rapport à tous les débits de pointe annuels enregistrés, car ils ne sont dérivés que des 10 % les plus importants. tous les débits de pointe annuels pour chaque station.

Stratification Équation Nombre d'inondations Nombre de stations de mesure de flux
∼90e centile Qpk90 = 24,3 [km²] 0,57 3503 2088
∼99e centile Qpk99 = 74 [km²] 0,53 397 284

2.2. Délimitation du bassin de drainage

[8] Les 3503 flux constituant les rejets unitaires du th90e centile proviennent de 2 088 (sur les 14 815) stations de mesure de flux USGS aux États-Unis et à Porto Rico. Pour chacune de ces 2 088 stations, les aires de drainage contributives ont été délimitées dans un système d'information géographique (SIG) à l'aide d'un modèle d'élévation numérique à 1 km de résolution pour l'Amérique du Nord (données d'élévation HYDRO1k obtenues à partir de http://edcdaac.usgs.gov/gtopo30 /hydro). La résolution grossière du modèle d'élévation entrave les analyses SIG quantitatives reliant les caractéristiques du débit aux données spatiales. Néanmoins, ces délimitations approximatives permettent d'afficher la distribution spatiale des zones produisant les plus grands débits unitaires à l'échelle nationale, plutôt que simplement les emplacements des points des stations de jaugeage des cours d'eau.


3. Résultats et discussion

3.1. Analyses de terrain

[15] L'altitude moyenne dans les zones tampons de 50 km entourant les stations météorologiques variait de 1037 m à 5040 m, avec la majorité au-dessus de 3000 m (Figure 3a). En comparant avec l'altitude de chaque station, l'altitude moyenne dans les zones tampons de 50 km a clairement montré les effets du lissage dû à la résolution spatiale de 1 km des données DEM et de la moyenne dans les zones tampons (Figure 4). Le gradient de pente moyen dans les zones tampons de 50 km variait de 0,4 à 13,7 degrés (figure 3b), tandis que la pente maximale variait entre 1,9 et 45,9 degrés. La figure 5 montre le modèle de distribution spatiale des aspects de la pente. La proportion de pentes plates n'a pas été présentée car elle avait tendance à être très petite, allant de 0 à 0,052, sauf pour une station à 0,234.

3.2. Biais des estimations du SSM/I

[16] La figure 6 montre le biais moyen des estimations SSM/I, comme le rapport des estimations SSM/I aux précipitations observées à la station pour les moyennes mensuelles. Les biais ont été calculés pour toutes les années, les données disponibles étant regroupées pour un mois ou une saison spécifique. Pour la plupart des stations de la zone d'étude, les biais étaient inférieurs à l'unité (ou sous-estimés). Les emplacements avec une surestimation importante par le SSM/I ont été principalement trouvés dans la partie nord du plateau tibétain. Alors que la plupart des études d'intercomparaison et de validation précédentes suggéraient une surestimation par les taux de précipitations basés sur SSM/I, l'algorithme NESDIS a montré une variation régionale significative des biais et, dans certains cas, une sous-estimation significative dans les régions de latitude plus élevée. Ebert et al., 1996 Ebert et Manton, 1998 Adler et al., 2001 Kummerow et al., 2001 McCollum et al., 2000 , 2002 ]. Ces études ont également indiqué de fortes variations spatiales et temporelles qui nécessitent une enquête plus approfondie dans différentes conditions régionales.

[17] Il y a plusieurs raisons possibles pour les biais négatifs importants trouvés sur le plateau tibétain. Une comparaison zonale globale par Ferraro et al. [1996] entre SSM/I et l'analyse de jauge par Légats et Willmott [1990] ont suggéré que SSM/I sous-estime les précipitations dans les régions de latitude moyenne à haute en raison de l'exclusion de ces événements lorsque la neige et la glace étaient présentes sur le sol, mais surestime les précipitations dans les régions tropicales. L'algorithme NESDIS est basé sur la détection de la diffusion dans la couche pluvieuse de l'atmosphère. Cependant, l'épaisseur atmosphérique au-dessus du plateau tibétain est un aspect non représenté dans les études de validation antérieures réalisées au niveau de la mer ou à proximité. Une densité de l'air plus faible et une surface de plateau relativement froide et aride en raison de la haute altitude peuvent réduire les différences dans les signaux de diffusion entre la surface du plateau et l'atmosphère du plateau. Par conséquent, les algorithmes développés à l'aide de données pour les zones de basse altitude peuvent produire des estimations erronées. Ebert et Manton [1998] ont déclaré que bien que SSM/I soit bon pour délimiter les modèles spatiaux des événements pluvieux, le régime des précipitations est clairement un facteur qui influence la précision des estimations. Ferraro et les marques [1995] ont souligné que le taux de pluie minimum détectable par l'algorithme NESDIS est de 0,5 mm/h, ce qui peut conduire à manquer certains événements de pluie légère qui sont courants sur le plateau tibétain. Greene et al. [1997] ont également suggéré que les biais des estimations SSM/I peuvent dépendre des caractéristiques des événements pluvieux.

[18] Les résultats de la régression bivariée entre les estimations satellitaires et les précipitations observées en surface sont présentés à la figure 7. Les deux interceptions sur le Oui l'axe et les coefficients de régression (pentes) ont montré des tendances saisonnières significatives. Pour toute la période d'étude (1987-1999), le nombre de satellites en fonctionnement a varié, ce qui a ajouté une autre dimension de variation dans les estimations SSM/I. Pour les périodes où un seul satellite est disponible, une scène ne peut être visitée que deux fois par jour au maximum. Morrissey et Wang [1994] ont souligné que de telles limitations d'échantillonnage peuvent entraîner une sous-estimation des océans tropicaux avec des cycles diurnes importants de nébulosité et de précipitations. Des arguments similaires peuvent également être avancés pour le plateau tibétain où le régime des précipitations diurnes est bien connu pendant la saison des moussons [ Kuwagata et al., 2001 Liu et al., 2002 ]. En termes de force des relations entre les estimations SSM/I et les valeurs observées en station, le R 2 les valeurs des modèles de régression bivariée sont plus ou moins conformes aux études précédentes (tableau 3). Par example, Xie et Arkin [1995] ont comparé les estimations basées sur le SSM/I avec les données des stations GPCC et CAMS pour des mailles de 2,5° × 2,5°. Les corrélations entre les estimations mensuelles du SSM/I basées sur l'algorithme de Grody et les données des stations dans les zones 20°–40° N et 20°–40° S étaient de 0,56 pour le CAMS et de 0,61 pour les jeux de données GPCC. Ils ont également utilisé les stations CAMS au-dessus de la Chine et ont dérivé un coefficient de corrélation de 0,685 pour la période d'étude de 3 ans. Faible R 2 valeurs pour les mois d'hiver (tableau 3) étaient probablement dues au traitement des surfaces de neige/glace par l'algorithme NESDIS. Nous avons examiné les données mensuelles de couverture neigeuse basées sur le SSM/I du NESDIS (ftp://orbit35i.nesdis.noaa.gov/pub/arad/ht/rferraro/ncdc/). Cet ensemble de données contient des fractions de couverture neigeuse moyenne mensuelle (0–1,0) pour les grilles 1° × 1°. Pendant les mois d'hiver (DJF), la majorité du plateau tibétain était recouverte de neige, par rapport à tous les autres mois où seule une petite partie avait des fractions élevées de couverture neigeuse (Figure 8).

Modèle Intercepter Estimations SSM/I Pente Coefficient normalisé t Importance R 2
JAN 3.354 JAN_EST 3.680 0.698 9.594 0.0000 0.487
FÉV 6.572 FÉV_EST 2.067 0.416 4.510 0.0000 0.173
MAR 10.672 MAR_EST 4.275 0.790 12.685 0.0000 0.624
AVR 14.902 APR_EST 1.179 0.575 6.918 0.0000 0.330
MAI 31.144 MAY_EST 0.624 0.658 8.610 0.0000 0.433
JUIN 45.632 JUIN_EST 0.507 0.702 9.704 0.0000 0.493
JUIL 50.253 JUL_EST 0.580 0.676 9.035 0.0000 0.457
AOT 60.870 AUG_EST 0.620 0.440 4.828 0.0000 0.194
SEP 43.640 SEP_EST 0.758 0.631 8.009 0.0000 0.398
OCT 20.561 OCT_EST 1.546 0.498 5.663 0.0000 0.248
NOV 4.992 NOV_EST 1.813 0.403 4.333 0.0000 0.162
DÉC 2.634 DEC_EST 0.867 0.074 0.732 0.4660 0.005
L'HIVER 11.105 WIN_EST 4.296 0.630 7.995 0.0000 0.397
PRINTEMPS 47.556 SPR_EST 1.137 0.734 10.660 0.0000 0.539
L'ÉTÉ 155.596 SUM_EST 0.575 0.646 8.330 0.0000 0.417
TOMBE 55.380 FAL_EST 1.216 0.708 9.865 0.0000 0.501
MOUSSON 218.617 MONS_EST 0.648 0.681 9.170 0.0000 0.464
ANNUEL 20.644 ANN_EST 0.839 0.708 9.883 0.0000 0.502

[19] Enfin, certaines des études de validation ont utilisé des données de précipitations radar qui offraient généralement de meilleures estimations régionales que les données de jauge conventionnelles. En fait, l'algorithme NESDIS a été réglé avec les données radar des taux de pluie. En général, les mesures ponctuelles des précipitations sous-estiment généralement le total régional des précipitations [ Bureau météorologique des États-Unis, 1957 ]. Anagnostou et al. [1999] ont souligné que la différence zone-point contribuait jusqu'à 60% de la variance dans les comparaisons radar-jauge. Comme les estimations SSM/I maillées de 1° × 1° ont été réduites par interpolation et moyennées dans les zones tampons de 50 km, les cellules avec des précipitations élevées peuvent être combinées avec les effets des cellules avec des précipitations plus faibles ou aucune précipitation. Cette procédure pourrait avoir encore accru la disparité entre les précipitations de la station et les estimations SSM/I dans les zones tampons de 50 km. Considérant le fait que les données de précipitation de la station utilisées dans cette étude n'ont pas été corrigées pour les effets du vent et de la neige, la quantité de sous-estimation était plus importante qu'il n'y paraissait. Pendant les mois les plus froids, les précipitations corrigées peuvent être de 1,5 à 2,0 fois les valeurs de précipitations mesurées sur le plateau tibétain [ Ueno et Ohata, 1996 ]. Les résultats de l'analyse des biais indiquent clairement le besoin d'algorithmes régionalisés basés sur des caractéristiques locales et régionales pour obtenir des estimations précises des précipitations.

3.3. Modélisation spatiale basée sur la régression multiple

[20] La régression pas à pas a été utilisée pour sélectionner des variables indépendantes qui contribuent de manière significative à expliquer les variations des précipitations à la station. En raison de la colinéarité entre les variables indépendantes, certaines variables de terrain ne sont pas entrées dans les modèles finaux car leurs effets ont été représentés par d'autres variables apparentées. Les résultats de l'analyse de régression indiquent que les estimations originales du SSM/I avaient un faible pouvoir d'explication de la structure spatiale des précipitations sur le plateau tibétain, en particulier pour les mois avec une couverture neigeuse importante et que les variables de terrain et de localisation avaient un impact significatif sur la précision des estimations satellitaires. Lors de l'utilisation d'estimations satellitaires pour prédire les observations au sol sans les variables de terrain et de localisation examinées dans cette étude, le R 2 valeurs allaient de 0,005 (décembre) à 0,624 (mars), avec une moyenne de 0,334 pour tous les mois (tableau 3). Lorsque les variables de terrain et d'emplacement ont été ajoutées au processus de régression, le R 2 valeurs se sont améliorées pour aller de 0,217 (décembre) à 0,739 (mars) avec une moyenne de 0,590 (tableau 4). Les modèles saisonniers et annuels étaient en général meilleurs que les modèles mensuels, avec une moyenne R 2 de 0,470 avant l'ajout des variables de terrain et de localisation et 0,675 après leur inclusion.

Résumé du modèle Avec des estimations satellites uniquement Avec des variables d'emplacement de terrain Variables entrées dans les modèles (selon la séquence d'entrée)
R 2 Adj. R 2 Std. Erreur R 2 Adj. R 2 Std. Erreur
JAN 0.487 0.482 4.6 0.602 0.577 4.1 JAN_EST, SE, MIN_H, MAX_H, MEAN_SLP, W
FÉV 0.173 0.165 10.8 0.412 0.380 9.3 FÉV_EST, MIN_H, LAT, MAX_SLP, N
MAR 0.624 0.620 13.6 0.739 0.728 11.5 MAR_EST, LONG, LAT, NO
AVR 0.330 0.323 19.1 0.576 0.558 15.4 APR_EST, MIN_H, LONG, LAT
MAI 0.433 0.427 23.5 0.691 0.674 17.7 MAY_EST, LONG, SE, S, SW
JUIN 0.493 0.487 31.0 0.681 0.664 25.1 JUN_EST, LONG, SE, MEAN_SLP, STD_H
JUIL 0.457 0.451 39.3 0.668 0.646 31.6 JUL_EST, SE, MAX_H, LAT, LONG, E
AUG b b AUG_EST (estimations satellitaires) n'est pas entré dans le modèle bien qu'il soit corrélé avec AUG à la signification de 0,05.
0.194 0.185 50.3 0.617 0.596 35.4 LAT, MAX_H, N, O, NE
SEP 0.398 0.392 31.2 0.704 0.685 22.5 SEP_EST, LAT, LONG, STD_H, MEAN_SLP, SE
OCT c c OCT_EST n'est pas entré dans le modèle en premier.
0.248 0.241 20.4 0.615 0.594 14.9 LONG, LAT, MIN_H, OCT_EST, SE
NOV d d NOV_EST n'est pas entré en premier.
0.162 0.154 6.4 0.558 0.534 4.8 LAT, LONG, NOV_EST, MEAN_H, MAX_H
DEC e e DEC_EST n'est pas statistiquement significatif à 0,05.
0.005 0.000 4.9 0.217 0.192 4.4 STD_H, SE, MEAN_SLP
L'HIVER 0.397 0.391 16.5 0.476 0.459 15.6 WIN_EST, SE, MIN_H
PRINTEMPS 0.539 0.535 45.9 0.700 0.684 37.8 SPR_EST, LONG, LAT, MIN_H, SE
SUMMER f f SUM_EST entré en premier, mais il a été éliminé à l'étape 5 puis il a été ré-entré à l'étape 9.
0.417 0.411 103.9 0.711 0.686 75.9 SE, LAT, LONG, MAX_H, SW, W, SUM_EST, NW
TOMBE 0.501 0.496 45.2 0.711 0.699 34.9 FAL_EST, SE, LONG, LAT
MONSOON g g MONSOON_EST a été éliminé à l'étape 8 avec R 2 = 0,737.
0.464 0.459 143.9 0.732 0.714 104.6 SE, LONG, LAT, STD_H, MAX_H, MEAN_SLP
ANNUEL 0.502 0.497 15.3 0.722 0.707 11.7 ANN_EST, SE, LONG, LAT, MAX_H
  • a Le ajusté R 2 valeurs (Adj. R 2 ) reflètent l'impact de la colinéarité entre les variables indépendantes. L'erreur standard des estimations (Std. Error) est une autre mesure de la performance du modèle.
  • b AUG_EST (estimations satellitaires) n'est pas entré dans le modèle bien qu'il soit corrélé avec AUG à la signification de 0,05.
  • c OCT_EST n'a pas entré le modèle en premier.
  • d NOV_EST n'est pas entré en premier.
  • e DEC_EST n'est pas statistiquement significatif à 0,05.
  • f SUM_EST entré en premier, mais il a été éliminé à l'étape 5 puis il a été ré-entré à l'étape 9.
  • g MONSOON_EST a été éliminé à l'étape 8 avec R 2 = 0,737.

[21] Il y a un total de 18 modèles : 12 mensuels, 4 saisonniers, 1 pour les mois de mousson (de mai à septembre) et 1 annuel (comme les moyennes de tous les mois). Parmi les variables indépendantes autres que les estimations SSM/I, les variables de localisation sont entrées dans la plupart des modèles. LAT et LONG ont tous deux entré 13 modèles chacun, bien qu'ils n'aient pas nécessairement toujours entré le même modèle ensemble. La variable de terrain qui est entrée le plus souvent dans les modèles était la proportion de pentes d'orientation sud-est (13 modèles), suivie de l'altitude maximale dans les zones tampons de 50 km (7 modèles), de l'altitude minimale (6 modèles), de la pente moyenne (5 modèles), écart type d'élévation (4 modèles) et aspect ouest (3 modèles). Les proportions des pentes orientées SW, NW et N sont entrées dans 2 modèles chacune. La pente plate (aspect 0) et la pente minimale n'ont été saisies dans aucun modèle, tandis que la pente maximale, la pente moyenne et les variables d'aspect restantes (NE, E et S) sont entrées dans 1 modèle chacune. Toutes les variables qui sont restées dans les modèles étaient statistiquement significatives au niveau de 0,05.

[22] En ce qui concerne la variation temporelle de l'effet des variables de terrain et de localisation, le modèle pour mars avait le plus R 2 , suivi du modèle de septembre. Les modèles de décembre et février avaient de faibles R 2 valeurs. En fait, pour décembre, les précipitations estimées par le SSM/I d'origine n'étaient pas en corrélation avec les précipitations observées avec une signification statistique (0,05). Pour le mois d'août, les précipitations estimées par SSM/I n'étaient pas non plus incluses dans le modèle bien qu'elles soient corrélées avec les précipitations observées au sol au niveau de signification de 0,05. Pour octobre et novembre, les estimations SSM/I ont été incluses dans les modèles, mais elles ne sont pas entrées dans les modèles en premier. Quant aux modèles saisonniers, le modèle hiver avait le plus bas R 2, encore une fois en raison de la présence de neige et de glace sur la majeure partie du plateau tibétain.

[23] Pour simplifier les structures du modèle, les variables indépendantes qui sont entrées dans le modèle une ou deux fois au total ont été considérées comme marginales et éliminées de la procédure pour dériver les modèles finaux. Par conséquent, il ne restait que huit variables de terrain et de localisation (LAT, LONG, MAX_H, MIN_H, STD_H, MEAN_SLP, SE et W). Le tableau 5 présente les modèles de régression finaux basés sur la régression pas à pas ainsi que sur la sélection manuelle de la variable indépendante. Par exemple, LAT et MAX_H ont été exclus à l'avance pour garantir que l'estimation SSM/I entrerait dans le modèle pour août. Une tentative a été faite pour utiliser la même approche pour décembre, mais sans succès car les précipitations estimées par SSM/I ne sont pas statistiquement corrélées avec les précipitations observées au sol. Néanmoins, les précipitations estimées par SSM/I ont été « forcées » dans le modèle pour refléter la variabilité interannuelle, même si elles n'étaient pas statistiquement significatives. Il a été noté que pour les modèles d'été et de mousson (mai à septembre), les estimations SSM/I ont été éliminées au stade final. Ainsi, pour ces saisons, les versions du modèle avant l'élimination des estimations SSM/I ont été considérées comme les meilleures. Le niveau de signification de 0,1 a été utilisé dans le processus de sélection des variables pour améliorer le pouvoir de prédiction, mais presque toutes les variables des modèles étaient significatives au niveau de 0,05.

Mois/Saison Modèle de régression R2
janvier JAN = −4.215 + 3.166 JAN_EST + 41.195 SE − 0.002 MIN_H + 0.002 MAX_H − 0.706 MEAN_SLP + 32.281 W 0.602
février FEB = 72,797 + 1,355 FEB_EST − 0,006 MIN_H − 1,556 LAT + 74,736 W − 1,211 MEAN_SLP 0.406
Mars MAR = −30,556 + 3,753 MAR_EST + 1,057 LONG − 1,575 LAT − 0,003 MIN_H 0.738
avril APR = −21,991 + 0,460 APR_EST + 130,297 SE − 0,008 MIN_H + 1,271 LONG − 2,157 LAT 0.591
Mai MAY = −170.98 + 0.236 MAY_EST + 2.173 LONG + 254.112 SE + 3.953 MEAN_SLP − 0.066 STD_H − 0.007 MIN_H 0.717
juin JUIN = −170,136 + 0,265 JUN_EST + 2,178 LONG + 236,862 SE + 6,488 MEAN_SLP − 0,101 STD_H 0.681
juillet JUL = 203,292 + 0,233 JUL_EST + 313,315 SE − 0,02 MAX_H − 8,907 LAT + 2,467 LONG 0.652
août AUG = −1.612 + 804.741 SE + 0.212 AUG_EST + 7.159 MEAN_SLP − 0.098 STD_H 0.436
septembre SEP = −36.798 + 0.278 SEP_EST − 4.503 LAT + 2.403 LONG − 0.08 STD_H + 4.004 MEAN_SLP + 211.588 SE 0.704
octobre OCT = −51,113 + 1,536 LONG − 1,876 LAT − 0,010 MIN_H + 0,568 OCT_EST + 158,320 SE − 0,029 STD_H + 107,318 W 0.643
novembre NOV = 3,384 − 0,003 MIN_H − 0,757 LAT + 0,311 LONG + 1,031 NOV_EST + 42,748 SE 0.541
décembre DEC = -5,172 + 0,635 DEC_EST a a DEC_EST n'était pas statistiquement significatif au niveau 0,1, mais forcé dans le modèle.
+ 0,013 STD_H + 48,507 SE − 0,479 MEAN_SLP
0.220
L'hiver HIVER = 0,939 + 3,644 WIN_EST + 181,552 SE − 0,005 MIN_H + 130,083 W − 1,360 MEAN_SLP 0.512
Printemps PRINTEMPS = −170.805 + 0.618 SPR_EST + 4.161 LONG − 4.947 LAT − 0.013 MIN_H + 342.192 SE 0.700
L'été ÉTÉ = 397,674 + 0,147 SUM_EST + 1067,505 SE − 25,590 LAT + 8,087 LONG − 0,050 MAX_H + 0,019 MIN_H 0.678
Tombe FALL = −37.003 + 0.432 FAL_EST + 390.810 SE + 3.935 LONG − 7.304 LAT − 0.115 STD_H − 0.013 MIN_H + 4.505 MEAN_SLP 0.741
Mousson MOUSSON = 275,768 + 0,190 MONS_EST + 1464,711 SE + 13,241 LONG − 33,701 LAT − 0,139 STD_H − 0,039 MAX_H 0.715
Annuel ANNUEL = 14,99 + 0,229 ANN_EST + 169,663 SE + 1,511 LONG − 3,532 LAT − 0,005 MAX_H 0.722

[24] Les signes des coefficients de régression indiquent le type de contribution des variables indépendantes à l'explication de la variance des précipitations à la station. Parmi les trois variables de terrain/emplacement qui entraient le plus souvent dans les modèles (LAT, LONG et SE), les coefficients pour LAT étaient systématiquement négatifs, indiquant une diminution des précipitations à la station pour la même quantité d'estimations SSM/I se déplaçant vers le nord (tableau 5). Les coefficients de LONG étaient systématiquement positifs, indiquant une augmentation des précipitations à la station pour la même quantité d'estimations SSM/I se déplaçant vers l'est. Ces deux variables étaient indicatives de l'impact des distances aux sources d'humidité sur le plateau tibétain. Des études antérieures ont suggéré qu'il existe deux voies principales de transport de l'humidité, l'une venant de l'océan Indien/la baie du Bengale vers la partie sud-est du plateau et l'autre de la mer d'Arabie vers la partie ouest du plateau [ Ding, 1991 Yang et al., 1989 Tang et al., 1994 ]. La tendance à la baisse vers le nord-ouest suggère l'importance des sources d'humidité du sud-est, alors que les données SSM/I originales sous-estimaient cette tendance. De même, les coefficients pour SE étaient également systématiquement positifs, indiquant que les zones avec des pentes principalement orientées vers le sud-est avaient tendance à recevoir plus de précipitations, et que le flux d'air venant du sud-est a une grande importance dans la production de précipitations toute l'année.

[25] Pendant quelques mois d'automne et d'hiver (janvier, février et octobre) et la saison d'hiver, les pentes orientées à l'ouest ont eu un effet positif. Alors que les ceintures de flux atmosphériques prédominants se déplacent vers le sud pendant l'automne et l'hiver, les flux d'ouest jouent un rôle important dans la production de précipitations, en particulier pour la partie ouest du plateau tibétain. La seule autre variable avec une certaine cohérence était MIN_H (négative, sauf pour l'été). Les faibles altitudes minimales dans les zones tampons de 50 km coïncident souvent avec les zones de la marge sud-est du plateau, une région avec des précipitations relativement élevées. Par contre, la présence de MAX_H était la plus importante pour les valeurs saisonnières (coefficients négatifs). Étant donné que l'ensemble de données utilisé dans cette étude est limité aux stations en Chine, il reflète principalement l'effet barrière de pluie/ombre de pluie des chaînes de montagnes de la région. Par conséquent, les zones tampons avec une élévation maximale plus élevée coïncidaient souvent avec des zones avec des chaînes de montagnes sur le plateau et des valeurs de précipitations plus faibles pour les mêmes estimations SSM/I. Toutes les autres variables de terrain/emplacement peuvent avoir des coefficients positifs ou négatifs.

3.4. Une étude de cas : 1999

[26] Pour démontrer comment les modèles obtenus à partir de cette étude peuvent être utilisés pour améliorer les estimations des précipitations SSM/I sur le plateau tibétain, nous avons appliqué les modèles aux données de janvier, avril, juillet et octobre 1999. Premièrement, pour chaque Cellule de grille de 1° × 1°, une zone tampon de 50 km a été développée au centre et utilisée pour calculer les caractéristiques du terrain à l'intérieur de la zone tampon en utilisant le MNT de 1 km × 1 km. Ensuite, les estimations de précipitations originales du SSM/I ont été utilisées en combinaison avec les variables de terrain et d'emplacement pour calculer les estimations de précipitations modélisées. Enfin, les données de précipitations ponctuelles ont été interpolées par krigeage. La figure 9 montre les estimations des précipitations modélisées interpolées pour juillet 1999. Pour la plupart, les précipitations modélisées ont conservé la structure spatiale globale des estimations originales du SSM/I (figure 2), certains modèles de variation locale étant lissés. Cependant, il est également tout à fait évident qu'il existait des différences significatives entre les deux. Les précipitations modélisées étaient généralement plus élevées que les estimations originales du SSM/I à travers le plateau tibétain, en particulier dans les zones de la partie centrale du plateau. Le gradient SE-NO est devenu plus important que les estimations originales du SSM/I parce que le modèle de juillet incluait les deux variables de localisation (LAT et LONG).

[27] Nous avons comparé les estimations de précipitations modélisées aux précipitations de la station en extrayant les données de terrain des précipitations pour les zones tampons de 50 km des stations météorologiques. La figure 10 est le nuage de points des estimations originales du SSM/I de juillet et des estimations modélisées par rapport aux précipitations de la station. L'analyse de régression a révélé que les précipitations modélisées avaient une R 2 valeur de 0,65 par rapport à 0,49 des estimations originales SSM/I, et une relation presque 1:1 avec les précipitations de la station. Le tableau 6 contient les résultats de la comparaison pour les mois de janvier, avril, juillet et octobre 1999. Les améliorations par rapport aux estimations originales du SSM/I sont visibles pour tous ces mois, même si pour janvier, les performances du modèle étaient encore très médiocres. L'erreur quadratique moyenne (RMSE) offre une autre mesure de la performance du modèle. Encore une fois, des améliorations peuvent être observées pour tous les mois examinés (tableau 6).

SSM/I d'origine SSM/I modélisé
R 2 Erreur standard RMSE R 2 Erreur standard RMSE
janvier 0.013 5.88 6.68 0.190 5.33 5.36
avril 0.084 37.29 41.68 0.699 21.37 25.22
juillet 0.493 42.56 50.00 0.654 35.14 34.28
octobre 0.145 40.25 57.84 0.339 35.40 40.23
  • a Les résultats de la régression (R 2 et erreur standard des estimations) et les erreurs quadratiques moyennes (RMSE) sont présentés pour 35 stations qui disposaient de données pour cette année.

[28] L'évaluation ci-dessus, cependant, n'inclut pas les zones sans aucune observation de station. En raison de l'absence de données observées dans ces zones, nous avons utilisé un ensemble de données différent comme référence pour la comparaison. Le modèle de régression d'élévation de paramètres sur des pentes indépendantes (PRISM) est un système expert permettant de produire des données de précipitations maillées sur la base de données ponctuelles et de MNE [ Daly et al., 1994 , 2002 ]. Il a été utilisé avec succès pour générer des cartes climatologiques des précipitations pour diverses régions des États-Unis (http://www.ocs.orst.edu/prism/prism_new.html). Un ensemble de données spatiales de la norme de précipitation à long terme (1961-1990) a été développé en utilisant le système PRISM à une résolution de 4 km [ Daly et al., 2000 ], sur la base d'observations dans plus de 2500 stations à travers la Chine. Les données PRISM mensuelles ont été résumées par les tampons de 50 km aux grilles de 1° × 1°, puis comparées aux moyennes à long terme (1987-1999) du SSM/I original et aux estimations de précipitations modélisées (calculées à l'aide du long -terme SSM/I signifie) pour les mois de janvier, avril, juillet et octobre. La figure 11 montre que les précipitations PRISM pour juillet avaient une configuration spatiale similaire aux estimations modélisées de juillet 1999, mais avec plus de détails en raison d'une résolution spatiale plus élevée. L'analyse de régression, basée sur 327 points de grille dans la plage approximative du plateau tibétain, a révélé que pour ces mois examinés, les estimations de précipitations modélisées avaient des R 2 valeurs lorsqu'elles sont régressées par rapport aux données PRISM que les estimations originales du SSM/I (tableau 7), et avec des valeurs RMSE inférieures à l'exception de janvier. Both original SSM/I and modeled precipitation estimates were significantly lower than the PRISM July precipitation at a few grid points, which resulted in lower than expected R 2 values. Had the largest 4 outliers been excluded, the R 2 values would have increased to 0.5696 and 0.6545 for the original SSM/I and modeled precipitation estimates and the RMSE lowered to 61.57 and 46.83, respectively.

Original SSM/I Modeled SSM/I
R 2 Standard Error RMSE R 2 Standard Error RMSE
janvier 0.171 6.69 7.48 0.216 6.50 9.64
April 0.519 27.66 32.10 0.620 24.55 25.18
July 0.358 90.86 102.25 0.448 84.20 89.46
October 0.396 23.35 30.13 0.671 17.22 17.45
  • a Results of regression (R 2 and standard error of estimates) and root-mean-square errors (RMSE) are presented. The comparison was based on 327 1° × 1° grid points within the approximate range of the Tibetan Plateau.

Introduction

Foot-and-mouth disease (FMD) is a highly infectious viral disease that affects cloven-hoofed animals and has the potential to cause significant economic impact. Rapid disease detection and implementation of control measures to limit geographic spread are high priorities during an outbreak (James and Rushton, 2002 Thompson et al., 2002 Haydon et al., 2004). The effectiveness of control measures can be influenced by characteristics of the virus, geography, livestock density and farm management, and environment in the area of introduction. FMD transmission occurs mainly via droplet nuclei excreted from infectious animals to other animals in close proximity infectious animals can transmit the virus to susceptible animals in as little as 24 h (Alexandersen et al., 2003). The most common FMD transmission routes include direct contact between animals, indirect contact via fomite movement (e.g., vehicles or people), and in some areas, ingestion of infected animal products (Alexandersen et al., 2003). Within a livestock population, different species present different challenges to control FMD. At the individual animal level, cattle are considered most susceptible to airborne FMD spread, as their inhaled dose is likely to be larger than other livestock species due to greater lung capacity (Alexandersen et al., 2003). Ruminants have been shown experimentally to become infected with as little as 10 tissue culture 50% infective doses (TCID50), compared to swine at greater than 10 3 TCID50 (Sørensen et al., 2000 Alexandersen et al., 2003). Although swine have been shown to be relatively resistant to airborne FMD infection, infected swine are an important source of aerosolized FMD virus and are capable of excreting 100 to 1000 times more virus than infected sheep or cattle (Alexandersen and Donaldson, 2002). In the silent spread phase of the 2001 United Kingdom outbreak—prior to imposition of a national ban on livestock movements—FMD spread was attributed mainly to movement of infected livestock, mostly sheep, between premises or through live animal markets before clinical signs were apparent (Gibbens et al., 2001 Haydon et al., 2004). After the national ban on livestock movements, disease response efforts reduced the risk of the most common routes of FMD transmission however, local area spread, which included airborne transmission of the virus, remained difficult to mitigate. In addition to the 2001 UK outbreak (Mikkelsen et al., 2003), airborne spread has been implicated in FMD outbreaks in other countries (Gloster et al., 1982 Daggupaty and Sellers, 1990 Sørensen et al., 2000).

The risk of airborne FMD transmission depends, in part, on the strain or serotype of the virus, topographic factors, the type and number of animals infected (i.e., virus production and concentration), the type and number of animals located downwind from infected animals (i.e., exposures), and weather conditions influencing viral decay (Donaldson, 1972 Cannon and Garner, 1999 Sørensen et al., 2000 Donaldson and Alexandersen, 2002 Alexandersen et al., 2003 Mikkelsen et al., 2003 Colenutt et al., 2016 Van Leuken et al., 2016). Under ideal weather conditions, airborne FMD transmission can occur over short or long range distances (Donaldson et al., 1982 Gloster et al., 2005), and virus has been previously shown to infect susceptible livestock located as far as 250 km downwind from infected premises under suitable weather conditions (Gloster et al., 1982 Sørensen et al., 2000). Aerosolized FMD virus can be dispersed beyond quarantine zones established around detected, infected premises as part of a control program (Donaldson and Alexandersen, 2002).

The U.S. Department of Agriculture’s Foot-and-Mouth Disease Response Plan mandates a minimum Control Area of at least 10 km beyond the perimeter of the closest infected premises following FMD detection (USDA-APHIS, 2014). However, the FMD Response Plan is designed to have the flexibility to adapt the response to outbreak characteristics including evidence of or circumstances favorable to airborne transmission. The United States covers a large, and diverse, geography with widely varying climatic conditions. An enhanced understanding of how weather conditions in the area of infection affect the risk of airborne transmission would allow response officials to consider actual, local weather conditions present during an outbreak while making decisions on control strategies, including Control Area size.

Based on a combination of experimental and observational studies, aerosolized FMD is only viable under certain weather conditions. Experimental data suggest FMD virus infectivity is maximized at relative humidity levels greater than 60% (no known upper bound) and drastically reduced below 55% (Donaldson, 1972). Based on previous FMD outbreaks in which airborne spread was implicated, FMD virus can survive in the environment at temperatures as high as 27 °C (Gloster et al., 1982 Mikkelsen et al., 2003). The exact temperature range for which FMD virus is destabilized is unclear however, and there is no known minimum temperature at which FMD virus inactivation occurs (Donaldson, 1972). Presence of cloud cover, absence of precipitation, stable wind direction, and low to moderate wind speeds are thought to maintain aerosolized FMD virus stability, increasing the possibility of airborne transmission between premises (Hugh-Jones and Wright, 1970 Gloster et al., 1981 Sørensen et al., 2000 Gibbens et al., 2001 Sørensen et al., 2001 Mikkelsen et al., 2003 Gloster et al., 2005).

In the United States, there has been limited research to estimate the risk of airborne FMD spread. The objective of this analysis was to identify seasonal and geographic differences in patterns of environmental conditions favorable to airborne FMD spread in the United States.


TECHNOLOGY

APOGEO Are you building all of your own hardware?

Our founders and partners—Moog, Moog Broad Reach, and Millennium Engineering and Integration Company—are industry leaders in designing, build- ing and operating space sensors, systems and missions, with combined experience of more than 70 years.

Moog is a highly experienced provider of spacecraft systems for both government and commercial customers, with annual revenues of $2.6 billion. For more than 40 years, the international space industry has relied on Moog products for commercial, military and civil/scientific satellite and applications. Moog Broad Reach, founded in 1997 as Broad Reach Engineering and acquired in 2013 by Moog, has a long heritage in mission design and development of instruments and flight systems. Moog Broad Reach specializes in space avionics, systems and software, and built the gold standard for radio occultation sensors currently on orbit.

Millennium Engineering and Integration Company (MEI) is an employee-owned small business and a premier space systems engineering company, with annual revenues of $90 million. MEI has more than 15 years of experience as a leading provider of space systems engineering, satellite integration and testing, and launch and on-orbit operations for NASA, the U.S. Air Force and the Missile Defense Agency.

APOGEO How will you get your satellites into orbit?

Our current plan is to launch the first four satellites as a secondary payload by the end of 2016, with the next eight satellites going up on a dedicated launch vehicle by the end of 2017. However, we will continue to look at any opportunities that could get us to orbit and start delivering data sooner.


2 réponses 2

The problem with your maps is not the interpolation method you're using, but the way ggplot displays density lines. Here's an answer to this: Remove gaps in a stat_density2d ggplot chart without modifying XY limits.

The density lines go beyond the map, so any polygon that goes outside the plot area is rendered inappropriately (ggplot will close the polygon using the next point of the correspondent level). This does not show up much on your first map because the interpolation resolution is low.

The trick proposed by Andrew is to first expand the plot area, so that the density lines are rendered correctly, then cut off the display area to hide the extra space. Since I tested his solution with your first example, here's the code:

The only differences is that I used min()- / max() + instead of fixed numbers and coord_equal to ensure the map wasn't distorted. In addition, I manually specified a greater number of levels (using bin ), since by increasing the plot area, stat_density automatically chooses a lower resolution.


Matériels et méthodes

Geographic Interpolation of Endemism (GIE)

We propose the use of a kernel interpolation function, a method commonly used in Geographic Information Systems (GIS) analysis and implemented in several GIS software, to delimit areas of endemism. This interpolation method is based on the definition of circular areas of influence around point occurrences of a phenomenon. Within the area of influence, which is usually defined by the user, the influence of the phenomenon decreases from the point to the limits according to a Gaussian function [19]. For instance, in an epidemiological study of Rabies in China, the area of influence around each infected subject reported was defined as the range of subject´s movement, reflecting transmission probability [20]. The kernel density function estimates the density of occurrence of the phenomenon based on the overlap of the areas of influence [19]. Thus, the results are summarized on a map, expressed as a surface that indicates estimated values of point density. In the method proposed here, the distributional overlap between species is estimated through the distance between centroids of each species distribution range. This method can be applied for identifying areas of endemism through the following sequence of procedures:

  1. Given a set of occurrence points, the centroid of the distribution of each species is estimated through the arithmetic mean of the latitude and longitude of its points (Fig. 1a).
  2. The distance between the centroid and its farthest point of occurrence is measured for each species (Fig. 1b), and this value is used to sort the species into categories of range size (Fig. 1c). The definition of these categories is necessary to define the area of influence of the centroid, as described below, which is a requirement for the kernel index estimation [19].
  3. For each category a value of a radius around the centroid is defined, in order to delimit a circular area of influence of each species range (Fig. 1d). This value can be established through the maximum value of distance between the centroid and the farthest point of each category. For example, in this study all species with up to 100 km of distance between the centroid and the farthest point were grouped in the same category, and this value was defined as the radius around the centroid of all species in the category. The area of influence of each species is a generalization of its distribution range, and thus it must be defined as realistically as possible. Grouping species with differently sized distribution ranges (e.g., species with up to 50 km together with those up to 200 km of maximum distance between the centroid and its farthest point) could result in the overestimation of the range of the more restricted species.
  4. For each category, the overlap between the areas of influence of the species (Fig. 1d) is estimated by the kernel algorithm. The area of influence of each species is expressed as a value that decreases from the centroid to the limits of the circular area according to a Gaussian function (Fig. 1e). The overlap between the areas of influence is estimated through the sum of the values of the overlapping portion, resulting in the kernel index (k). Consequently, the kernel index varies spatially according to the sum of the values of each area of influence, generating a series of overlapped Gaussian curves (Fig. 1e, f). These curves are rasterized, generating a map of density of overlap of areas of influence of species (Fig. 1f), and the kernel index is an indicator of the degree of species distribution overlap.
  5. The results of steps 3 and 4 can be expressed separately for each category or assembled in a consensus map of areas of endemism (Fig. 2). The spatial variation of the kernel index can be displayed with color hues or with isolines (level curves) representing equal values of the index (Fig. 2). The latter option is useful to show the hierarchy between areas of endemism.

a: a centroid is estimated for the points of occurrence of each species. b: For each species, the distance between the centroid and its farthest point is measured. c: species are organized in groups, according to the distance measured in step b. d: This distance is used to define a circular area of influence around each species centroid. This procedure makes it possible to quantify the overlap between areas of distribution among species. e: The degree of overlap between species areas of influence is measured according to a Gaussian function around each species centroid. f: The density of species on each area of overlap, weighted by the degree of overlapping, is converted into interpolated curves using the kernel interpolation function (at left). These curves can be rasterized for display on maps.

Shaded areas indicate the areas of endemism, dashed lines indicate the major areas of endemism delimited according to the kernel index. The insert shows the Brazilian biomes, discussed in the text.

To perform these procedures, a software that calculates the area of influence of each species, as well as an ArcGIS toolbox to implement the method described above, are available in the S1 File in Supporting Information.

Applying GIE to Brazilian spiders

We applied the method described above to delimit areas of endemism of spiders in Brazil using a database of all published distribution records of species described between 1767 and 2013 and two online databases: GBIF [21] and speciesLink [22]. The database includes 3,425 species distributed in 25,072 records (meaning at least one individual of a species collected) and 3,787 localities. About 40% of the species were represented only by single records, 45% had between 2 and 15 records, 10% had between 16 and 60 records and only 2% of the species showed more than 100 records (S1 Fig.). All coordinates reported in the literature and online databases were checked using the ArcGIS software and vector layers of the political boundaries of Brazil to determine whether they actually fit the municipalities and states mentioned in the original data. Of these, 59% of the records were in the correct coordinates. The records that presented incorrect coordinates were georeferenced, as well as records that had no coordinates originally reported. The georeferencing was based on gazetteers and online databases, and 32% of the records were georeferenced in specific localities and only 8% were georeferenced by the location of the municipality. The species taxonomy follows Platnick [23], and species considered nomina dubia were excluded from the analyses. These same records and species were used in the comparative analysis with PAE and NDM. For analysis through GIE the species were classified in nine groups, according to the distance between the centroid and the farthest point: up to 50 km, 51–200 km, 201–400 km, 401–600 km, 601–800 km, 801–1,000 km, 1,001–1,500 km, 1,501–2,000 km and between 2,001 and 3,299 km. Since the definition of these classes can affect the number and location of the areas of endemism, we repeated the analysis with two other categorization schemes: a more inclusive classification with five categories (up to 50 km, 51–400 km, 401–600 km, 601–800 km, 801–3,299 km) and other less inclusive, with 18 categories (up to 25 km, 26–50 km, 51–100 km, 101–200 km, 201–300 km, 301–400 km, 401–500 km, 501–600 km, 601–700 km, 701–800 km, 801–900 km, 901–1,000 km, 1,001–1,300 km, 1,301–1,600 km, 1,601–1,750 km, 1,751–2,000 km, 2,001–2,500 km, 2,501–3,299 km). To compare results, we used Pearson correlation. To generate the consensus map of areas of endemism, the values of the kernel index of each category were standardized between 0 and 1 before assembling the maps. The number of records of a species can affect the position of its distributional centroid, consequently influencing the estimate of the overlap between species in GIE. We estimated this effect through a rarefaction procedure, in which we randomly removed 10, 20 and 30% of the occurrence points and measured the mean deviation of the centroids of the species in 100 randomizations.

The analysis with PAE was based on a presence/absence matrix of spider species over a grid with 168 2×2° cells, completely covering the Brazilian territory (S2 File). As the size of the grid cells can influence the results, we tested several cell sizes (0.5° to 5°) and used the size that allowed the identification of more areas of endemism. The matrix was analyzed through the software TNT [24], based on twenty trees generated by random-addition sequences, followed by TBR Branch Swapping, retaining 20 trees per replicate. The shortest trees obtained were submitted to an additional round of TBR to assure global optimum was found. The trees obtained were rooted in a hypothetical cell with all taxa absent. The areas of endemism were delimited from clades unambiguously supported by at least one non-homoplastic species occurrence, identified in the strict consensus tree.

The same database was analyzed by NDM using the program VNDM [25] (matrix in S3 File), with 2×2° cells. Search factors were set to retain areas with scores equal or above one and presenting one or more endemic species. The search was repeated 100 times, keeping overlapping areas only if 90% of the species in each area are unique. We did not use any parameters to assume the presence of the species in places where they have not been recorded. The results were summarized through the procedure “consensus flexible areas of endemism”, gathering areas that share at least 40% of their endemic species (for more details see [26]).

The results obtained in GIE were compared to results from PAE and NDM through the number of synendemic species (endemic species occurring together in a given area) that supported areas of endemism spatially congruent between methods. In these cases, we consider that areas identified with the highest number of endemic species should indicate a better fit between the boundaries of the area of endemism and the distribution of its species. We also compared the number of areas identified and visually evaluated the overlap between areas generated by each method. Both NDM and GIE show indexes to quantify the support of each area of endemism, so we analyzed the correlation between the score of the areas obtained through these methods using Pearson correlation analysis in Past 1.95 [27]. This analysis was based on values from grid cells of NDM, so the same grid was overlapped to GIE consensus map and 10 random points were used to estimate the average value of the kernel index for each cell.


Present address: Present address: Max Planck Institute for Developmental Biology, Tübingen 72076, Germany.,

Affiliations

Department of Zoology and Physiology, University of Wyoming, Laramie, 82071, Wyoming, USA

Department of Biology, Box 351800, University of Washington, Seattle, 98195, Washington, USA

George Wang & Raymond B. Huey

You can also search for this author in PubMed Google Scholar

You can also search for this author in PubMed Google Scholar

You can also search for this author in PubMed Google Scholar

Contributions

M.E.D., G.W. and R.B.H. conceived the project, designed the analyses and wrote the paper M.E.D. and G.W. collated weather station data and did temperature and metabolic rate calculations.

Corresponding author