Suite

Est-il possible de calculer des statistiques sur plusieurs champs dans arcpy ?

Est-il possible de calculer des statistiques sur plusieurs champs dans arcpy ?


La commande summary statistics peut être utilisée dans arcpy pour calculer des statistiques - cet outil s'exécute sur un seul champ, par exemple :

SUM-Ajoute la valeur totale pour le champ spécifié.

Existe-t-il une méthode prête à l'emploi pour calculer les statistiques dans plusieurs domaines?

par exemple, je voudrais calculer le MIN, MAX, MEAN et STDEV de Field1, Field2 et Field3, combinés :

OID Champ1 Champ2 Champ3 Champ4 1 23 24 25 26 2 12 13 14 15 3 17 18 19 20

Une approche consiste à parcourir la table avec un curseur et à calculer ces valeurs manuellement dans un script. Existe-t-il un moyen meilleur/plus rapide ?

Modifier : j'ai besoin que cela s'exécute uniquement sur les enregistrements sélectionnés, et ceux-ci changeront fréquemment.


Votre meilleur pari pour cette approche serait certainement un curseur. Vous pouvez créer un outil python qui prend 2 entrées :

  • Classe d'entités/table en question
  • paramètre multi-valeurs pour tous les champs qui vous intéressent

Le code pour récupérer toutes ces informations est assez simple :

import math, itertools, arcpy FC = arcpy.GetParameterAsText(0) fields = arcpy.GetParameterAsText(1).split(";") #Aplatir une liste de listes def flatten(list_lists): return list(itertools.chain.from_iterable( list_lists)) #Quelle que soit la fonction de développement standard applicable def std(x): passez #lire les valeurs des champs et aplatir vals = flatten([r pour r dans la ligne] pour la ligne dans arcpy.da.SearchCursor(FC, champs)) arcpy .AddMessage("
Le MIN est : {}".format(min(vals))) arcpy.AddMessage("Le MAX est : {}".format((max(vals)))) arcpy.AddMessage("Le MEAN est : {}
".format(sum(vals) / len(vals))) arcpy.AddMessage("Le STD est : {}".format(std(vals)))

Si vous souhaitez vider les statistiques dans une table avec un horodatage, cela peut être facilement accompli.


Si c'est le cas, je ne le sais pas, mais si vous utilisez un SGBDR, une vue ou un déclencheur peut peut-être être utilisé pour maintenir un champ comme celui-ci.

Pour une géodatabase fichier, il existe quelques idées ArcGIS qui, si elles sont mises en œuvre, vous faciliteraient la tâche :


pour MIN, MAX et MEAN, vous pouvez utiliser les statistiques récapitulatives et calculer les valeurs globales à travers les champs à l'aide du calculateur de champs (min est le min du min, max est le max du max et la moyenne est la moyenne de la moyenne dans ce cas). Pour l'écart type, c'est un peu plus compliqué mais toujours possible basé sur le partitionnement de la somme des carrés.

Var_tot = ((n-1)*VAR_champ1 + (n-1)*VAR_Champ2 + (n-1)*VAR_Champ3 + (n-1)*VAR_Champ4 + n*n_f*Var(moyenne_Champ1, moyenne_Champ2,moyenne_Champ3, moyenne_Champ4) ) /(n_f*n-1)

où n est le nombre de lignes, n_f le nombre de champs et VAR_Field/Mean_Field proviennent des statistiques récapitulatives.


Calculer la moyenne sur plusieurs blocs de données

J'aimerais utiliser R pour tracer les résultats de l'évaluation des performances de systèmes de base de données distincts. Pour chaque système, j'ai chargé les mêmes données et exécuté les mêmes requêtes en plusieurs itérations.

Les données d'un seul système ressemblent à ceci :

Ce dont j'ai besoin maintenant (pour tracer) est une matrice ou un bloc de données contenant la moyenne de ces mesures.

En ce moment je fais ça :

Je pourrais mettre tout cela dans une fonction et calculer la matrice moyenne dans une boucle for, mais j'ai le vague sentiment qu'il doit y avoir une solution plus élégante. Des idées?

Que puis-je faire pour les cas où j'ai des résultats incomplets, par exemple, lorsqu'une itération a moins de lignes que les autres ?


Syntaxe

Jeu de données qui définit les zones.

Les zones peuvent être définies par un raster d'entiers ou une couche d'entités.

Champ qui contient les valeurs qui définissent chaque zone.

Il peut s'agir d'un nombre entier ou d'un champ de chaîne de l'ensemble de données de zone.

Raster qui contient les valeurs sur lesquelles calculer une statistique.

Type de statistique à calculer.

  • MEAN — Calcule la moyenne de toutes les cellules du raster de valeurs qui appartiennent à la même zone que la cellule en sortie.
  • MAJORITE — Détermine la valeur qui apparaît le plus souvent parmi toutes les cellules du raster de valeurs qui appartiennent à la même zone que la cellule en sortie.
  • MAXIMUM — Détermine la plus grande valeur de toutes les cellules du raster de valeurs qui appartiennent à la même zone que la cellule en sortie.
  • MEDIAN — Détermine la valeur médiane de toutes les cellules du raster de valeurs qui appartiennent à la même zone que la cellule en sortie.
  • MINIMUM — Détermine la plus petite valeur de toutes les cellules du raster de valeurs qui appartiennent à la même zone que la cellule en sortie.
  • MINORITÉ — Détermine la valeur qui se produit le moins souvent de toutes les cellules du raster de valeurs qui appartiennent à la même zone que la cellule en sortie.
  • PLAGE — Calcule la différence entre la valeur la plus grande et la plus petite de toutes les cellules du raster de valeurs qui appartiennent à la même zone que la cellule en sortie.
  • STD — Calcule l'écart type de toutes les cellules du raster de valeurs qui appartiennent à la même zone que la cellule en sortie.
  • SUM — Calcule la valeur totale de toutes les cellules du raster de valeurs qui appartiennent à la même zone que la cellule en sortie.
  • VARIETY — Calcule le nombre de valeurs uniques pour toutes les cellules du raster de valeurs qui appartiennent à la même zone que la cellule en sortie.

Indique si les valeurs NoData dans l'entrée Value influenceront les résultats de la zone dans laquelle elles se trouvent.

  • DONNÉES — Dans une zone particulière, seules les cellules qui ont une valeur dans le raster Valeur en entrée seront utilisées pour déterminer la valeur en sortie de cette zone. Les cellules NoData dans le raster de valeur seront ignorées dans le calcul des statistiques. C'est la valeur par défaut.
  • NODATA — Dans une zone particulière, s'il existe des cellules NoData dans le raster Value, il est considéré qu'il n'y a pas suffisamment d'informations pour effectuer des calculs statistiques pour toutes les cellules de cette zone. Par conséquent, la zone entière recevra la valeur NoData sur le raster en sortie. .

Valeur de retour

Raster de statistiques zonales en sortie.


Syntaxe

La classe d'entités contenant les variables dépendantes et indépendantes.

Le champ numérique contenant les valeurs de ce que vous essayez de modéliser.

Une liste de champs représentant des variables explicatives indépendantes dans votre modèle de régression.

La classe d'entités en sortie pour recevoir les estimations et les résidus des variables dépendantes.

Spécifie si le noyau est construit comme une distance fixe, ou s'il est autorisé à varier en étendue en fonction de la densité d'entités.

  • FIXED —Le contexte spatial (le noyau gaussien) utilisé pour résoudre chaque analyse de régression locale est une distance fixe.
  • ADAPTIVE —Le contexte spatial (le noyau gaussien) est fonction d'un nombre spécifié de voisins. Là où la distribution des caractéristiques est dense, le contexte spatial est plus petit là où la distribution des caractéristiques est clairsemée, le contexte spatial est plus grand.

Spécifie comment l'étendue du noyau doit être déterminée. Lorsque AICc ou CV sont sélectionnés, l'outil trouvera la distance optimale ou le nombre de voisins pour vous. En règle générale, vous sélectionnez AICc ou CV lorsque vous ne savez pas quoi utiliser pour le paramètre Distance ou Nombre de voisins. Une fois que l'outil a déterminé la distance ou le nombre optimal de voisins, vous utiliserez l'option BANDWIDTH_PARAMETER.

  • AICc : l'étendue du noyau est déterminée à l'aide du critère d'information d'Akaike (AICc).
  • CV : l'étendue du noyau est déterminée à l'aide de la validation croisée.
  • BANDWIDTH_PARAMETER —L'étendue du noyau est déterminée par une distance fixe ou un nombre fixe de voisins. Vous devez spécifier une valeur pour les paramètres Distance ou Nombre de voisins.

La distance à chaque fois que le kernel_type est FIXE et la bande passante_method est BANDWIDTH_PARAMETER .

Le nombre exact de voisins à inclure dans la bande passante locale du noyau gaussien lorsque type_noyau est ADAPTIVE et que la méthode_bande passante est BANDWIDTH_PARAMETER .

Le champ numérique contenant une pondération spatiale pour les entités individuelles. Ce champ de pondération permet à certaines caractéristiques d'être plus importantes que d'autres dans le processus de calibrage du modèle. Principalement utile lorsque le nombre d'échantillons prélevés à différents endroits varie, les valeurs des variables dépendantes et indépendantes sont moyennées et les endroits avec plus d'échantillons sont plus fiables (devraient être plus pondérés). Si vous avez en moyenne 25 échantillons différents pour un emplacement, mais une moyenne de seulement 2 échantillons pour un autre emplacement, vous pouvez utiliser le nombre d'échantillons comme champ de pondération afin que les emplacements avec plus d'échantillons aient une plus grande influence sur l'étalonnage du modèle que les emplacements avec quelques échantillons.

Un chemin d'accès complet à l'espace de travail où tous les rasters de coefficients seront créés. Lorsque cet espace de travail est fourni, des rasters sont créés pour l'interception et chaque variable explicative.

Taille de cellule (un nombre) ou référence à la taille de cellule (un chemin d'accès à un jeu de données raster) à utiliser lors de la création des rasters de coefficient.

La taille de cellule par défaut est la plus courte de la largeur ou de la hauteur de l'étendue spécifiée dans le système de coordonnées en sortie de l'environnement de géotraitement, divisée par 250.

Classe d'entités contenant des entités représentant des emplacements où les estimations doivent être calculées. Chaque entité de cet ensemble de données doit contenir des valeurs pour toutes les variables explicatives spécifiées. La variable dépendante de ces caractéristiques sera estimée à l'aide du modèle calibré pour les données de classe d'entités en entrée.

Une liste de champs représentant des variables explicatives dans la classe d'entités Emplacements de prédiction. Ces noms de champs doivent être fournis dans le même ordre (correspondance un-à-un) que ceux répertoriés pour le paramètre Variables explicatives de la classe d'entités en entrée. Si aucune variable explicative de prédiction n'est fournie, la classe d'entités de prédiction en sortie contiendra uniquement les valeurs de coefficient calculées pour chaque emplacement de prédiction.

Classe d'entités en sortie pour recevoir des estimations de variables dépendantes pour chaque entité dans la classe d'entités Emplacements de prédiction.


Champs sources et champs cibles

Lorsque vous appliquez un filtre à plusieurs sources de données, vous créez un champ source et un ou plusieurs champs cibles. Les champs source et les champs cibles apparaissent sur l'étagère Filtre dans leurs feuilles de calcul respectives.

Le champ source est le champ avec lequel vous filtrez.

Le champ cible d'une feuille de calcul donnée est un champ d'une autre source de données liée au champ source. Il s'agit du champ qui est actuellement filtré sur cette feuille de calcul.

Le champ source détermine les données incluses ou exclues des champs cibles. Par exemple, supposons que vous ayez trois feuilles de calcul qui utilisent trois sources de données distinctes (A, B et C) comme source de données principale. Chacune des sources de données a un champ en commun (Fruit), et les données sont les suivantes :

Fruits de la source de données A Fruits de la source de données B Fruits de la source de données C
Pommes Pommes Pommes
Des oranges Pamplemousse Pamplemousse
Bananes Des oranges Des oranges
Poires Tomates
Bananes

Si le champ Fruit de la source de données A est le champ source du filtre de sources de données croisées, les données qui s'affichent pour les champs cibles sont les suivantes :

Fruit de la source de données A - Champ source Fruit de la source de données B - Champ cible Fruit de la source de données C - Champ cible
Pommes Pommes Pommes
Des oranges Des oranges Des oranges
Bananes Bananes

Toutes les données qui ne correspondent pas aux données du champ source sont exclues des champs cibles et n'apparaîtront pas dans vos feuilles de calcul ou dans vos cartes de filtre.

Sur l'étagère Filtres, les champs source sont indiqués soit par un icône lorsque le champ source s'applique à toutes les feuilles de calcul avec une source de données associée, ou un lorsqu'elle s'applique à des feuilles de calcul sélectionnées. Les champs cibles sont indiqués par un sur le champ de l'étagère Filtres. Ils sont également indiqués par un ou alors à côté du champ sur l'étagère Filtres.


ARC SIG FINALE

Conseils d'administration locaux
largement représentatif avec autorité pour prendre des décisions en matière de SIG
point de contact pour les citoyens et les entités extérieures (agences, chercheurs, etc.)
coordonner et prioriser la collecte, le raffinement et la maintenance des données

Partenariat avec des groupes de citoyens, des agences externes et des entreprises
financement du matériel et des logiciels
faciliter les projets pilotes de SIG
créer des outils SIG personnalisés adaptés aux petites communautés

Construire un réseau de soutien SIG peer-to-peer
utiliser le site Web, les boursiers et les réunions en face à face pour favoriser la communication
interface avec les réseaux établis par d'autres agences et organisations

Construire des partenariats locaux qui soutiennent la gestion des ressources locales et conduisent à une communication accrue, un partage d'informations et un consensus

• Système de balayage laser pulsé aéroporté + GPS différentiel + unité de mesure inertielle (IMU)
•> 30 000 points/seconde
• Sol échantillonné plusieurs points/sq. mètre

300 $ - 500 $ par km2 coût d'acquisition

Applications écologiques :
• Informations 3D sur la végétation et interactions entre la végétation et la topographie
• Structure de la végétation 3D : estimation de la hauteur du peuplement, de la biomasse aérienne totale, de la biomasse du feuillage, de la surface terrière, de la densité des arbres, de la hauteur de la base du couvert, de la densité apparente du couvert
• Le traitement COSI-Corr des paires stéréo Worldview peut rivaliser avec l'acquisition LiDAR DSM
• Avantage de coût de COSI-Corr + traitement stéréo par rapport au LiDAR : acquisition stéréo + coûts de traitement

1000 $/km2 pour les acquisitions LiDAR
• Imagerie satellite plus réactive que le levé LiDAR aéroporté. Peut fournir des images rapidement et dans le monde entier sans avoir besoin d'autorisations de vol
•Peut répéter le relevé satellite plus souvent que les relevés LiDAR : meilleur suivi dans le temps de l'évolution de la surface.
•Applications typiques : surveillance et évaluation des catastrophes, urbanisme, exploitation minière, etc.


Domaines d'information sur la santé et liens vers les principales sources de données

En plus de fournir des données pour la prise de décision à différents niveaux du système de santé, le système d'information sur la santé devrait fournir les informations nécessaires à la planification et à la gestion des services de santé, comprendre les déterminants et les causes de la mauvaise santé publique. évaluation de la politique de santé, du financement et de l'allocation des ressources.

Déterminants de la santé: déterminants ou facteurs de risque socioéconomiques, environnementaux, comportementaux, démographiques et génétiques. De tels indicateurs caractérisent les environnements contextuels dans lesquels opère le système de santé. Une grande partie de l'information est générée par d'autres secteurs, tels que l'agriculture, l'environnement et le travail.

Système de santé: apports à un système de santé et processus connexes tels que la politique, l'organisation, les ressources humaines, les ressources financières, l'infrastructure sanitaire, l'équipement et les fournitures. Il existe également des indicateurs de résultats tels que la disponibilité et la qualité des services de santé, ainsi que la disponibilité et la qualité de l'information.

Utilisation des services de santé: résultats du système de santé tels que la couverture des services, l'utilisation et la réactivité aux besoins des utilisateurs.

État de santé: taux de mortalité, de morbidité, de handicap et de bien-être. Les variables de l'état de santé dépendent de l'efficacité et de la couverture des interventions et des déterminants de la santé qui peuvent influencer les résultats de santé indépendamment de la couverture des services de santé. Les indicateurs de l'état de santé devraient être disponibles, stratifiés ou désagrégés selon des variables telles que le sexe, le statut socio-économique, le groupe ethnique et la situation géographique afin de saisir les modèles de santé de la population.

Chaque source de données présente des avantages et des inconvénients relatifs. Les registres des services sont disponibles en continu et fournissent des données pour les niveaux administratifs inférieurs, mais sont sujets à des biais car ils ne couvrent que les populations utilisant les établissements de santé. Les enquêtes auprès des ménages sont exemptes de biais de déclaration et de représentation, mais elles prennent du temps, sont coûteuses et nécessitent un personnel hautement qualifié. En règle générale, les enquêtes auprès des ménages ne conviennent pas aux petites zones géographiques ou pour fournir des estimations annuelles et lorsque de telles données sont disponibles, elles sont sujettes à des erreurs d'échantillonnage élevées.

Lorsque les valeurs statistiques d'un indicateur donné sont générées à partir de plusieurs sources, comme c'est souvent le cas, une évaluation de la qualité et un rapprochement des données sont nécessaires avant que les données ne soient utilisées pour l'orientation des programmes et des politiques. Un bon exemple en est la mesure de la prévalence du VIH chez les adultes dans les pays à épidémie généralisée. Les systèmes de surveillance basés sur les cliniques prénatales fournissent des données annuelles sur les tendances de la prévalence du VIH chez les femmes enceintes, mais il s'agit d'un échantillon de population biaisé. Grâce à des enquêtes auprès des ménages représentatives au niveau national qui incluent le dépistage du VIH, des estimations non biaisées peuvent être générées qui couvrent toutes les régions d'un pays et incluent les femmes et les hommes non enceintes. Cependant, les considérations de coût excluent les enquêtes annuelles en population sur la prévalence du VIH. Les résultats de la surveillance prénatale sont utilisés pour suivre les progrès, et les résultats d'enquêtes occasionnelles auprès des ménages fournissent des données pour calibrer et ajuster les résultats de la surveillance. La combinaison précise de différentes sources de données dépend de l'indicateur en question et des méthodologies disponibles pour générer les données.

Suivi des inégalités en santé

Jusqu'à présent, nous nous sommes concentrés sur les défis du suivi au niveau national, mais une véritable compréhension de la situation et des tendances sanitaires dans un pays nécessite une connaissance de l'état de santé et de l'utilisation des services parmi les différents groupes de population. Tous les indicateurs des objectifs du Millénaire pour le développement doivent être ventilés par stratificateurs clés, notamment le statut socioéconomique, l'ethnicité, le sexe et la zone géographique. 15 Le statut socioéconomique peut être reflété par le revenu, les dépenses, la richesse, l'éducation et la profession du ménage. L'éducation et la profession sont des indicateurs importants du statut social en soi, mais ne doivent pas être considérés comme des indicateurs de richesse ou de revenu. Le sexe et le genre sont des stratificateurs d'équité significatifs pour de nombreuses mesures de la santé, mais pas toutes. Par exemple, le faible poids à la naissance selon le sexe du nourrisson n'est pas significatif pour l'analyse de l'équité car il ne se prête pas à la politique sociale, mais l'analyse des différences dans les taux de prévalence de la malnutrition entre les garçons et les filles est significative car elle indique un traitement discriminatoire. La discrimination à l'encontre de groupes ethniques ou raciaux peut avoir de graves effets sur la santé et la société. Les indicateurs permettant de caractériser l'ethnicité comprennent l'auto-identification, la perception sociale de la race ou de l'origine ethnique, la religion, la langue parlée à la maison, l'affiliation tribale ou le statut d'immigrant ou de citoyen de naissance. Enfin, les groupes peuvent être avantagés en fonction de la zone géographique (par exemple urbaine ou rurale, ou provinces ou districts) où ils vivent ou travaillent. Les ressources sont souvent allouées sur une base géographique, reflétant à la fois des problèmes logistiques tels que la distance, la topographie et le transport, ainsi que la tendance du pouvoir politique à se concentrer dans les zones urbaines ou des régions particulières.

La comparaison des allocations de mesures de santé entre les différentes provinces et districts est utile, et de telles comparaisons sont facilement comprises par les non-spécialistes.


Contenu

Analyse multivariée (MVA) repose sur les principes des statistiques multivariées. En règle générale, MVA est utilisé pour traiter les situations où plusieurs mesures sont effectuées sur chaque unité expérimentale et les relations entre ces mesures et leurs structures sont importantes. [1] Une catégorisation moderne et chevauchante de l'AMIU comprend : [1]

  • Modèles multivariés normaux et généraux et théorie de la distribution
  • L'étude et la mesure des relations
  • Calculs de probabilité de régions multidimensionnelles
  • L'exploration des structures et des modèles de données

L'analyse multivariée peut être compliquée par le désir d'inclure une analyse basée sur la physique pour calculer les effets des variables pour un « système de systèmes » hiérarchique. Souvent, les études qui souhaitent utiliser l'analyse multivariée sont bloquées par la dimensionnalité du problème. Ces préoccupations sont souvent atténuées grâce à l'utilisation de modèles de substitution, des approximations très précises du code basé sur la physique. Étant donné que les modèles de substitution prennent la forme d'une équation, ils peuvent être évalués très rapidement. Cela devient un catalyseur pour les études MVA à grande échelle : alors qu'une simulation de Monte Carlo dans l'espace de conception est difficile avec des codes basés sur la physique, elle devient triviale lors de l'évaluation de modèles de substitution, qui prennent souvent la forme d'équations de surface de réponse.

Types d'analyse Modifier

Il existe de nombreux modèles différents, chacun avec son propre type d'analyse :

    (MANOVA) étend l'analyse de la variance pour couvrir les cas où il y a plus d'une variable dépendante à analyser simultanément voir aussi Analyse multivariée de la covariance (MANCOVA).
  1. La régression multivariée tente de déterminer une formule qui peut décrire comment les éléments d'un vecteur de variables répondent simultanément aux changements des autres. Pour les relations linéaires, les analyses de régression sont ici basées sur des formes du modèle linéaire général. Certains suggèrent que la régression multivariée est distincte de la régression multivariée, cependant, cela fait débat et n'est pas toujours vrai dans tous les domaines scientifiques. [2] (ACP) crée un nouvel ensemble de variables orthogonales qui contiennent les mêmes informations que l'ensemble d'origine. Il fait pivoter les axes de variation pour donner un nouvel ensemble d'axes orthogonaux, ordonnés de manière à résumer les proportions décroissantes de la variation. est similaire à l'ACP mais permet à l'utilisateur d'extraire un nombre spécifié de variables synthétiques, inférieur à l'ensemble d'origine, laissant la variation inexpliquée restante comme erreur. Les variables extraites sont appelées variables latentes ou facteurs dont chacun peut être supposé expliquer la covariation dans un groupe de variables observées. trouve des relations linéaires entre deux ensembles de variables, c'est la version généralisée (c'est-à-dire canonique) de la corrélation bivariée [3]. (RDA) est similaire à l'analyse de corrélation canonique mais permet à l'utilisateur de dériver un nombre spécifié de variables synthétiques à partir d'un ensemble de variables (indépendantes) qui expliquent autant de variance que possible dans un autre ensemble (indépendant). C'est un analogue multivarié de la régression. (CA), ou moyenne réciproque, trouve (comme l'ACP) un ensemble de variables synthétiques qui résument l'ensemble d'origine. Le modèle sous-jacent suppose des dissemblances du chi carré entre les enregistrements (cas). (CCA) pour résumer la variation conjointe de deux ensembles de variables (comme l'analyse de redondance) combinaison d'analyse de correspondance et d'analyse de régression multivariée. Le modèle sous-jacent suppose des dissemblances du chi carré entre les enregistrements (cas). comprend divers algorithmes pour déterminer un ensemble de variables synthétiques qui représentent le mieux les distances par paires entre les enregistrements. La méthode originale est l'analyse des coordonnées principales (PCoA basée sur PCA). , ou analyse variable canonique, tente d'établir si un ensemble de variables peut être utilisé pour faire la distinction entre deux ou plusieurs groupes de cas. (LDA) calcule un prédicteur linéaire à partir de deux ensembles de données normalement distribuées pour permettre la classification de nouvelles observations. assignez des objets à des groupes (appelés clusters) de sorte que les objets (cas) du même cluster se ressemblent davantage que les objets de clusters différents. crée un arbre de décision qui tente de classer correctement les membres de la population en fonction d'une variable dépendante dichotomique. étendre les méthodes de régression et de clustering aux modèles multivariés non linéaires. tels que les tournées, les tracés de coordonnées parallèles, les matrices de nuages ​​de points peuvent être utilisés pour explorer des données multivariées. impliquent plus d'une équation de régression, avec différentes variables dépendantes, estimées ensemble. implique des régressions simultanées de diverses variables de séries chronologiques seules et des valeurs décalées les unes des autres. L'analyse (PRC) est une méthode basée sur la RDA qui permet à l'utilisateur de se concentrer sur les effets du traitement au fil du temps en corrigeant les changements dans les traitements de contrôle au fil du temps. [4] consiste à remplacer une matrice de corrélation par un diagramme où les corrélations « remarquables » sont représentées par un trait plein (corrélation positive), ou par une ligne pointillée (corrélation négative).

Il existe un ensemble de distributions de probabilités utilisées dans les analyses multivariées qui jouent un rôle similaire à l'ensemble correspondant de distributions utilisées dans les analyses univariées lorsque la distribution normale est appropriée à un ensemble de données. Ces distributions multivariées sont :

Le manuel d'Anderson de 1958, Une introduction à l'analyse statistique multivariée, [5] ont formé une génération de théoriciens et de statisticiens appliqués. Le livre d'Anderson met l'accent sur les tests d'hypothèses via des tests de rapport de vraisemblance et les propriétés des fonctions de puissance : admissibilité, impartialité et monotonie. [6] [7]

MVA était autrefois uniquement dans les domaines de la théorie statistique en raison de la taille, de la complexité de l'ensemble de données sous-jacent et de la consommation de calcul élevée. Avec la croissance spectaculaire de la puissance de calcul, MVA joue désormais un rôle de plus en plus important dans l'analyse des données et a une large application dans les domaines OMICS.

  • Tests d'hypothèses multivariés
  • Découverte de la structure latente
  • Analyse de régression multivariée

Il existe un nombre énorme de progiciels et d'autres outils pour l'analyse multivariée, notamment :


La façon préférée d'envelopper les longues lignes est d'utiliser la continuation de ligne implicite de Python à l'intérieur des parenthèses, des crochets et des accolades. Si nécessaire, vous pouvez ajouter une paire de parenthèses supplémentaires autour d'une expression, mais parfois, l'utilisation d'une barre oblique inverse semble mieux. Assurez-vous de mettre en retrait la ligne continue de manière appropriée.

Exemple de continuation de ligne implicite :

Au sujet des sauts de ligne autour d'un opérateur binaire, il poursuit en disant :

Pendant des décennies, le style recommandé était de rompre après les opérateurs binaires. Mais cela peut nuire à la lisibilité de deux manières : les opérateurs ont tendance à être dispersés sur différentes colonnes à l'écran, et chaque opérateur est déplacé de son opérande vers la ligne précédente.

Dans le code Python, il est permis de casser avant ou après un opérateur binaire, tant que la convention est cohérente localement. Pour le nouveau style de code de Knuth (sauts de ligne avant l'opérateur) est suggéré.


Contexte

Sur les 20 millions d'enfants dans le monde dont la vaccination essentielle (IE) est incomplète ou inexistante pour les maladies évitables par la vaccination, près de la moitié vivent dans des pays en proie à des conflits et des déplacements de population (par exemple, l'Afghanistan, la République centrafricaine, l'Irak, le Mali, le Nigéria, le Pakistan, et Somalie) [1]. Les conflits et les instabilités régionales entraînent généralement une mauvaise couverture vaccinale et des calendriers vaccinaux interrompus [2] en raison de la perturbation des systèmes de santé et de l'accès aux soins entravé, ce qui entraîne des inégalités dans la livraison des vaccins. Actuellement, les obstacles au contrôle des maladies évitables par la vaccination concernent moins la biologie des agents pathogènes que l'identification des sous-populations manquées par le programme élargi de vaccination et donc laissées sans accès équitable aux interventions telles que la vaccination essentielle et les campagnes de vaccination supplémentaires [3, 4] . Les programmes de vaccination manquent ou sous-desservent les sous-populations difficiles à atteindre pour diverses raisons, notamment l'inaccessibilité géographique, la migration irrégulière de la population en raison des instabilités régionales et les modes de vie nomades. Pour cette raison, il demeure impératif d'employer des technologies innovantes et efficaces pour améliorer l'identification à distance des sous-populations difficiles à atteindre, permettant ainsi la prestation de services pendant les périodes d'accessibilité.

Comprendre la répartition géographique des populations cibles pour les interventions de santé est un élément essentiel de la microplanification - une base de données épidémiologique visant à fournir des interventions de soins de santé telles que les vaccinations essentielles pour les enfants en répondant aux exigences de mise en œuvre d'un environnement spécifique [5]. Les microplans éclairent de manière critique les décisions concernant les stratégies de prestation appropriées (c. Chaque microplan est composé d'une liste linéaire où chaque ligne représente des données relatives à l'unité géographique d'analyse étudiée tandis que les colonnes illustrent des variables contenant des informations démographiques (exemple-enfants de moins de 5 ans, nombre de ménages à visiter, estimations du total ressources nécessaires, etc.). Malgré l'utilité des microplans actuels, des arguments ont été avancés en faveur de méthodes de microplanification mises à jour qui tirent parti des systèmes d'information géographique (SIG) et de l'imagerie satellitaire pour générer des cartes de haute qualité et à jour de la répartition de la population cible et des cartes des caractéristiques bâties telles que les zones résidentielles. structures et implantations [7, 8]. Dans leur stratégie Atteindre chaque district (RED) pour la vaccination essentielle, l'Organisation mondiale de la santé (OMS) et le Fonds des Nations Unies pour l'enfance (UNICEF) ont reconnu la nécessité de ces méthodes mises à jour et ont décrit de nouvelles tactiques de microplanification améliorées par SIG pour une meilleure surveillance de la localisation de certains populations.

Dans certaines situations, la microplanification basée sur le SIG entraîne des coûts plus élevés que la microplanification traditionnelle non basée sur le SIG, cependant, cela n'implique pas nécessairement une inefficacité des coûts. Une récente analyse coût-efficacité menée dans deux États nigérians a déterminé que l'augmentation des coûts de la microplanification basée sur le SIG était principalement due à l'achat de vaccins supplémentaires pour des populations auparavant non comptabilisées et non atteintes par les méthodes de microplanification traditionnelles [7]. La microplanification basée sur le SIG permet non seulement d'économiser des ressources lorsqu'elle est exécutée de manière appropriée, mais elle protège également la vie des travailleurs sur le terrain dans des contextes où les conflits pourraient compromettre leur sécurité en réduisant le besoin de déploiement dans des zones à haut risque [6]. Lorsque l'accès en personne est sûr et faisable, la présence physique d'agents de terrain dans la région d'intérêt permet une vérification au sol qui est nécessaire pour valider les cartes générées à distance (c'est-à-dire générées à l'aide d'images et sans accès physique à la zone d'intérêt). Compléter les méthodes de microplanification avec l'intégration des technologies SIG pourrait soutenir davantage d'autres interventions de santé publique, telles que la pulvérisation d'insecticides pour la lutte contre les moustiques et la prévention du paludisme [9, 10] et la fourniture de services de santé maternelle et infantile [7].

Pour soutenir l'intégration de la technologie SIG dans la planification de la santé publique, les chercheurs tirent parti des images satellites à haute ou très haute résolution (VHR) générées par des satellites tels que GeoEye, QuickBird, RapidEye et WorldView. Les images d'une résolution inférieure au mètre provenant de ces satellites permettent aux analystes de numériser des éléments tels que des bâtiments, des toits, des routes, des camps de nomades et des établissements informels. La taille d'une population peut même être modélisée à partir de ces empreintes.

La numérisation de caractéristiques à grande échelle (par exemple, la numérisation de structures individuelles dans plusieurs districts ou provinces) à partir d'images sans méthodes automatisées prend beaucoup de temps pour un petit groupe d'analystes, en particulier lorsque les caractéristiques d'intérêt sont rares dans l'imagerie. Par conséquent, une méthode d'acquisition de données participative a gagné en popularité - le "mapathon" - qui est un effort limité dans le temps et participatif par un groupe de participants formés avec ou sans formation en analyse géospatiale formelle. Les participants, utilisés dans cet article pour décrire à la fois le groupe de contributeurs et de validateurs, génèrent des données spatiales d'entités telles que des structures résidentielles ou des établissements informels dans une zone d'intérêt spécifique à l'aide de plates-formes SIG, telles qu'OpenStreetMap et ArcGIS Online. Généralement, il n'y a aucune incitation financière pour les contributions faites lors d'un mapathon [11] et toute personne disposant d'un ordinateur et d'une connexion Internet peut contribuer. Par conséquent, les efforts humanitaires s'appuient fréquemment sur les mapathons pour identifier les populations mobiles et les implantations non détectées [11, 12]. De même, les données générées par les mapathons sont utiles pour détecter et dénombrer les populations manquées lors des campagnes de vaccination, optimisant ainsi les microplans des campagnes de vaccination. Les Mapathons fournissent également des données qui sont utilisées pour cartographier les zones de chalandise des établissements de santé lorsqu'elles sont fusionnées avec d'autres informations clés [12].

Une méthode alternative à l'utilisation de mapathons est l'extraction automatisée de caractéristiques (AFE), un type de génération de caractéristiques basée sur un modèle, qui peut être semi-automatique (c'est-à-dire avec une certaine assistance humaine) ou entièrement automatisée (c'est-à-dire sans assistance humaine). Après un investissement initial en temps pour développer manuellement des données de formation à l'aide d'exemples sélectionnés de caractéristiques d'intérêt (par exemple, des structures artificielles) et d'exemples de caractéristiques sans intérêt (par exemple, de gros rochers), l'AFE ne nécessite pas de temps et de main-d'œuvre. des étapes telles que l'identification de structures et le placement manuel de points ou de polygones sur un ordinateur. AFE s'appuie sur des algorithmes et des modèles informatiques pour apprendre les modèles, les bords et les formes des caractéristiques (par exemple, les toits ou les empreintes de peuplement) à numériser et à catégoriser. Les algorithmes d'apprentissage automatique sont conçus pour améliorer les performances en enseignant efficacement à l'ordinateur comment extraire les données spatiales souhaitées de l'imagerie avec à la fois précision et exactitude. L'AFE a été utilisé pour une multitude d'objectifs, tels que la cartographie de l'utilisation des terres agricoles [13,14,15,16] et des limites des eaux [17, 18], l'estimation des populations humaines et animales [19, 20], l'extraction d'éléments routiers [21 , 22], l'extraction des caractéristiques du bâtiment [23,24,25,26,27,28,29], et pour soutenir les efforts de secours en cas de catastrophe [30, 31].

Comme les mapathons, AFE s'appuie sur des images haute résolution pour des performances optimales, mais les paramètres de collecte d'images peuvent être affinés pour tenir compte de la couverture nuageuse, de la végétation épaisse et de la faible résolution spectrale. De plus, l'utilisation d'une série chronologique d'images peut améliorer la précision de la détection des caractéristiques en minimisant les faux positifs [14, 18] et est particulièrement utile lors de l'analyse des impacts avant et après la catastrophe sur les routes [30] et les installations [31].

Il n'y a actuellement aucune information sur la façon dont les résultats de la cartographie participative se comparent aux résultats de l'AFE si les chercheurs déterminent que l'AFE est aussi précise et précise que les mapathons mais plus rapide à générer des données spatiales, l'augmentation de son utilisation pourrait économiser des ressources et du temps précieux pour les programmes de santé publique sans compromettre la qualité. Additionally, as geospatial professionals gain a deeper understanding of the strengths of each method, future projects can more optimally combine the two to complement and enhance their end-products.

Disparities in equitable access to health services will decrease when additional sub-populations are identified in microplans and serviced by EI campaigns and other public health interventions. Here, we seek to explore and compare the accuracy of two methods of feature generation—mapathons and AFE—to provide evidence for the suitability of each method in identifying hard-to-reach populations vulnerable to vaccine-preventable diseases in inaccessible areas and whether the two methods can work in a complementary or synergistic way.


Interdisciplinary use of geospatial data requires the integration of data from a breadth of sources, and frequently involves the harmonization of different methods of sampling, measurement, and technical data types. These integrative efforts are often inhibited by fundamental geocomputational challenges, including a lack of memory efficient or parallel processing approaches to traditional methods such as zonal statistics. GeoQuery (geoquery.org) is a dynamic web application which utilizes a High Performance Computing cluster and novel parallel geospatial data processing methods to overcome these challenges. Through an online interface, GeoQuery users can request geospatial data - which spans categories including geophysical, environmental and social measurements - to be aggregated to user-selected units of analysis (e.g., subnational administrative boundaries). Once a request has been processed, users are provided with permanent links to access their customized data and documentation. Datasets made available through GeoQuery are reviewed, prepared, and provisioned by geospatial data specialists, with processing routines tailored for each dataset. The code used and steps taken while preparing datasets and processing user requests are publicly available, ensuring transparency and replicability of all data and processes. By mediating the complexities of working with geospatial data, GeoQuery reduces the barriers to entry and the related costs of incorporating geospatial data into research across disciplines. This paper presents the technology and methods used by GeoQuery to process and manage geospatial data and user requests.

D.R. and S.G. conceptualized the project, selected and refined relevant algorithms, and collaboratively wrote this piece. UN B. and Z.L. assisted in algorithmic development, data preparation and testing. S.G. wrote program code for core GeoQuery functionality Z.L. assisted on many preprocessing routines.