Projet:Démographie/France/Organisation et stockage des données
Un nombre considérable de données est associé au projet Démographie pour ce qui concerne la France, puisqu'il y a un lot de données par division géographique française et à chaque division est associé un article, mais aussi le cas échéant un ou plusieurs articles détaillés. Par ailleurs de nombreux articles thématiques traitent également de données démographiques.
Cette page a pour objet de décrire l'organisation et le stockage de ces données, sur le plan historique et technique.
Cadre[modifier | modifier le code]
L'organisation et la gestion des données démographiques relatives à la France s'insère dans un domaine plus large que constitue le système d'information territoriale pour les divisions de la France.
Historique[modifier | modifier le code]
Jusqu'en 2012 l'ensemble de ces données étaient stockées en dur dans les articles individuels des différentes divisions de la France ou autres. Chaque année elles devaient être actualisées à la main par un grand nombre de contributeurs, conduisant à un décalage très important dans l'actualisation des articles, allant jusqu'à plusieurs années pour les divisions délaissées par les contributeurs.
A partir de 2012 ont été créé des modèles de données hébergés dans la Wikipédia francophone, puis en 2017 des modules de données. Parallèlement les données de population se sont structurées sur Wikidata à partir de 2017.
En 2020 est lancé le projet de stockage de tables de données sur Commons (même si la question s'était déjà posée dès 2017).
Période | Wikipédia | Wikidata | Commons |
---|---|---|---|
avant 2012 | dans les articles | ||
de 2012 à 2017 | dans des modèles de données par circonscription (communes à partir de 2012, cantons et autres divisions à partir de 2014) | ||
de 2017 à 2020 | dans des modules de données en lua par circonscription | Création élément P1082 (« population ») (et autres qualificatifs associés) et chargement des données à partir de 2017 | Tables de données d'appartenance géographique communale à partir de 2018 |
à partir de 2021 | Tables de données démographiques sur Commons par division ? |
Typologie et dénombrement des données[modifier | modifier le code]
État des données et modèles par division au 1er janvier 2020[modifier | modifier le code]
Le tableau suivant recense la typologie et le nombre de données existant au 1er janvier 2020 (de manière approximative). Il ne recense pas toutes les utilisations de ces données.
Type de division | Nombre de division par type |
Nombre de millésimes par modèle |
Nombre de millésimes par module |
Nombre total de données |
Modèles | Modules |
---|---|---|---|---|---|---|
Circonscriptions administratives | ||||||
Commune | 34 968 | 46 | 46 | modules : 34968 x 46 x 14 = 22 519 392 | OUI | OUI |
Commune associée ou déléguée | 2 916 | OUI[Note 1] | NON | |||
Commune en COM1 | 35 | NON | NON | |||
Commune en COM | 48 | NON | NON | |||
Canton | 2 093 | 10 | 5 | OUI | OUI | |
Fraction cantonale | 775 | OUI | NON | |||
EPCI | 1 256 | 4 | OUI | NON | ||
Arrondissement | 333 | 17 | OUI | OUI | ||
Département | 101 | 46 | OUI | OUI | ||
Région | 18 | 3 | OUI | OUI | ||
Zonages d'études | ||||||
Unité urbaine | 2 386 | NON | NON | |||
Aire urbaine | 793 | NON | NON | |||
Bassin de vie | 1 664 | NON | NON | |||
Zone d'emploi | 322 | NON | NON |
Typologie des modèles/modules/tables de données[modifier | modifier le code]
Modèles de données sur Wikipédia[modifier | modifier le code]
Modules de données sur Wikipédia[modifier | modifier le code]
Éléments de données sur Wikidata[modifier | modifier le code]
Tables de données sur Commons[modifier | modifier le code]
Tables de découpage communal[modifier | modifier le code]
Tables démographiques[modifier | modifier le code]
Des modules sur Wikipédia à des tables sur Commons[modifier | modifier le code]
Comparaison tables Commons et Wikidata[modifier | modifier le code]
Sujet | Wikidata | Commons |
---|---|---|
Format de stockage | Wikibase | Json |
Commentaire format | Structure relativement complexe. Fomat expressif, permettant d'ajouter des sources précises et diverses qualifications. Consommateur de mémoire. | Concis et léger. |
Adapté pour | Données complexes ou hétérogènes. | Données homogènes séries temporelles, peut être certaines données numériques. |
Organisation des données | Par élément. En gros 1 concept = 1 élément. Les relations sémantiques entre éléments permettent une exploration programmatique des données. | Par fichier. 1 fichier = 1 lot de données homogènes. Possibilité de créer deux fichiers portant sur le même sujet mais utilisant des sources ou une méthodologie différente. |
Indexation et recherche des données | Moteurs de recherche puissant. | Peu de fonctionnalités de recherche. Pas de catégorisation. Documentation minimaliste. Le mieux pour retrouver les données est sans doute de lier depuis Wikidata. |
Récupération sur Wiki | Facilement utilisables sur Wiki, avec des limites quantitatives dues au volume occupé par les données. | Données faciles à récupérer. Facile à utiliser si on connait la manière dont elles sont structurées. |
Utilisation externe | Point Sparql et outils divers. | Données téléchargeables, mais ne semblent pas encore vraiment utilisées. |
Présentation pour le lecteur | En langage naturel. Généralement facile à comprendre mais souvent fouillis sur les éléments de grande taille. Quelques outils de mise en page externes. | Table concise et propre mais l'utilisation des codes Wikidata comme valeur peut rendre la compréhension compliquée. |
Edition manuelle | Editeur interactif. | Modification du code source Json. |
Multilinguisme | Multilinguisme natif pour les données de type "élément". | Possibilité de traduction des textes, mais fichier par fichier. Possibilité d'utiliser les identifiants Commons pour automatiser la traduction sur le site client. |
Risque de vandalisme | Modéré. Résumé et historique de modifications précis, mais la diversité des données et le grand nombre de modifs peuvent rendre le suivi en temps réel difficile. Risque de modification bien intentionnées mais contre-productives. | Sans doute faible. Données peu visibles. Contraintes formelles empêchant les modifications hâtives. |
Bots et outils | Communauté importante, outils variés. | Rien pour l'instant ? |
Licence | CC0 (équivalent domaine public). | CC0,CC attribution, ou CC attribution share alike. |
Notes et références[modifier | modifier le code]
Notes[modifier | modifier le code]
- Ces modèles ne sont plus actualisées depuis le passage aux modules de données en 2018.