Sources & données

De la source brute à l’information réutilisable

Répertorier, acquérir, structurer, valider et publier : une chaîne de valeur simple pour transformer les documents publics en communs informationnels exploitables par toutes et tous.

1. Inventaire des sources publiques (priorités)

Commence par un périmètre clair (territoire + institutions), puis élargis.

Institutions & décisions

  • Parlements (Fédéral, Régions/Communautés) : ordres du jour, PV, interventions, votes.
  • Communes & CPAS : conseils, budgets, règlements, publications officielles.
  • Gouvernements/Collèges : arrêtés, plans, évaluation des politiques.

Données & documents

  • Open data : jeux de données (budgets, marchés publics, statistiques).
  • Instituts statistiques (ex. statistiques nationales/régionales).
  • Rapports d’activité, audits, évaluations, indicateurs sectoriels.

Objectif : visibilité + traçabilité + réutilisation — pour la redevabilité et l’empowerment collectif.

2. Acquisition : flux natifs (RSS/Atom) quand ils existent

Les flux RSS/Atom restent la voie royale : peu de maintenance, historisation correcte, filtrage aisé.

  • Repère les sections “Actualités”, “Publications”, “Ordre du jour”, “Open data” → cherche un RSS/Atom.
  • Ajoute-les dans un agrégateur (ex. FreshRSS) et tague par institution/thème.
  • Filtre côté agrégateur (requêtes par mots-clés, dossiers thématiques) pour réduire le bruit.

S’il n’y a pas de flux natif, on passe en “hors RSS”.

3. Acquisition : hors RSS (quand il n’y en a pas)

Beaucoup de sites publics n’offrent pas de flux. On combine des solutions low-tech et ouvertes :

  • RSS-Bridge pour générer un flux à partir d’une page qui change (listes de documents, actualités).
  • Scraping léger (scripts horaires) quand la structure HTML est stable.
  • Abonnements mail (avec relais vers un flux) si l’institution n’a que des newsletters.
  • Demandes d’accès aux documents (cadre légal d’accès) pour récupérer des pièces précises.

Toujours documenter la méthode d’acquisition et la date d’obtention.

4. Schéma de données minimal (interop + traçabilité)

Pour chaque élément collecté, stocke des métadonnées standardisées :

  • id (UUID), titre, description (résumé court), type (acte, séance, budget, dataset, article…)
  • date_document, date_collecte, source_url, institution, territoire
  • mots_cles (contrôlés), auteur/service, licence (si connue)
  • score_fiabilite (interne) + mode_acquisition (RSS, RSS-Bridge, scraping, FOI…)

Ce “socle” suffit pour lier la collecte à l’analyse, publier un index et générer des exports (CSV/JSON) réutilisables.

5. Qualité & validation (garde-fous)

La qualité éditoriale est non négociable. Mettre en place :

  • Triangulation : deux sources indépendantes pour toute affirmation sensible.
  • Reproductibilité : mentionner la requête, l’URL, la date/heure, le chemin d’extraction.
  • Relecture collégiale sur contenus sensibles (fact-check + biais potentiels).
  • Transparence : publier les méthodes (fiche de collecte, scripts, limites, biais connus).
  • Journal des corrections : versionner et consigner chaque mise à jour.

But : bâtir une légitimité par la méthode, pas par l’autorité.

6. Publication en commun informationnel

Les PDF insistent : l’info publique doit redevenir un commun — ouverte, traçable, réutilisable.

  • Site (Grav/Jekyll) : fiches synthèse + liens sources + exports (CSV/JSON).
  • Dépôt (GitHub/Gitea) : scripts, schémas, données dérivées, changelog.
  • Licence : privilégier les licences libres adaptées (données & textes).
  • Accessibilité : langage clair, formats alternatifs (PDF, audio), inclusion non-numérique (bulletin papier).

7. Méthodes de collecte étendues (mix numérique/terrain)

  • Plateforme hybride : signalements citoyens en ligne + réunions publiques régulières.
  • Cartographie collaborative : OpenStreetMap + balades urbaines thématiques.
  • Hackathons de données : ateliers ouverts pour explorer budgets/rapports et produire des visualisations.

Toujours lier virtuel et présentiel pour élargir les publics et la confiance.

8. Évaluer le dispositif (indicateurs utiles)

  • Couverture : % de sources clés suivies (par institution/thème).
  • Délai : temps moyen entre publication originale et intégration.
  • Qualité : part des items triangulés / relus collégialement.
  • Réutilisation : téléchargements d’exports, citations, reprises médias.
  • Impact : réponses institutionnelles, corrections obtenues, débats ouverts.
À retenir : documente les méthodes, ouvre les données, mutualise les efforts. C’est ainsi qu’une collecte locale devient un bien commun utile à tous.