EnglishFrançaisDashboards & KPI ReportingMathematical Modeling & ForecastingApps, APIs, Integrations & MoreStrategic & Competitive AnalysisBlogFAQAboutÀ proposCase Study: 100M-Row Data Warehouse in 4 WeeksÉtude de cas : Entrepôt de données 100M de lignes en 4 semaines
← blogue

28 janvier 2026

Un entrepôt de données de 100 M lignes en 4 semaines

Une entreprise de marché intermédiaire est venue nous voir après avoir reçu un devis d'une grande firme de consultation : 18 mois, plus de 200 000 $ et une équipe de douze personnes. L'entreprise avait besoin d'un entrepôt de données centralisé unifiant les données de son ERP, CRM, plateformes marketing et base de données transactionnelle. Nous avons livré le tout en quatre semaines pour une fraction du coût.

Le point de départ

L'entreprise utilisait une base de données transactionnelle PostgreSQL qui avait atteint plus de 100 millions de lignes. Elle n'avait jamais été conçue pour des requêtes analytiques — c'était un système OLTP faisant double emploi. La génération de rapports était lente. Certaines requêtes prenaient 15 à 20 minutes. L'équipe des finances lançait ses rapports à 6 h pour éviter d'impacter la production. Le marketing n'avait aucun accès aux données et prenait des décisions fondées sur des tableaux de bord propres à chaque plateforme, déconnectés des revenus.

Plusieurs départements avaient besoin d'analytique, mais chaque équipe travaillait avec une version différente de la vérité. Il n'y avait aucune source unique de référence pour les indicateurs clés comme la valeur à vie du client, l'attribution marketing ou la rotation des stocks.

L'architecture

Nous avons construit un déploiement en trois couches qui sépare clairement les responsabilités :

  • Couche 1 — Ingestion. Des pipelines automatisés extraient les données de PostgreSQL, HubSpot, Google Analytics, Shopify et des API internes sur un cycle de rafraîchissement de 5 minutes. Capture des données de changement (CDC) pour la base transactionnelle, synchronisation complète pour les sources plus petites.
  • Couche 2 — Entrepôt. Google BigQuery comme moteur analytique. Tables de faits dénormalisées, modèles dimensionnels et agrégats précalculés pour les requêtes les plus importantes. BigQuery gère plus de 100 M de lignes sans broncher — la plupart des requêtes analytiques retournent en moins de 3 secondes.
  • Couche 3 — Présentation. Des tableaux de bord sur mesure adaptés à chaque département. Les finances voient la marge et les flux de trésorerie. Le marketing voit l'attribution, le CAC et la VVC. Les opérations voient les stocks, l'exécution des commandes et le débit. Tout le monde voit les mêmes chiffres sous-jacents.

L'échéancier

Semaine 1 : Audit des données et mise en place des pipelines. Nous avons cartographié chaque système source, identifié les entités clés et les relations, et mis l'ingestion en marche vers BigQuery. Le vendredi, les données brutes circulaient.

Semaine 2 : Modélisation de l'entrepôt. Construction du modèle dimensionnel, création des tables de faits et de dimensions, écriture de la logique de transformation. Gestion des aspects complexes — dédoublonnage, normalisation des fuseaux horaires, conversion de devises, gestion des valeurs nulles dans les enregistrements historiques.

Semaine 3 : Développement des tableaux de bord. Vues spécifiques par département, construites autour des vraies questions de chaque équipe, pas de modèles génériques. Rétroaction itérative avec les parties prenantes — ajuster un indicateur ici, ajouter un niveau de détail là.

Semaine 4 : AQ, validation et transfert. Vérification croisée des chiffres des tableaux de bord avec les rapports financiers connus. Formation des utilisateurs finaux. Déploiement de la surveillance et des alertes pour les pannes de pipeline.

Pourquoi la grande firme avait devisé 18 mois

Les grandes firmes de consultation optimisent pour les heures facturables, pas la vitesse de livraison. Un projet de 18 mois avec une équipe de douze personnes génère significativement plus de revenus qu'un mandat de 4 semaines avec un ou deux ingénieurs seniors. La structure d'incitatifs est désalinée avec l'intérêt du client.

L'autre facteur est le choix technologique. Beaucoup de firmes optent par défaut pour des plateformes de calibre entreprise (Informatica, Snowflake avec une couche de services gérés, Talend) qui ajoutent de la complexité et des coûts sans avantage proportionnel pour les entreprises de marché intermédiaire. BigQuery avec des pipelines sur mesure est plus simple, moins cher et amplement suffisant pour des ensembles de données de centaines de millions de lignes.

Le résultat

Coût total : 12 500 $ CA pour la construction, plus environ 150 $/mois en coûts BigQuery et d'infrastructure. L'entreprise est passée d'aucune analytique centralisée à une situation où chaque département travaille à partir des mêmes données, rafraîchies toutes les cinq minutes, avec des temps de requête de moins de 3 secondes.

Le logiciel qu'elle possède désormais est aussi un actif incorporel à son bilan et est admissible aux crédits d'impôt RS&DE — ce qui réduit encore davantage le coût effectif.