SERVICE // 03

Data Cleanup & données prêtes pour l'IA.

Le plus gros risque de votre projet IA, ce n'est pas le modèle - ce sont les données que vous lui donnez. Nous dédupliquons, normalisons, labellisons et structurons pour que le reste de la stack ait de la matière exploitable.

À PARTIR DE 2 500 € · 2 À 6 SEMAINES · PIPELINE INCLUSE

Pourquoi c'est important.

La plupart des pilotes IA calent sur la qualité des données, pas sur le choix du modèle. Un modèle frontier sur des données sales va halluciner. Un modèle intermédiaire sur des données propres et bien structurées va silencieusement le surclasser. Nous faisons d'abord l'étape ingrate.

Ce que nous nettoierons.

  • Données CRM - contacts dupliqués, noms de société incohérents, relations cassées, records obsolètes.
  • Catalogues produits - duplication de SKU, attributs incohérents, dérive de catégories, lacunes de métadonnées.
  • Documents en vrac - OCR, déduplication, extraction vers des champs structurés, tagging de métadonnées.
  • Logs opérationnels + tableurs - normalisation vers une table de warehouse interrogeable.
  • Labels + données d'entraînement - accord inter-évaluateurs intégré.

Méthode.

  1. Audit d'échantillon. Tirer 1 000 lignes (ou 100 docs). Profiler la qualité. Quantifier le bazar.
  2. Spec de nettoyage. Règlement écrit - qu'est-ce qu'un doublon, quelle valeur est canonique, ce qui fusionne, ce qui est jeté. Vous validez.
  3. Outillage. dbt, scripts Python, MDM sur étagère, déduplication par LLM. Ce qui colle.
  4. Revue human-in-the-loop. Quasi-doublons et fusions ambiguës passent par une file de relecture. Pas de perte silencieuse.
  5. Pipeline. Pas un nettoyage one-shot - une pipeline en continu pour que les données du mois prochain restent propres.
  6. Remise. Doc de pipeline, formation du propriétaire, dashboard de monitoring.

Prix.

  • Cleanup ciblé - 2 500 €-5 000 €. Une source, un domaine. 2 semaines.
  • Multi-source - 5 000 €-10 000 €. 2 à 3 sources, pipeline complète. 3 à 4 semaines.
  • Enterprise / classe MDM - 10 000 €+. Chiffré. 5 à 6+ semaines.

Ce que veut dire « prêt pour l'IA ».

  1. Unique. Pas de doublons que le système ne peut pas résoudre.
  2. Normalisé. Un format par champ (dates, devises, pays, unités produit).
  3. Complet sur les champs critiques. Ou explicitement marqué manquant.
  4. Structuré. Texte libre parsé en champs nommés là où ça compte.
  5. Labellisé. Pour les systèmes ML, les labels existent et sont cohérents.