SERVICE // 03

Data Cleanup & dados prontos para IA.

O maior risco do seu projeto de IA não é o modelo - são os dados que lhe está a dar. Eliminamos duplicados, normalizamos, etiquetamos e estruturamos para que o resto da stack tenha matéria útil para trabalhar.

A PARTIR DE 2 500 € · 2 A 6 SEMANAS · PIPELINE INCLUÍDA

Delimitar um projeto de dados

Porque é que isto importa.

A maioria dos pilotos de IA fica pelo caminho na qualidade dos dados, não na escolha do modelo. Um modelo frontier sobre dados sujos vai alucinar. Um modelo intermédio sobre dados limpos e bem estruturados ultrapassa-o em silêncio. Fazemos primeiro o passo ingrato.

O que vamos limpar.

Dados de CRM - contactos duplicados, nomes de empresa inconsistentes, relações partidas, registos obsoletos.
Catálogos de produto - duplicação de SKU, atributos inconsistentes, deriva de categorias, lacunas de metadados.
Documentos a granel - OCR, deduplicação, extração para campos estruturados, marcação de metadados.
Logs operacionais + folhas de cálculo - normalização para uma tabela de warehouse pesquisável.
Etiquetas + dados de treino - concordância inter-avaliadores integrada.

Método.

Auditoria de amostra. Tirar 1 000 linhas (ou 100 docs). Avaliar a qualidade. Quantificar a confusão.
Spec de limpeza. Regulamento escrito - o que é um duplicado, o que é canónico, o que se funde, o que se descarta. Validação do cliente.
Tooling. dbt, scripts Python, MDM de prateleira, deduplicação por LLM. O que encaixar.
Revisão human-in-the-loop. Quase-duplicados e fusões ambíguas passam por uma fila de revisão. Sem perda silenciosa de dados.
Pipeline. Não é uma limpeza única - uma pipeline contínua para que os dados do mês seguinte se mantenham limpos.
Entrega. Documentação da pipeline, formação do dono, dashboard de monitorização.

Preço.

Cleanup focado - 2 500 €-5 000 €. Uma fonte, um domínio. 2 semanas.
Multi-fonte - 5 000 €-10 000 €. 2 a 3 fontes, pipeline completa. 3 a 4 semanas.
Enterprise / classe MDM - 10 000 €+. Cotado. 5 a 6+ semanas.

O que «pronto para IA» quer dizer.

Único. Sem duplicados que o sistema não consegue resolver.
Normalizado. Um formato por campo (datas, moedas, países, unidades de produto).
Completo nos campos críticos. Ou explicitamente marcado em falta.
Estruturado. Texto livre parsed em campos nomeados onde isso conta.
Etiquetado. Para sistemas de ML, as etiquetas existem e são consistentes.

Delimitar um projeto de dados Ler o playbook