Conforme Bradshaw, as melhores práticas (blueprint) para a limpeza de dados envolvem 6 etapas, sendo elas:
- Auditar os dados: verificando os dados de forma programática (não manual), utilizando regras de validação definidas previamente e gerando como resultado um relatório sobre a qualidade dos dados. Pode incluir ainda uma análise estatística, verificando a existencia de exceções;
- Criar de um plano de limpeza dos dados: identificando as causas erros dos dados brutos; definindo as operações que devem ser realizadas, de forma a corrigir esses erros; e testando as operações que pretende-se realizar verificando se terão os efeitos desejados;
- Executar o plano: gerando um script (programa computacional);
- Corregir manualmente: se necessário;
- Análise dos interessados: as pessoas envolvidas;
- Iteração: voltando ao item 1 e seguintes até ter-se confiança nos dados.