Projeto de Data Science: 5 fases para realizar o trabalho

janeiro de 2022

Autor: Renato Azevedo Sant Anna

Por minha experiência anterior, eu descreveria um projeto de Data Science, em termos de alocação de esforço, em 5 fases envolvidas para realizar o trabalho. A maior parte do esforço concentra-se nas fases iniciais. Esses percentuais podem variar, dependendo do caso. 

1ª fase – cerca de 10% do esforço envolvendo o mapeamento das fontes de dados. 

2ª fase – cerca de 60% do esforço com Data Quality, que envolve a limpeza e organização dos dados, para que possam ser padronizados e usados ​​em algoritmos de Machine Learning

3ª fase – modelagem propriamente dita, com cerca de 10% do esforço, que envolve entender bem as variáveis ​​que afetam o problema a ser resolvido, a busca pela melhor solução possível e o desenvolvimento dos modelos de Machine Learning

4ª fase – cerca de 15% do esforço com o processo de mineração de dados, governança de dados (exemplo, mitigação de viés nos resultados gerados) e melhoria dos algoritmos de Machine Learning, em um processo evolutivo. 

5ª fase – os 5% restantes do esforço envolvem a parte de visualização de dados, geração de insights e Data Storytelling com apresentação dos resultados aos stakeholders e patrocinadores envolvidos, como Diretoria da empresa e clientes externos, por exemplo. 

Obs .: A respeito da 2ª Fase de um projeto de Data Science, algumas fontes na Internet apontam que o percentual de esforço real pode chegar a 80% para a limpeza dos dados, mas como regra geral eu seria mais cauteloso com isso, devido aos avanços contínuos das novas tecnologias, no que diz respeito a automação de tarefas repetitivas usando inteligência artificial que pode ajudar a resolver diversos problemas nesta área. 


Compartilhe nas redes sociais Compartilhe nas redes.