O que faz um cientista de dados (data science)?

piramide ciencia de dadosCiência de dados, também chamada de “data science” é uma área de atuação multidisciplinar que engloba o agrupamento de todos os dados e variáveis disponíveis a fim de realizar análises e buscar soluções para problemas. Nos últimos anos, o data science cresceu a uma taxa assombrosa, e evidências apontam para um crescimento ainda maior na próxima década. Portanto, pode ser interessante aprender o que um cientista de dados faz na prática e como é possível se enquadrar nesse mercado.

A carreira de cientista de dados ainda é muito nova. Poucas universidades oferecem a graduação cientista de dados, o mais comum são as pós-graduações em data science. Um aluno graduado em ciências da computação, análise de sistemas, engenharia, matemática ou estatística pode tranquilamente iniciar sua carreira na ciência de dados, porém esse campo de estudo não se restringe apenas a essas graduações. Para se tornar um bom profissional de data science, é necessário ter uma mente analítica e metódica, saber separar hipóteses de evidências e gostar de gráficos e tabelas, afinal, boa parte do trabalho será focado nisso.

Um cientista de dados é responsável por monitorar dados e tirar insights a partir dos mesmos. Imagine uma empresa de produção de sapatos, por exemplo. Existem dezenas de variáveis que podem ser analisadas a respeito da performance da empresa, desde controle de estoque e análise dos materiais até perfis de clientes. Um cientista de dados poderia reunir o máximo de informações disponíveis tendo um objetivo traçado. Por exemplo: o objetivo pode ser prever a durabilidade de uma bota a partir dos dados de sua fabricação. Esses dados de fabricação podem ser os materiais utilizados e também os dados de sensores que monitoram as máquinas da fábrica. Pode ser possível detectar padrões de qualidade a partir do cruzamento de dados, encontrar explicações para o motivo de determinados calçados terem uma duração maior dependendo do comportamento e do ajuste das máquinas. Esse tipo de análise envolveria machine learning (aprendizado de máquina) juntamente com big data. Com os algoritmos de machine learning adequados e uma análise bem executada, muitas informações antes ocultas podem ser reveladas aos analistas de negócio, aumentando a produtividade e o lucro da empresa.

Além de possuir conhecimentos de machine learning, é importante que o cientista de dados domine algumas ferramentas para gestão e extração de dados (ETL), que fazem parte do business intelligence. Algumas ferramentas úteis para manipulação de grandes conjuntos de dados são o Haddop e o Spark, por exemplo. Dominar pelo menos duas linguagens de programação (como Python, linguagem R, Linguagem C ou Java) é importante para esse profissional.

E como terceira capacitação, o conhecimento de BI na parte de produção de gráficos é essencial para que o cientista de dados possa apresentar seus trabalhos para os gerentes de negócios. Não é aconselhável apresentar insights relevantes em formatos de tabelas difíceis de abstrair ou interpretar. Gráficos são muito mais intuitivos e tornam a apresentação dos resultados mais profissional.

Basicamente, com essas habilidades o profissional cientista de dados está pronto para trazer resultados positivos para sua empresa. Iniciar os estudos agora pode ser uma decisão sábia tendo em vista o potencial que essa carreira pode apresentar.

Fontes:

https://didatica.tech/

http://www.cienciaedados.com