A primeira geração de Cientistas de Dados

Cientista de Dados é citada com uma das profissões mais promissoras do mercado, a própria Forbes afirma que essa é a profissão do século. É fácil entender essa previsão, afinal com um crescimento descomunal de dados por todos lados, a necessidade de coletar, qualificar, organizar e  visualizar esses dados tornou-se uma necessidade imediata de organizações espalhadas por todo o mundo. Isso está gerando uma corrida atrás de formações em ciência de dados, afinal profissionais melhores qualificados obviamente concorrerão pelas melhores vagas disponíveis, que não por acaso estão sendo muito bem remuneradas nesse momento (lei da oferta e da procura).

Mas a primeira geração de Cientistas de Dados tem um grande desafio pela frente. É natural que uma função/habilidade tão nova tenha um tempo de “amadurecimento”, uma fase onde os profissionais de diferentes áreas irão entender o real papel do Cientista de Dados, e as organizações irão compreender o que demandar desse tipo de profissional. O papel do cientista de dados ainda é uma incógnita muito grande, se você perguntar para 5 pessoas diferentes “o que faz um cientista de dados?", mesmo que elas conheçam profundamente o assunto, você vai ouvir 5 respostas diferentes.

Durante o processo de implantação de Cultura Analítica, em organizações espalhadas pelo mundo todo, nosso time tem encontrado o desafio de esclarecer essa função, e ao analisar mais de perto o tema encontramos 3 problemas principais relacionados a percepção do trabalho desse profissional: Amplitude Funcional, Foco na Técnica e Produtividade Questionável. Vou explorar um pouco dessas descobertas nesse artigo, mas é importante lembrar que é uma função em plena evolução, e que todos os dias surgem novas variáveis e elementos relacionados as responsabilidades desse profissional dentro dos ambientes de negócios. 

Amplitude Funcional

O problema:Já escrevi em outro artigo sobre o Cientista de Dados Unicórnio , refere-se aquele profissional que deseja ser o melhor em tudo, mas na verdade torna-se um generalista de pouca profundidade nos 3 pilares de conhecimento da ciência de dados (Tecnologia da Informação, Estatística & Matemática e Análises de Negócio). Essa amplitude funcional está gerando um profissional “faz tudo”, mas que "não entrega nada direito”. É óbvio, a empresa contrata um cientista de dados com formação técnica (que conhece muito de ferramentas, plataformas e softwares) e o coloca para construir uma modelo analítico para previsão de vendas (onde o conhecimento requerido é na verdade em modelagens estatísticas complexas), adivinha o que vai acontecer? Isso, o profissional vai “tentar” entregar o melhor dentro dessa área de conhecimento que não é a dele. "Há, mas ele precisa dizer não.”, sim, deveria, isso se o papel do Cientista de Dados não abrangesse essa função, mas no papel ele é responsável por isso sim. Claro, esse é apenas um exemplo, mas imagine quantos desses casos se repetem todos os dias em organizações por todo o mundo. Mas como conseguimos barrar esse engano da “amplitude funcional” relacionada ao papel do Cientista de Dados?!Algumas possíveis saídas:Existem alguns caminhos, a definição de Cientistas de Dados atuantes por especialidades (Técnica, Analítica e Negócio), é uma das possibilidades que tem sido melhor entendidas em ambientes de negócio, pois assim as demandas estarão direcionadas baseado na capacidade principal desses profissionais, e não na generalidade do problema. O Cientista de Dados Técnico é aquele que vai usar a tecnologia para que dados acelerem a solução do problema (importante não confundir esse profissional com Tecnologia da Informação, que está centrado nas soluções de infraestrutura, softwares de gestão e inovação tecnológica), já o Cientista de dados Analítico é aquele que terá mais habilidade para construção de modelos matemáticos/estatísticos complexos (ou seja, rotinas que sistematizem o processo de tomada de decisão baseando-se em dados), e finalmente o Cientista de dados de Negócio, é aquele que extrai as perguntas do negócio e garante o vínculo do dado na solução do problema (esse último perfil tem sido o menos demandado, sendo que na verdade deveria ser a principal interface de construção de soluções baseadas em dados). Uma outra forma de solucionar a Amplitude Funcional é através da especialização temática, por exemplo Cientistas de Dados da Saúde, Cientista de Dados de Finanças, Cientista de Dados de Esportes, Cientista de Dados de Marketing,... dessa forma seria possível uma especialização nas ferramentas de cada tipo de operação, com mergulhos constantes no conhecimento do negócio, aplicando modelagens que fazem sentido dentro do contexto. Ambos os caminho tem sido utilizados em diferentes tipos de organizações, ainda assim em alguns casos os papéis são confundidos, pedindo por exemplo para que o Cientista de Dados defina qual a infraestrutura tecnologia para coleta de dados de sensores, fazendo com que a amplitude funcional novamente se expanda, deixando ainda mais confuso para quem gera as demandas.

Foco na Técnica

O problema:Os cientista de dados são preponderantemente oriundos de áreas técnicas de estudo (ciências, tecnologia,…), fazendo com que obviamente tenham foco principal na construção de soluções técnicas para os problemas, e isso é ótimo (afinal as áreas de negócio precisam, e MUITO disso), mas não é tudo. Quando o cientista de dados é convocado para solucionar um problema de negócio, e ele percebe que poderá usar uma aplicação de rede neural naquela situação específica, é como se um sonho estivesse próximo da realização (desenvolvimentos de soluções baseados em modelos de redes neurais é uma técnica pouquíssima usada, o que transforma em um processo científico complexo e muitas vezes inédito, e isso é muito sexy para um cientista). O problema é que o solicitante da área de negócio não está interessado em saber do processo de construção disso, ele quer sim um modelo preditivo mais eficiente do que o processo de tomada de decisão atual, a ciência por trás é “apenas uma questão técnica”. Isso, naturalmente, gera frustração para os dois lados.Algumas possíveis saídas:O cientista de dados também precisa ser um “tradutor”, ele precisa ajudar na concepção do problema através de uma mentalidade data-driven, mas ao mesmo tempo precisa falar a “língua do negócio”, para entregar uma solução real do problema e não uma simples aplicação técnica, que ficará dentro de uma gaveta pois a área de negócio "não entendeu" como usar. O Cientista de Dados com foco na Técnica terá, ao longo do tempo, um valor de mercado menor, afinal a técnica é possível ser replicada através de uma educação funcional, mas a aplicação da ciência no negócio pode ser um diferencial dificilmente replicado. O Cientista de Dados que criou o algoritmo de recomendação de livros da Amazon são tratados como celebridades, afinal, a forma que usaram uma técnica para resolver um problema de negócio real foi espetacular e inédita, mas na prática a solução é “simples”, afinal foi somente uma correlação de semântica associada ao campo texto do mecanismo de busca dos próprios usuários. A Técnica precisa ser a ferramenta, mas o uso adequado dela é onde o Cientista de Dados deve se concentrar.

Produtividade Questionável

O problema:O Cientista de Dados, para chegar a resultados que outros nunca chegaram, precisa ter um ambiente de experimentação, por esse motivo chama-se ciência. A replicação de técnicas conhecidas em dados desconhecidos vai resultar em novos resultados, parece algo bacana, afinal daí surge inovação, mas o custo dessa operação não está projetada em uma operação de negócio. Negócios tradicionais são estruturados para darem o melhor resultado possível, aprimorando a eficiência operacional, assim distinguindo-se da concorrência. Em um ambiente de experimentação, a chance de fracasso é sempre alta, e os resultados podem vir de uma grande descoberta única, por isso cientistas (de todas as áreas) vivem em seus laboratórios buscando esse tipo de resultado. Quando surge um problema de negócio, a solução daquela situação realmente pode estar nos dados, então chama-se um Cientista de Dados para ajudar na investigação e proposição de alternativas para solucionar, então ele começa o trabalho dele: identifica as fontes de dados existentes, mapeia fontes alternativas que podem colaborar, coleta os dados, faz a limpeza da sujeira que sempre está presente dentro de bases de dados, qualifica os dados, valida se esses dados estão corretos com a área de negócio, e então coloca em ferramentas para cruzamentos de hipóteses, depois realiza a criação de modelos analíticos para entendimento das variáveis, e então, finalmente, chega à uma conclusão da análise. Não falei em uma solução do problema, e sim uma conclusão da análise, pois a solução do problema estará em uma ação que precisa ser tomada pelos executivos de negócio, em cima das análises que agora apoiam essa decisão. Nesse processo todo, as fases iniciais na maioria das vezes são as mais morosas, e quando chegam na conclusão de análises, muitas vezes ele pode não ser uma resposta nova, pode ser apenas uma resposta que a área de negócio já sabia baseado na sua experiência e repetição do processo. Isso é ciência, um trabalho muito grande de experimentação, na busca de atingir resultados nunca antes atingidos, que muitas vezes não não são atingidos. Nesse momento, as áreas de negócio que estão acostumadas a lidar com o ambiente feroz de competição do mercado, e que "não tempo algum para perder", questionam o Cientista de Dados, pois aquela morosidade necessária em um processo científico, pode ter “atrasado” uma importante decisão, e assim prejudicado o negócio. Então, aquilo que move os negócios de alto desempenho, a produtividade individual, e o papel do Cientista de Dados como apoio ao negócio é colocado em questão.Algumas possíveis saídas:Obviamente, que negócios que trabalham apenas com o processo de redução de tempos em seu processo, ou seja produtividade, tem um limite de sucesso, e normalmente são superados por processos de inovação, de alguém que experimentou novas formas de investigar e solucionar um determinado problema, mas isso pode ter um alto custo envolvido. Organizações que querem ter cientistas de dados em seu dia-a-dia precisam criar um ambiente propício para realização desse trabalho, aceitando que o sucesso é uma das hipóteses possíveis. Há, mas isso é duro, afinal "existem ferramentas e algoritmos que aceleram todo esse processo!”, certo?! É óbvio, e isso estará cada vez mais presente em ambientes de competição acelerados por Cultura Analítica, mas isto não é ciência, apenas instrumentalização de técnicas analíticas construídas previamente. Replicação de modelos é papel de analistas de dados e não de cientistas.

Como citei anteriormente, a primeira geração de Cientistas de Dados possui um desafio gigante pela frente, assim como cientistas de todas as outras áreas (saúde, biologia, química,…), esses precisarão provar seu valor através de resultados obtidos, algo que não acontecerá de um dia para outro. Mais do que serem bons cientistas, precisarão aprender a comunicar o seu papel e suas descobertas de forma consistente, deixando claro a sua especialidade dentro de toda a Amplitude Funcional possível, precisarão reduzir o Foco na Técnica na hora de entender o problema e transmitir as possibilidades de solução, e, finalmente, terão de aprender a lidar com sua constante Produtividade Questionável, algo que todos os cientistas enfrentam todos os dias (assim como criativos, artistas,…). Ser um cientista significa ter poucos momentos de brilho, a maioria do tempo (talvez 99%) é destinado a investigação, pesquisa, teste de hipótese e descobertas fracassadas, para finalmente identificar algo inédito ou de real valor (que seria aquele 1% de valor inestimável).

Se você quer ser da primeira geração de Cientistas de Dados, aprenda a lidar com essas adversidades, pois elas por muito tempo estarão presentes no dia-a-dia do trabalho desses profissionais. Uma forma de minimizar o impacto dessa mudança é, o Cientista de Dados, consciente desse processo, promover um Equilíbrio de Mindset, sendo um facilitador do processo de acesso à ciência para as áreas de negócio. A comunicação (de estudos, métodos, projetos, descobertas,...) é uma das habilidades pouco desenvolvida em cientistas na sua formação, eles aprendem a documentar em teses/teorias (muitas vezes muito longas e com linguagem complexa), mas não aprendem a transmitir isso de forma simples, prontas para uso. O poder dos dados precisa estar acessível as áreas de negócio, para que assim o cientista possa concentrar-se em estudos de novas técnicas, é uma gangorra difícil de equilibrar, mas absolutamente necessária. De um lado temos a geração de inovação através de um profundo (e lento) processo de descobertas, do outro, a necessidade contínua de apoio no incremento de performance do negócio, navegar entre esses dois universos é fundamental para a atuação de Cientistas de Dados em ambientes de negócio.