Modelos preditivos e Maturidade analítica

A Letícia (que lidera vários projetos na Cappra Data Science) produziu um texto muito legal sobre os desafios que encontramos no dia-a-dia ao levar modelos preditivos para nossos clientes e como isso impacta a maturidade analítica dos negócios. Deixo aqui nas palavras dela... :)

Sobre modelos preditivos e maturidade analítica

Sempre que iniciamos um novo projeto na Cappra , existe uma rodada que exercitamos a criatividade e a co-criação para que todos possam levantar seus desejos em produtos de dados (dashboards de visualização, relatórios de dados específicos, modelos preditivos, entre outros). Na sequência, reunimos o grupo para priorizar o que será feito primeiro — e sempre surge aquele grupo que quer “fazer um modelo preditivo que vai responder todas as nossas perguntas e melhorar nossa performance/resultado/tomada de decisão”.

Porém, poucas pessoas sabem que um modelo ou sistema preditivo de dados é tanto uma questão matemática quanto uma questão humana: é, acima de tudo, um processo evolutivo de diversas regras, determinadas pelo negócio ao qual ele atende, e por uma equipe de cientistas de dados, apoiados por uma equipe de tecnologia. Se tivermos que traduzi-lo em uma imagem, seria assim: quanto menor a complexidade, mais próximo de uma descoberta e uma análise aquele dado está. Quanto mais complexa, mais ela incrementa conhecimento, permitindo a criação de regras que alimentam sua evolução e maturidade analítica.

Quê? Eu explico. Um sistema preditivo é uma máquina programada e ensinada a replicar e (constantemente) reaprender a partir de inputs (respostas) que um negócio busca descobrir. Ele apoia um processo de decisão, trazendo a melhor saída ou a mais provável, considerando o histórico de vezes que aquilo já se repetiu, e as diversas variáveis que possam impactar no seu resultado.

Por exemplo: um modelo preditivo pode responder se a demanda de um produto vai aumentar ou reduzir no próximo mês. Para isso, ele aprende com o histórico daqueles dados de demanda e de outras variáveis que possam vir a impactar na demanda, reaprendendo, a cada resposta (valor da demanda real versus o valor que ele previu), melhorando seu resultado de: cresce ou diminui.

Mas até chegar nessa solução de forma satisfatória (com altos índices de acerto), existe uma maturidade analítica para a qual poucas empresas estão preparadas, pois poucas sabem afirmar, com base em dados, por exemplo, se aqueles valores são sazonais, ou se são impactados pelo dólar, ou ainda, se sobem por causa de datas comemorativas. Geralmente, essas determinações são muito mais na base do feeling do que da prova real.

E isso acontece pois não se sabe sobre o papel a ser desempenhado pelas partes. Para construir o modelo, é papel da equipe de cientistas de dados auxiliar na geração de insights sobre os dados e sobre o método, utilizando os dados disponíveis para construir produtos que respondam questões de negócios, com o uso da matemática, da estatística e da visualização da informação. A equipe de negócios, por sua vez, deve determinar quais as decisões que aqueles dados vão responder, e definir as regras que serão aplicadas a eles. Isso se chama problem framing [enquadramento/definição do problema]. Já as regras, são baseadas na constante observação dos dados, no conhecimento que se constrói das informações a partir desses dados, e em objetivos específicos de negócio.

Se esses objetivos não estão claros, a resposta que os dados do modelo retornarão não será clara. É como ter uma resposta para a qual não temos a pergunta: pode até ser legal, mas é pouco útil. Já se os dados disponíveis não respondem a esses objetivos, a matemática e a estatística não encontrarão respostas, e o modelo não vai trazer resultados satisfatórios.

É como ensinar alguém a escrever, mas só temos o alfabeto, não sabemos a língua falada ou a série de regras gramaticais que determinam o que vem primeiro, o pronome ou o verbo. Por sua vez, não ter uma base de dados é como se nunca tivéssemos falado uma palavra. E ter uma base de dados ruim é ter cada pessoa escrevendo a mesma palavra de uma forma diferente, não sendo possível chegarmos ao mesmo entendimento ou compará-las entre si. Muitas vezes, a linguagem está ali, mas nós precisamos compreender o que ela significa, e encontrar as regras que foram criadas, pois poucos a conhecem e não há um livro gramatical para nos guiar.

Quando isso acontece (e isso acontece com muita frequência), é o papel da equipe de cientistas de dados auxiliar a analisar e traduzir essas regras, transformando os dados em informação, e permitindo que a equipe de negócios crie o livro-guia (conhecimento) que possui o mesmo significado e o mesmo entendimento a todos envolvidos. Neste caso, é entender que ter uma grande quantidade de dados, não é sinônimo de valor: o valor está no processo de transformação e não no dado em si.

E que, acima de tudo, tenha valor e respostas a questões de negócios.

Da mesma forma, é o papel da equipe de negócios criar o ambiente propício que permita a análise, a exploração e o questionamento, se engajando para gerar descobertas e testes no dia a dia, não esporadicamente. Afinal, a tomada de decisão está na mão dessa equipe, e não da de cientistas de dados. Desenvolvendo, assim, pensamento analítico crítico e cultura analítica (a caminho da maturidade, lembra?).

Muitas vezes, o modelo analítico que foi idealizado no início, não é o melhor para os dados que temos disponíveis, ou para o conhecimento que a equipe de negócios tem dos próprios dados. Isso significa mudar a abordagem para um modelo que seja adequado ao nosso contexto e continuar analisando os dados até aprender as regras para construir as respostas que buscamos. E, às vezes, não vamos encontrar as respostas que procuramos nos dados que temos. Isso significa que temos que melhorar e incrementar a base, através de maior tempo de captação, maior comprometimento ao preenchimento, ou até outras fontes.

Análises preditivas são processos evolutivos: não são simples, nem sempre são lineares, e às vezes podem ser de um processo longo, de idas e vindas, que nos fazem acreditar que não é possível ou que o problema é de quem está calculando os dados. Mas, isso é ciência: desenvolver hipóteses, testá-las, aprender com seus resultados, melhorar e tentar de novo. E por mais que a ciência seja baseada na matemática, ela é guiada pelos objetivos e motivações das pessoas. Saber nosso papel nesse processo é a chave para a boa ciência. E exercê-lo de forma dedicada é o que garante maturidade analítica. E a chave para o caminho a modelos preditivos com resultados excelentes.

porLetícia Ange Pozza,Data Scientist Leader na Cappra Data Science