Os cientistas de dados que trabalham com a aprendizagem automática nos trouxeram a atual era do Big Data. Os modelos tradicionais de machine learning (ML) agora são muito bem-sucedidos na predição de resultados baseados em dados. Mas os modelos de ML geralmente não estão projetados para responder o quê se poderia fazer para mudar essa probabilidade. Este é o conceito de inferência causal. E até pouco tempo atrás, havia poucas ferramentas disponíveis para ajudar os cientistas de dados a treinar e aplicar modelos de inferência causal, escolher entre os modelos e determinar quais parâmetros usar.
Isso mudou com a IBM Research. Lançado em 2019, o IBM Causal Inference 360 Toolkit de código aberto é o primeiro desse formato a oferecer um conjunto completo de metodologias, tudo sob uma API unificada, que auxilia os cientistas de dados a aplicarem e compreenderem a inferência causal em seus modelos.
Agora, a IBM mostrou um novo e personalizado website para o IBM Causal Inference 360 Toolkit, com tutoriais, informação de suporte e demonstrações que mostram sua capacidade em múltiplos domínios, como o da saúde, da agricultura e o marketing nos setores financeiro e bancário. Uma nova versão da biblioteca Python de código aberto também foi lançada com funcionalidades adicionais.
O que é a inferência causal?
Tomar decisões implica em fazer perguntas e tentar obter a melhor resposta possível. Na pergunta: “O que acontece se como ovos no café da manhã todos os dias?”, dependendo do que se está medindo e dos fatores adicionais envolvidos, a resposta pode variar bastante. E se as pessoas que tendem a comer ovos no café da manhã todos os dias são também as que fazem exercícios de manhã? Talvez a diferença entre os resultados seja influenciada pelos exercícios e não pelo fato de comer ovos.
Isso é chamado de variável de confusão, que afeta a decisão e o resultado. E é isso que a inferência causal tenta resolver. Qual é a resposta da pergunta depois de controlar (o máximo possível a partir dos dados) a variável de confusão?
A seguir, tenta-se explicar como o resultado é influenciado por diferentes parâmetros – por exemplo, quantos ovos são consumidos; o que se come com os ovos; se a pessoa está acima do peso, etc. Também podemos tentar contabilizar o que estamos procurando, se estamos interessados em saber se a pessoa ganharia peso, dormiria melhor, comeria menos durante o dia ou diminuiria o colesterol, por exemplo.
Resumindo, pode ser fácil começar com uma pergunta que pode ser respondida usando dados. Mas para obter uma resposta confiável, você precisaria ajustar os parâmetros envolvidos e o tipo de modelo que está sendo usado.
A inferência causal consiste em um conjunto de métodos que tentam estimar o efeito de uma intervenção em um resultado a partir de dados observacionais. Com o IBM Causal Inference 360 Toolkit, as pessoas podem usar várias ferramentas para mover seus processos de tomada de decisão de um cenário de “melhor estimativa” para respostas concretas baseadas em dados.
A biblioteca IBM Causality 360 é uma biblioteca Python de código aberto que usa modelos de machine learning internamente e, ao contrário da maioria dos pacotes, permite que os usuários conectem quase qualquer modelo de ML que desejarem. Também possui metodologias para selecionar os melhores modelos e seus parâmetros com base em paradigmas de ML, como validação cruzada, e para usar novas e bem estabelecidas métricas causais específicas.
Exemplos no mundo real
No laboratório de IBM Research em Haifa, Israel, usaram o Causal Inference 360 Toolkit como parte de sua pesquisa sobre reutilização de fármacos. A reutilização ou reposicionamento de medicamentos é um método para encontrar novos usos terapêuticos para medicamentos aceitos. Aqui, a pergunta que a equipe fez foi: “O que aconteceria se o paciente X tomasse o medicamento Y?”. O resultado foi a descoberta de dois novos tratamentos potenciais para a demência que freqüentemente acompanha a doença de Parkinson. Você pode encontrar mais detalhes sobre como a modelagem causal funcionava nesta pesquisa aqui .
Em outro exemplo, a equipe procurou entender se as novas práticas de irrigação contribuem para a redução desejada na poluição e no vazamento de nutrientes. Para fazer isso, eles usaram um conjunto de dados que capturou vários aspectos do uso da terra pela agricultura, incluindo seu método de irrigação e medição de escoamento. Eles observaram que os dados mostraram pouca efetividade. Eles então usaram o IBM Causal Inference 360 Toolkit para corrigir o fato de que os métodos de irrigação são altamente dependentes do tipo de uso da terra e da cultura. O resultado mudou: eles mostraram que a introdução dessas novas técnicas de irrigação reduz o escoamento. Isso poderia economizar fertilizantes e água, além de reduzir a poluição da hidrografia. Essa redução pode ser posteriormente quantificada para estimar o trade-off entre a poupança e o investimento inicial.
Com o novo recurso e o website do IBM Causal Inference 360 Toolkit, a IBM espera ajudar as pessoas no campo da inferência causal a aplicar facilmente metodologias de machine learning e minimizar as perguntas puramente preditivas dos profissionais de ML, adicionando o elemento ‘e se’ usando inferência causal.
*Para ver o texto original você pode entrar aqui .