Cada organismo começa como uma única célula. Por meio de rodadas repetidas de divisão celular, sua evolução dá origem a organismos complexos que podem ser compostos por bilhões de diferentes tipos de células. Como se define o destino dos descendentes de uma célula de um embrião humano para que alguns se tornem músculo cardíaco e outros se tornem tecido nervoso?
O rastreamento da linhagem celular fornece a estrutura para a compreensão de quando, onde e como o destino das células é decidido. E, uma vez que com cada divisão celular algo pode dar errado, a capacidade de mapear a via de diferenciação celular pode lançar luz sobre como surgem os problemas de desenvolvimento e as doenças.
Em um artigo científico publicado recentemente na Cell Systems¹, os pesquisadores detalham um possível caminho a seguir para resolver árvores de linhagens celulares maiores, incluindo humanos.
Uma árvore celular da vida
Assim como Charles Darwin mapeou as árvores evolucionárias dos organismos, agora os geneticistas estão trabalhando para reconstruir as árvores da linhagem celular, ou seja, a história do desenvolvimento das células à medida que se dividem e se diferenciam. Embora seja verdade que estejamos longe de compreender totalmente as linhagens de organismos complexos, a inteligência artificial (IA) pode ajudar a acelerar nossa descoberta e compreensão.
A primeira árvore de linhagem celular, para o pequeno nematoide Caenorhabditis elegans (C. elegans), foi meticulosamente concluída décadas atrás com a ajuda de um microscópio óptico.
A reconstrução da linhagem celular deu um salto nas últimas décadas com o advento das ferramentas moleculares baseadas em CRISPR. O CRISPR visa a inserção de uma matriz de DNA na célula, que gera um conjunto de mutações em um local específico no material genético de uma célula. Isso, por sua vez, serve como um marcador para permitir aos pesquisadores inferir iterações de linhagem adicionais para aquela célula.
Seguiram-se diferentes versões de métodos baseados em CRISPR, mas esses métodos têm limitações. Há muito “ruído” nos dados, pois as mutações CRISPR ocorrem com alguma aleatoriedade, e o sequenciamento nem sempre detecta todas. Também existem restrições à “memória” total do DNA disponível para registro, pois uma série real de caracteres que o CRISPR tem como alvo é inserida no genoma da célula. Além disso, os mesmos padrões de edição às vezes aparecem espontaneamente em células não relacionadas, ou a sequência editada por CRISPR é removida durante a divisão celular. Além disso, não há como verificar se essas inferências são precisas ou não.
Um desafio de crowdsourcing
Pablo Meyer Rojas, gerente de análise e modelagem biomédica do Centro de Saúde Computacional da IBM, junto com seus colegas Michael Elowitz, professor de biologia e bioengenharia da Caltech, e Jay Shendure, professor de ciências de genoma na Universidade de Washington, tiveram a ideia de aplicar técnicas de aprendizado de máquina para sua pesquisa. A IA poderia encontrar novos algoritmos para reconstruir linhagens celulares e criar benchmarks para sua precisão?
Com o objetivo de encontrar algoritmos para testar, organizaram o DREAM Challenge de Reconstrução de Linhagem do Instituto Allen, que decorreu de outubro de 2019 a fevereiro de 2020. O DREAM Challenge (acrônimo em inglês de Diálogo para Engenharia Reversa e Métodos) foi uma forma de estudar os esforços em engenharia reversa para redes biológicas de conjuntos de dados de alto rendimento ou soluções que usam grandes quantidades de dados.
Eles criaram três conjuntos de treinamento para uso das equipes participantes. Incluíram árvores de linhagens celulares, tanto in vitro quanto in silico, compostas por 100 células, 1.000 células (C. elegans) e 10.000 células (uma simulação em camundongo), junto com os arranjos de caracteres de suas células modificadas por um mecanismo semelhante ao CRISPR. Além disso, eles forneceram a solução de referência gold-standard de árvore, para que as equipes treinem ou otimizem seus métodos.
Benchmarking de abordagens de IA
Foram apresentadas 10 equipes com um total de 22 propostas para os três desafios, e entre elas encontraram alguns vencedores. Dois métodos originais, chamados DCLEAR (reconstrução de linhagem celular baseada na distância) e AMberLand, foram os que mais se destacaram. O primeiro usa uma estimativa da distância entre as células com base em diferentes comprimentos de caracteres; a segunda aplica, de forma inovadora, um método clássico de machine learning denominado Gradient Boosting, técnica de aprendizado de máquina que produz um modelo de predição na forma de uma árvore com base na combinação de pequenas árvores.
Os pesquisadores também aprenderam que a escolha da taxa de mutação e diversidade de mutações nas simulações têm um forte efeito na precisão da reconstrução da linhagem celular. Há um ponto ideal entre as taxas de mutação “muito baixas” e “muito altas”.
Os resultados mostram que pode ser possível treinar algoritmos em árvores menores e então usá-los para construir outros que podem ser utilizados em prol de reconstruir árvores muito maiores, incluindo humanos. Ter um conjunto de árvores de treinamento com a solução real foi essencial, tanto no desenvolvimento de novas abordagens quanto para se chegar a essa conclusão.
Sim, é possível revelar o mistério de como o corpo humano se origina de uma única célula, e esse conhecimento pode nos levar a novos tratamentos e até mesmo curas para doenças congênitas e problemas de desenvolvimento, da Síndrome de Down ao câncer. É um desafio perfeito para a IA devido à complexidade do problema, e sua recompensa é potencialmente enorme. Isso também mostra que ainda existem muitos campos em que a IA pode ser aplicada para ter um impacto real na melhoria das previsões. Tudo o que é necessário são novas ideias e novos conjuntos de dados.
*Para visualizar o artigo original, você pode visitar o IBM Research Blog aqui.
¹ Gong, W., Granados, A., Hu, J., et al. Benchmarked approaches for reconstruction of in vitro cell lineages and in silico models of C. elegans and M. musculus developmental trees. Cell Systems. Volumen 12, ISSUE 8, P810-826.e4, 18 de agosto de 2021.