Vés enrere Un estudi demostra que la intel·ligència artificial pot desxifrar la funció de proteïnes desconegudes

Un estudi demostra que la intel·ligència artificial pot desxifrar la funció de proteïnes desconegudes

És el primer estudi que demostra que aquestes eines permeten classificar les funcions prèviament desconegudes amb un gran nivell de detall.  

Aquest treball de col·laboració entre dos centres del CSIC (CABD i IBE) permet identificar gens i explorar les proteïnes que puguin ser d'interès biomèdic i biotecnològic, entre altres vies de recerca.

03.09.2024

Imatge inicial - Representació esquemàtica de dues proteïnes, una en color rosa i una altra en color blau. Font: Ana Rojas.

Un estudi del Centre Andalús de Biologia del Desenvolupament (CABD-CSIC-UPO) juntament amb l'Institut de Biologia Evolutiva  (IBE: CSIC-UPF) a Barcelona ha emprat tècniques avançades d'intel·ligència artificial per a l'anàlisi de proteïnes. Gràcies a l'ús d'aquesta metodologia, l'equip investigador ha aconseguit demostrar que es pot identificar i descriure què fan les proteïnes en detall, fins i tot sense informació prèvia. Aquest treball permet l'aplicació massiva d'aquests mètodes per entendre les proteïnes en organismes menys estudiats, identificar noves funcions de gens i explorar quines proteïnes poden ser d'interès biomèdic i biotecnològic amb molta més precisió que els mètodes tradicionals.  

A la natura, la informació continguda en l'ADN es transforma en proteïnes, que són les que actuen en les cèl·lules. En aquest projecte, liderat pels investigadors del CABD, Ildefonso Cases i Ana M. Rojas, juntament amb Rosa Fernández, de l'IBE, s'han emprat dos mètodes basats en l'aprenentatge profund (deep learning) per analitzar proteïnes en diversos organismes model, com el llevat, el ratolí o la mosca de la fruita. L'exploració va mostrar que els models de llenguatge (Transformers) són més efectius que les xarxes convolucionals, proporcionant informació més precisa i informativa sobre les proteïnes de les espècies estudiades. A més, els models de llenguatge poden recuperar informació funcional a partir de dades d'ARN (l'ARN és una molècula que porta les instruccions de l'ADN per fabricar proteïnes a les cèl·lules).  

“Estem en un moment crític a causa de l'enorme quantitat de projectes de seqüenciació d'organismes desconeguts que produeixen milions de seqüències, de les quals no podem predir la funció usant mètodes tradicionals”, explica Ana Rojas (CABD). Aquest treball obre noves vies de recerca relacionades amb una major precisió en els models d'anàlisi i classificació de funcions de les proteïnes.

Artistic representation of a DNA chain

Noves vies d’investigació

Aquest nou estudi, publicat a la revista ‘Nuc Acids Red Genomics and Bioinformatics’, estableix les bases de l'ús de la intel·ligència artificial en altres aplicacions. “Aquestes eines d'aprenentatge profund permetran abordar nous problemes en biologia computacional. Estem treballant en l'aplicació d'aquestes tècniques per a altres objectius, com promotors a la carta, anotació de grups de cèl·lules en single-cell, o enginyeria de proteïnes”.

Per la seva banda, la investigadora de l'IBE, Rosa Fernández, destaca que aquesta recerca és fonamental en el camp de la biodiversitat, on cada dia es publiquen noves seqüències de proteïnes la funció de les quals és desconeguda, permetent abordar el problema de l'anotació del proteoma fosc (Dark Proteome). “Per això estem utilitzant aquestes eines en milers de transcriptomes del regne animal, treball que es troba en revisió. Com més informació tinguem sobre les funcions de noves seqüències, més ràpid desxifrarem els mecanismes moleculars de processos biològics que es donen en l'àmbit de la biodiversitat i regeneració amb potencials aplicacions biotecnològiques (indústria alimentària) i biomèdiques (indústria farmacèutica)”, conclou la investigadora.

Article referenciat: 

Israel Barrios-Núñez, Gemma I Martínez-Redondo, Patricia Medina-Burgos, Ildefonso Cases, Rosa Fernández, Ana M Rojas, Decoding functional proteome information in model organisms using protein language models, NAR Genomics and Bioinformatics, Volume 6, Issue 3, September 2024, lqae078,

https://doi.org/10.1093/nargab/lqae078