Un nuovo strumento di intelligenza artificiale per i bioingegneri può essere sia predittivo che spiegabile: ScienceDaily

I ricercatori del National Institute of Standards and Technology (NIST) hanno sviluppato un nuovo strumento statistico che hanno utilizzato per prevedere la funzione delle proteine. Non solo potrebbe aiutare con il difficile lavoro di alterare le proteine ​​in modi praticamente utili, ma funziona anche con metodi completamente interpretabili, un vantaggio rispetto all’intelligenza artificiale (AI) convenzionale che ha aiutato l’ingegneria proteica in passato.

Il nuovo strumento, chiamato LANTERN, potrebbe rivelarsi utile in lavori che vanno dalla produzione di biocarburanti al miglioramento delle colture allo sviluppo di nuovi trattamenti per le malattie. Le proteine, in quanto elementi costitutivi della biologia, sono un elemento chiave in tutti questi compiti. Ma mentre è relativamente facile apportare modifiche al filamento di DNA che funge da modello per una data proteina, resta difficile determinare quali coppie di basi specifiche – che corrono sulla scala del DNA – sono le chiavi per produrre l’effetto desiderato . Trovare queste chiavi è stato di competenza dell’IA costruita con reti neurali profonde (DNN), che, sebbene efficaci, sono notoriamente opache alla comprensione umana.

Descritto in un nuovo articolo pubblicato nel Atti dell’Accademia Nazionale delle Scienze, LANTERN mostra la capacità di prevedere le modifiche genetiche necessarie per creare utili differenze in tre diverse proteine. Uno è la proteina a forma di punta dalla superficie del virus SARS-CoV-2 che causa COVID-19; capire come i cambiamenti nel DNA possono alterare questa proteina spike potrebbe aiutare gli epidemiologi a prevedere il futuro della pandemia. Gli altri due sono ben noti cavalli da lavoro di laboratorio: la proteina LacI del batterio E. coli e la proteina fluorescente verde (GFP) utilizzata come marker negli esperimenti di biologia. La selezione di questi tre argomenti ha consentito al team del NIST di dimostrare non solo che il proprio strumento funziona, ma anche che i suoi risultati sono interpretabili, una caratteristica importante per l’industria, che necessita di metodi predittivi che aiutino a comprendere il sistema sottostante.

“Abbiamo un approccio che è completamente interpretabile e che non ha alcuna perdita di potere predittivo”, ha affermato Peter Tonner, statistico e biologo computazionale presso NIST e principale sviluppatore di LANTERN. “C’è un presupposto diffuso che se vuoi una di quelle cose non puoi avere l’altra. Abbiamo dimostrato che a volte puoi averle entrambe”.

Il problema che il team del NIST sta affrontando potrebbe essere immaginato come un’interazione con una macchina complessa che sfoggia un vasto pannello di controllo pieno di migliaia di interruttori senza etichetta: il dispositivo è un gene, un filamento di DNA che codifica una proteina; gli interruttori sono coppie di basi sul filo. Tutti gli interruttori influiscono in qualche modo sull’output del dispositivo. Se il tuo compito è far funzionare la macchina in modo diverso in un modo specifico, quali interruttori dovresti attivare?

Poiché la risposta potrebbe richiedere modifiche a più coppie di basi, gli scienziati devono capovolgere alcune combinazioni, misurare il risultato, quindi scegliere una nuova combinazione e misurare di nuovo. Il numero di permutazioni è scoraggiante.

“Il numero di potenziali combinazioni può essere maggiore del numero di atomi nell’universo”, ha detto Tonner. “Non potresti mai misurare tutte le possibilità. È un numero ridicolmente grande.”

A causa dell’enorme quantità di dati coinvolti, ai DNN è stato assegnato il compito di ordinare un campionamento di dati e prevedere quali coppie di basi devono essere capovolte. In questo, si sono rivelati efficaci, a patto che tu non chieda una spiegazione su come ottengono le loro risposte. Sono spesso descritte come “scatole nere” perché il loro funzionamento interno è imperscrutabile.

“È davvero difficile capire come i DNN fanno le loro previsioni”, ha detto il fisico del NIST David Ross, uno dei coautori del documento. “E questo è un grosso problema se vuoi usare quelle previsioni per progettare qualcosa di nuovo”.

LANTERN, d’altra parte, è esplicitamente progettata per essere comprensibile. Parte della sua spiegabilità deriva dall’uso di parametri interpretabili per rappresentare i dati che analizza. Invece di consentire al numero di questi parametri di crescere in modo straordinariamente grande e spesso imperscrutabile, come nel caso dei DNN, ogni parametro nei calcoli di LANTERN ha uno scopo che vuole essere intuitivo, aiutando gli utenti a capire cosa significano questi parametri e come influenzano predizioni.

Il modello LANTERN rappresenta le mutazioni proteiche utilizzando vettori, strumenti matematici ampiamente utilizzati spesso rappresentati visivamente come frecce. Ogni freccia ha due proprietà: la sua direzione implica l’effetto della mutazione, mentre la sua lunghezza rappresenta la forza di tale effetto. Quando due proteine ​​hanno vettori che puntano nella stessa direzione, LANTERN indica che le proteine ​​hanno una funzione simile.

Le direzioni di questi vettori spesso mappano su meccanismi biologici. Ad esempio, LANTERN ha appreso una direzione associata al ripiegamento delle proteine ​​in tutti e tre i set di dati studiati dal team. (Il piegamento gioca un ruolo fondamentale nel modo in cui una proteina funziona, quindi identificare questo fattore tra i set di dati era un’indicazione che il modello funziona come previsto.) Quando si effettuano previsioni, LANTERN aggiunge semplicemente questi vettori insieme, un metodo che gli utenti possono tracciare durante l’esame della sua predizioni.

Altri laboratori avevano già utilizzato i DNN per fare previsioni su quali cambiamenti avrebbero apportato utili modifiche alle tre proteine ​​in oggetto, quindi il team del NIST ha deciso di contrapporre LANTERN ai risultati dei DNN. Il nuovo approccio non era semplicemente abbastanza buono; secondo il team, raggiunge un nuovo stato dell’arte nell’accuratezza predittiva per questo tipo di problema.

“LANTERN ha eguagliato o superato quasi tutti gli approcci alternativi per quanto riguarda l’accuratezza delle previsioni”, ha affermato Tonner. “Supera tutti gli altri approcci nella previsione delle modifiche a LacI e ha un’accuratezza predittiva comparabile per GFP per tutti tranne uno. Per SARS-CoV-2, ha un’accuratezza predittiva maggiore rispetto a tutte le alternative diverse da un tipo di DNN, che corrispondeva a LANTERN’s precisione ma non l’ha battuto”.

LANTERN scopre quali set di interruttori hanno l’effetto maggiore su un determinato attributo della proteina, ad esempio la sua stabilità di piegatura, e riassume come l’utente può modificare tale attributo per ottenere l’effetto desiderato. In un certo senso, LANTERN trasforma i numerosi interruttori sul pannello della nostra macchina in pochi semplici quadranti.

“Riduce migliaia di interruttori a forse cinque piccoli quadranti che puoi ruotare”, ha detto Ross. “Ti dice che il primo quadrante avrà un grande effetto, il secondo avrà un effetto diverso ma più piccolo, il terzo ancora più piccolo e così via. Quindi, come ingegnere, mi dice che posso concentrarmi sul primo e sul secondo quadrante per ottenere il risultato di cui ho bisogno. LANTERN ha preparato tutto questo per me ed è incredibilmente utile. “

Rajmonda Caceres, una scienziata del Lincoln Laboratory del MIT che ha familiarità con il metodo alla base di LANTERN, ha affermato di apprezzare l’interpretabilità dello strumento.

“Non ci sono molti metodi di intelligenza artificiale applicati alle applicazioni di biologia in cui progettano esplicitamente l’interpretabilità”, ha affermato Caceres, che non è affiliato allo studio NIST. “Quando i biologi vedono i risultati, possono vedere quale mutazione sta contribuendo al cambiamento nella proteina. Questo livello di interpretazione consente una ricerca più interdisciplinare, perché i biologi possono capire come l’algoritmo sta imparando e possono generare ulteriori approfondimenti sul sistema biologico in corso di studio”.

Tonner ha affermato che, sebbene sia soddisfatto dei risultati, LANTERN non è una panacea per il problema di spiegabilità dell’IA. Esplorare le alternative ai DNN in modo più ampio gioverebbe all’intero sforzo per creare un’IA spiegabile e affidabile, ha affermato.

“Nel contesto della previsione degli effetti genetici sulla funzione delle proteine, LANTERN è il primo esempio di qualcosa che rivaleggia con i DNN in termini di potere predittivo pur essendo completamente interpretabile”, ha affermato Tonner. “Fornisce una soluzione specifica a un problema specifico. Ci auguriamo che possa applicarsi ad altri e che questo lavoro ispiri lo sviluppo di nuovi approcci interpretabili. Non vogliamo che l’IA predittiva rimanga una scatola nera”.

.

Leave a Comment