Hvordan datamaskiner hjelper biologer sprekk livets hemmeligheter

Når de tre milliarder brevlange menneskelige genomene ble sekventerte, sprang vi inn i en ny "omics"Epoke med biologisk forskning. Forskere racer nå for å sekvensere genomene (alle gener) eller proteomer (alle proteiner) av ulike organismer - og i prosessen samler enorme mengder data.

For eksempel kan en forsker bruke "omics" -verktøy som DNA-sekvensering for å tette ut hvilke menneskelige gener som er berørt av en virusinfeksjon. Men fordi det menneskelige genomet har totalt 25,000-gener totalt, kan antall genene endret selv under et så enkelt scenario potensielt være i tusenvis.

Selv om sekvensering og identifisering av gener og proteiner gir dem et navn og et sted, forteller de ikke hva de gjør. Vi trenger å forstå hvordan disse gener, proteiner og alle ting i mellom samhandle i forskjellige biologiske prosesser.

I dag gir selv grunnleggende eksperimenter store data, og en av de største utfordringene er å løsne de relevante resultatene fra bakgrunnsstøy. Datamaskiner hjelper oss med å overvinne dette datagjerget; men de kan til og med gå et skritt videre enn det, og hjelpe oss med å komme opp med vitenskapelige hypoteser og forklare nye biologiske prosesser. Datavitenskap, i hovedsak, muliggjør banebrytende biologisk forskning.

Datamaskiner til redning

Datamaskiner er unikt kvalifisert til å håndtere massive datasett, siden de samtidig kan holde rede på alle viktige forhold som er nødvendige for analysen.


innerself abonnere grafikk


Selv om de kan gjenspeile menneskelige feil de er programmert med, datamaskiner kan håndtere store mengder data effektivt og de er ikke partisk mot det kjente, som menneskelige etterforskere kan være.

Datamaskiner kan også bli lært å se etter spesifikke mønstre i eksperimentelle datasett - et begrep som kalles maskinlæring, først foreslått i 1950s, særlig av matematiker Alan Turing. En algoritme som har lært mønstrene fra datasettene, kan da bli bedt om å foreta spådommer basert på nye data som den aldri har møtt før.

Maskininnlæring har revolusjonert biologisk forskning siden vi nå kan utnytte store datasett og spørre datamaskiner for å forstå den underliggende biologien.

Trene datamaskiner til å tenke ved å simulere hjerneprosesser

Vi har brukt en interessant type maskinlæring, kalt et kunstig nevralt nettverk (ANN), i vårt eget laboratorium. Hjerner er svært sammenkoblede nettverk av nevroner, som kommuniserer ved å sende elektriske pulser gjennom nevrale ledninger. På samme måte simulerer en ANN i datamaskinen et nettverk av nevroner som de slår av og på som svar på andre neurons signaler.

Ved å bruke algoritmer som etterligner prosesser med ekte nevroner, kan vi få nettverket til å lære å løse mange typer problemer. Google bruker en kraftig ANN for sin nå berømte Deep Dream prosjekt hvor datamaskiner kan klassifisere og til og med lage bilder.

Vår gruppe studerer immunforsvaret, med målet om finne ut nye kreftformer. Vi har brukt ANN beregningsmodeller for å studere korte overflateproteinkoder som våre immunceller bruker for å avgjøre om noe er fremmed for kroppen vår og dermed bør angripes. Hvis vi forstår mer om hvordan våre immunceller (som T-celler) skiller mellom normale / selv- og unormale / fremmede celler, kan vi designe bedre vaksiner og terapier.

Vi fjernet offentlig tilgjengelige kataloger av tusenvis av proteinkoder identifisert av forskere gjennom årene. Vi delte dette store datasettet i to: Normale selvproteinkoder avledet fra sunne humane celler, og unormale proteinkoder avledet fra virus, svulster og bakterier. Deretter vendte vi seg til et kunstig nevralt nettverk utviklet i laboratoriet vårt.

Når vi matet proteinkodene til ANN, var algoritmen i stand til å identifisere grunnleggende forskjeller mellom normale og unormale proteinkoder. Det ville være tøft for folk å holde rede på slike biologiske fenomener - det er bokstavelig talt tusenvis av disse proteinkodene å analysere i det store datasettet. Det krever en maskin for å ødelegge disse komplekse problemene og definere ny biologi.

Forutsigelser via maskinlæring

Den viktigste bruken av maskinlæring i biologi er dens nytte ved å lage spådommer basert på store data. Datamaskinbaserte spådommer kan gi mening om store data, test hypoteser og spare dyrebar tid og ressurser.

For eksempel, i vårt felt av T-cellebiologi, å vite hvilke virusproteinkoder som skal målrettes, er avgjørende for å utvikle vaksiner og behandlinger. Men det er så mange individuelle proteinkoder fra et gitt virus at det er veldig dyrt og vanskelig å eksperimentelt teste hver enkelt.

I stedet trente vi det kunstige nevrale nettverket for å hjelpe maskinen lære alle de viktige biokjemiske egenskapene til de to typer proteinkoder - normalt versus unormalt. Da spurte vi modellen om å "forutsi" hvilke nye virale proteinkoder som ligner kategorien "unormal" og kan sees av T-celler og dermed immunforsvaret. Vi testet ANN-modellen på forskjellige virusproteiner som aldri har blitt studert før.

Sikkert nok, som en flittig student som var ivrig etter å tilfredsstille læreren, kunne det nevrale nettverket nøyaktig identifisere flertallet av slike T-celleaktiverende proteinkoder innenfor dette viruset. Vi har også eksperimentelt testet proteinkoder det flagget for å validere nøyaktigheten av ANNs prediksjoner. Ved hjelp av denne nevrale nettverksmodellen kan en forsker dermed raskt forutsi alle viktige korte proteinkoder fra et skadelig virus og test dem om å utvikle en behandling eller en vaksine, i stedet for å gjette og teste dem individuelt.

Implementere Maskinlæring Klokt

Takket være konstant raffinering blir stor datavitenskap og maskinlæring i økende grad blitt uunnværlig for enhver form for vitenskapelig forskning. Mulighetene for å bruke datamaskiner til å trene og forutsi i biologi er nesten uendelige. Fra å finne ut hvilken kombinasjon av biomarkører som er best for å oppdage en sykdom for å forstå hvorfor bare Noen pasienter har nytte av en bestemt kreftbehandling, gruvedrift store datasett ved hjelp av datamaskiner har blitt en verdifull rute for forskning.

Selvfølgelig er det begrensninger. Det største problemet med stor datavitenskap er dataene selv. Hvis data oppnådd ved -omics-studier er defekte til å begynne med, eller basert på skummel vitenskap, vil maskinene bli trent på dårlige data - noe som fører til dårlige spådommer. Studenten er bare like god som læreren.

Fordi datamaskiner ikke er sentiente (ennå), kan de i deres søken etter mønstre komme opp med dem selv når ingen eksisterer, som igjen oppstår, til dårlige data og ikke-reproducerbare vitenskap.

Og noen forskere har reist bekymringer om at datamaskiner blir svarte bokser med data for forskere som ikke klart forstår manipulasjoner og machinations de utfører på deres vegne.

Til tross for disse problemene vil fordelene ved store data og maskiner fortsette å gjøre dem verdifulle partnere i vitenskapelig forskning. Med hensyn til forsiktighet, er vi entydig klar til å forstå biologi gjennom øynene til en maskin.

Om forfatterenDen Conversation

Sri Krishna, PhD kandidat, Biologisk Design, Biologisk og Helsesystemteknisk Institutt, Arizona State University og Diego Chowell, PhD Student i Applied Mathematics, Arizona State University

Denne artikkelen ble opprinnelig publisert på Den Conversation. Les opprinnelige artikkelen.


Relatert bok:

at InnerSelf Market og Amazon