turing test og ai 10 17

Pexels/Google Deepmind, CC BY-SA

I 1950 foreslo den britiske informatikeren Alan Turing en eksperimentell metode for å svare på spørsmålet: kan maskiner tenke? Han foreslo at hvis et menneske ikke kunne fortelle om de snakket til en kunstig intelligent (AI) maskin eller et annet menneske etter fem minutters avhør, ville dette demonstrere at AI har menneskelignende intelligens.

Selv om AI-systemer forble langt fra å bestå Turings test i løpet av hans levetid, spekulerte han i det

«[...] om omtrent femti år vil det være mulig å programmere datamaskiner […] for å få dem til å spille imitasjonsspillet så godt at en gjennomsnittlig avhører ikke vil ha mer enn 70 % sjanse for å gjøre riktig identifikasjon etter fem minutter. spørrende.

I dag, mer enn 70 år etter Turings forslag, har ingen AI klart å bestå testen ved å oppfylle de spesifikke betingelsene han skisserte. Likevel, som noen overskrifter reflektere, noen få systemer har kommet ganske nært.

Et nylig eksperiment testet tre store språkmodeller, inkludert GPT-4 (AI-teknologien bak ChatGPT). Deltakerne brukte to minutter på å chatte med enten en annen person eller et AI-system. AI ble bedt om å gjøre små stavefeil – og avslutte hvis testeren ble for aggressiv.


innerself abonnere grafikk


Med denne oppfordringen gjorde AI en god jobb med å lure testerne. Når de ble paret med en AI-bot, kunne testerne bare gjette riktig om de snakket med et AI-system 60 % av tiden.

Gitt den raske fremgangen som er oppnådd i utformingen av naturlige språkbehandlingssystemer, kan vi se AI bestå Turings originale test i løpet av de neste årene.

Men er etterligning av mennesker virkelig en effektiv test for intelligens? Og hvis ikke, hva er noen alternative benchmarks vi kan bruke for å måle AIs evner?

Turing-testens begrensninger

Mens et system som består Turing-testen gir oss noen bevis på at den er intelligent, denne testen er ikke en avgjørende test av intelligens. Et problem er at det kan produsere "falske negativer".

Dagens store språkmodeller er ofte designet for umiddelbart å erklære at de ikke er mennesker. For eksempel, når du stiller ChatGPT et spørsmål, innleder det ofte svaret med uttrykket "som en AI-språkmodell". Selv om AI-systemer har den underliggende evnen til å bestå Turing-testen, vil denne typen programmering overstyre den evnen.

Testen risikerer også visse typer "falske positive". Som filosof Ned Block påpekt i en artikkel fra 1981 kunne et system tenkes å bestå Turing-testen ganske enkelt ved å være hardkodet med en menneskelignende respons på alle mulige input.

Utover det fokuserer Turing-testen på menneskelig kognisjon spesielt. Hvis AI-kognisjon er forskjellig fra menneskelig erkjennelse, vil en ekspertavhører kunne finne en oppgave der AI-er og mennesker er forskjellige i ytelse.

Angående dette problemet skrev Turing:

Denne innvendingen er veldig sterk, men vi kan i det minste si at hvis en maskin likevel kan konstrueres for å spille imitasjonsspillet på en tilfredsstillende måte, trenger vi ikke å bli plaget av denne innvendingen.

Med andre ord, mens det å bestå Turing-testen er et godt bevis på at et system er intelligent, er det ikke et godt bevis at et system er ikke flink.

Dessuten er ikke testen et godt mål på om AI-er er bevisste, om de kan føle smerte og glede, eller om de har moralsk betydning. I følge mange kognitive forskere involverer bevissthet en bestemt klynge av mentale evner, inkludert å ha et arbeidsminne, tanker av høyere orden og evnen til å oppfatte ens omgivelser og modellere hvordan kroppens bevegelser rundt det.

Turing-testen svarer ikke på spørsmålet om AI-systemer eller ikke har disse evnene.

AIs voksende evner

Turing-testen er basert på en viss logikk. Det vil si: mennesker er intelligente, så alt som effektivt kan imitere mennesker er sannsynligvis intelligent.

Men denne ideen forteller oss ingenting om intelligensens natur. En annen måte å måle AIs intelligens på innebærer å tenke mer kritisk på hva intelligens er.

Det er foreløpig ingen enkelt test som autoritativt kan måle kunstig eller menneskelig intelligens.

På det bredeste nivået kan vi tenke på intelligens som evne å oppnå en rekke mål i ulike miljøer. Mer intelligente systemer er de som kan oppnå et bredere spekter av mål i et bredere spekter av miljøer.

Som sådan er den beste måten å holde styr på fremskritt i utformingen av generelle AI-systemer å vurdere ytelsen deres på tvers av en rekke oppgaver. Maskinlæringsforskere har utviklet en rekke benchmarks som gjør dette.

For eksempel var GPT-4 i stand til å svare riktig 86 % av spørsmålene i massiv språkforståelse for flere oppgaver – en målestokk som måler ytelse på flervalgstester på tvers av en rekke akademiske fag på høyskolenivå.

Den scoret også positivt inn Agentbenk, et verktøy som kan måle en stor språkmodells evne til å oppføre seg som agent ved for eksempel å surfe på nettet, kjøpe produkter på nett og konkurrere i spill.

Er Turing-testen fortsatt relevant?

Turing-testen er et mål på imitasjon – på AIs evne til å simulere menneskelig atferd. Store språkmodeller er ekspertimitatorer, noe som nå gjenspeiles i deres potensial til å bestå Turing-testen. Men intelligens er ikke det samme som imitasjon.

Det er like mange typer intelligens som det er mål å oppnå. Den beste måten å forstå intelligensen til AI er å overvåke fremgangen i utviklingen av en rekke viktige evner.

Samtidig er det viktig at vi ikke fortsetter å "endre målstolpene" når det kommer til spørsmålet om AI er intelligent. Siden AIs evner forbedres raskt, finner kritikere av ideen om AI-intelligens stadig nye oppgaver AI-systemer kan slite med å fullføre – bare for å oppdage at de har hoppet over enda et hinder.

I denne innstillingen er det relevante spørsmålet ikke om AI-systemer er intelligente – men mer presist, hva slag av intelligens de måtte ha.Den Conversation

Simon Goldstein, førsteamanuensis, Dianoia Institute of Philosophy, Australian Catholic University, Australsk katolsk universitet og Cameron Domenico Kirk-Giannini, assisterende professor i filosofi, Rutgers University

Denne artikkelen er publisert fra Den Conversation under en Creative Commons-lisens. Les opprinnelige artikkelen.