Et AI-system har nået menneskeligt niveau i en test for ‘generel intelligens’. Her er hvad det betyder

Artikel af forskerne Elija Perrier fra Stanford University og Michael Timothy Bennett fra Australian National University

Mange AI-forskere og udviklere føler at noget fundamentalt har ændret sig. Billede: Sten Ask/DALL-E.

Et nyt kunstig intelligens (AI) system har netop opnået resultater på menneskeligt niveau i en test designet til at måle “generel intelligens”.

Den 20. december scorede OpenAI’s o3-system 85 % på ARC-AGI-benchmarken, langt over den tidligere bedste AI-score på 55 % og på niveau med gennemsnitlige menneskelige resultater. Systemet klarede sig også godt i en meget svær matematiktest.

Skabelsen af kunstig generel intelligens, eller AGI, er det erklærede mål for alle de store AI-forskningslaboratorier. Ved første øjekast ser det ud til, at OpenAI i det mindste har taget et betydeligt skridt mod dette mål.

Mens der stadig er skepsis, føler mange AI-forskere og udviklere, at noget fundamentalt har ændret sig. For mange virker udsigten til AGI nu mere realistisk, presserende og tættere på end forventet. Men har de ret?

Generalisering og intelligens

For at forstå, hvad o3-resultatet betyder, skal man forstå, hvad ARC-AGI-testen handler om. Teknisk set er det en test af et AI-systems “sample efficiency” i at tilpasse sig noget nyt – hvor mange eksempler på en ny situation systemet skal se for at finde ud af, hvordan det fungerer.

Et AI-system som ChatGPT (GPT-4) er ikke særlig sample-effektivt. Det er blevet “trænet” på millioner af eksempler på menneskelig tekst og konstruerede sandsynlighedsbaserede “regler” for, hvilke kombinationer af ord der sandsynligvis optræder.

Resultatet er, at det klarer sig godt i almindelige opgaver. Det klarer sig dårligt i sjældne opgaver, fordi det har færre data (færre eksempler) om disse opgaver.

Indtil AI-systemer kan lære fra et lille antal eksempler og tilpasse sig mere eksempel-effektivt, vil de kun blive brugt til meget gentagne opgaver og opgaver, hvor lejlighedsvise fejl er tolerable.

Evnen til præcist at løse hidtil ukendte eller nye problemer ud fra begrænsede dataeksempler kaldes evnen til at generalisere. Dette betragtes bredt som et nødvendigt og fundamentalt element af intelligens.

Gitre og mønstre

ARC-AGI-benchmarken tester eksempel-effektiv tilpasning ved hjælp af små gitterproblemer som det nedenfor. AI’en skal finde det mønster, der ændrer gitteret til venstre til gitteret til højre.

Et eksempel på en opgave fra ARC-AGI benchmark testen. ARC-Prize

Hvert spørgsmål giver tre eksempler at lære af. AI-systemet skal derefter finde de regler, der kan “generalisere” fra de tre eksempler til det fjerde.

Disse minder meget om de IQ-tests, man møder til session i forsvaret.

Svage regler og tilpasning

Vi ved ikke præcis, hvordan OpenAI har opnået det, men resultaterne tyder på, at o3-modellen er meget tilpasningsdygtig. Ud fra blot få eksempler finder den regler, der kan generaliseres.

For at finde et mønster skal vi undgå unødvendige antagelser eller være mere specifikke, end vi behøver. I teorien, hvis du kan identificere de “svageste” regler, der opnår, hvad du ønsker, så har du maksimeret din evne til at tilpasse dig nye situationer.

Hvad mener vi med de svageste regler? Den tekniske definition er kompleks, men svagere regler er normalt dem, der kan beskrives i enklere udsagn.

I eksemplet ovenfor kunne en regel på almindelig dansk lyde: “Enhver form med en udstikkende linje vil flytte sig til enden af den linje og dække over andre former, den overlapper med.”

Søgen efter tankerækker?

Selvom vi endnu ikke ved, hvordan OpenAI opnåede deres resultat, virker det usandsynligt, at de specifikt optimerede o3-systemet til at finde svage regler. Men for at lykkes med ARC-AGI-opgaverne må det være i stand til at finde dem.

Vi ved, at OpenAI startede med en generel version af o3-modellen (som adskiller sig fra de fleste andre modeller ved at bruge mere tid på at “tænke” over svære spørgsmål) og derefter trænede den specifikt til ARC-AGI-testen.

Den franske AI-forsker Francois Chollet, der designede benchmarken (ARC-AGI-testen), mener, at o3-systemet søger gennem forskellige “tankekæder”, som beskriver trin til at løse opgaven. Derefter vælger den den “bedste” ud fra en løst defineret regel eller “heuristik”. ( RED: En heuristik er en praktisk tommelfingerregel eller metode, der bruges til at træffe beslutninger eller løse problemer hurtigt og effektivt. Den bygger ofte på erfaring eller intuition og prioriterer hurtige løsninger frem for perfektion. Heuristikker kan være nyttige i komplekse situationer, men kan også føre til fejl eller bias.).

Dette kan minde om, hvordan Googles AlphaGo-system søgte gennem forskellige sekvenser af træk for at slå verdensmesteren i Go (i 2016 besejrede AlphaGo AI-systemet verdensmesteren i Go).

Man kan tænke på disse tankekæder som programmer, der passer til eksemplerne. Det siger sig selv, at hvis det minder om en Go-spillende AI, har det brug for en heuristik eller løs regel til at beslutte, hvilket program der er bedst.

Der kunne generere tusindvis af tilsyneladende lige gyldige programmer . Heuristikken kunne være “vælg det svageste” eller “vælg det enkleste”.

Men hvis det er som AlphaGo, brugte de simpelthen AI til at skabe en heuristik. Dette var processen for AlphaGo: Google trænede en model til at vurdere forskellige sekvenser af træk som bedre eller værre end andre.

Hvad vi stadig ikke ved

Spørgsmålet er så, om dette virkelig bringer os tættere på AGI. Hvis det er sådan, at o3-systemet fungerer, kan den underliggende model muligvis ikke være meget bedre end tidligere modeller.

De begreber modellen lærer fra sprog er måske ikke mere egnede til generalisering end før. I stedet ser vi måske blot en mere generaliserbar “tankekæde”, fundet gennem de ekstra trin i at træne en heuristik, der er specialiseret til denne test. Som altid vil beviset ligge i resultatet.

Næsten alt omkring o3-modellen er stadig ukendt. OpenAI har begrænset oplysningerne til få præsentationer og tidlige test med en håndfuld forskere, laboratorier og AI-sikkerhedsinstitutioner.

For virkelig at forstå o3’s potentiale kræves omfattende arbejde, herunder evalueringer, en forståelse af dens evner, hvor ofte den fejler, og hvor ofte den lykkes.

Når o3 endelig frigives, vil vi få en meget bedre idé om, hvorvidt den er omtrent lige så tilpasningsdygtig som et gennemsnitligt menneske.

Hvis det er tilfældet, kan det få enorme, revolutionerende økonomiske konsekvenser og indlede en ny æra med selvforbedrende accelereret intelligens. Vi vil have brug for nye benchmarks for AGI og seriøse overvejelser om, hvordan den bør reguleres.

Hvis ikke, vil dette stadig være et imponerende resultat. Men hverdagen vil forblive stort set uændret.

Denne artikel er oprindeligt publiceret på The Conversation: An AI system has reached human level on a test for ‘general intelligence’. Here’s what that means

Skrevet af Elija Perrier. Research Fellow, Stanford Center for Responsible Quantum Technology, Stanford University
og
Michael Timothy Bennett. PhD Student, School of Computing, Australian National University

Artiklen er udgivet på nyhedscentrum.dk efter aftale.