Magien bak Google og ChatGPT: Hvordan AI kan "forstå" og "tenke"
Har du noen gang stusset over hvordan Google kan søke gjennom milliarder av sider på nettet – og på mindre enn et sekund finne akkurat det du leter etter? Eller hvordan ChatGPT kan skjønne hva du mener, selv om når du formulerer deg dårlig og med masse skrivefeil?
Det er lett å tenke at det må ligge en form for magi bak – en usynlig kraft som leser og forstår alt på en gang.
Virkeligheten er kanskje enda mer fascinerende. Det er ikke magi, men en elegant metode for å forvandle språk til matematiske mønstre.
Hvorfor er det viktig å forstå det grunnleggende om hvordan KI fungerer?
Det hjelper deg å se mulighetene, unngå de vanligste (og ganske farlige!) fallgruvene, og forstå hvorfor disse verktøyene noen ganger gir fantastiske – og andre ganger helt ubrukelige – resultater.
Her er en overordnet forklaring på "formlene" bak ChatGPT og Google.
Først, la oss rydde opp litt i begrepene her
Begrepet "kunstig intelligens" (KI) brukes i dag om alt fra bilens ryggesensor til avanserte språkroboter. Før vi kaster oss ut i magien bak Google og ChatGPT, la oss rydde opp i de viktigste begrepene.
Denne artikkelen handler spesifikt om den delen av KI som jobber med språk. For de ekstra nysgjerrige har vi laget en enkel ordliste i boksene under.
To helt forskjellige "AI-systemer"
Hvordan fungerer ChatGPT? Hvordan kan Google på millisekunder forstå akkurat hva du mente og finne fram millioner av resultater?
Forenklet sagt kan vi si at det er to ulike metoder som ligger bak.
Du kan se på det litt som to forskjellige fagdisipliner eller roller:
- Bibliotekaren er en mester i å finne den ene, sanne informasjonen i et uendelig, kaotisk bibliotek (hele internett).
- Forfatteren er en mester i å bruke ren fantasi og sannsynlighet til å skape noe helt nytt.
De bruker noen av de samme verktøyene, men for helt motsatte formål. Å forstå denne forskjellen er det første, og viktigste, steget.
Hvordan maskiner kan "lese" og "forstå" enorme mengder med tekst
Mennesker vs. maskiner
Vi mennesker tenker i bilder, følelser og ord. Når du leser "Harry Potter", dukker det kanskje opp mentale bilder av en gutt med briller, et slott, magiske staver. Kanskje du husker følelsen av å lese bøkene første gang.
Maskiner gjør ikke det.
De har ingen følelser. De ser ingen bilder. De forstår ikke ord slik vi gjør.
Det eneste datamaskiner faktisk kan gjøre, er å regne. Enormt mye, enormt raskt – men det er fortsatt bare matematikk.
Mønster og konsepter – ikke bare ord
Når en AI-modell skal "tolke" og "forstå" hva en tekst, så trenes den opp på enorme mengder tekst. Ekstreme mengder.
Og det den "lærer" eller lagrer, er først og fremst en rekke tallverdier som forklarer hvordan ulike ord henger sammen.
Okei, la oss prøve å forenkle det litt først ved å se på konseptet "Harry Potter".
Embeddings
"Harry Potter" lagres ikke som bokstavene "H-a-r-r-y P-o-t-t-e-r".
I stedet kan vi si at det heller lagres som et slags konsept – en unik matematisk verdi som automatisk er kobler til andre relaterte konsepter:
- Hermione Granger (sterkt relatert)
- Ron Weasley (sterkt relatert)
- J.K. Rowling (relatert – forfatter)
- Galtvort (relatert – sted)
- Trollmann (relatert – tema)
- Fantasy (relatert – sjanger)
Her er det geniale: Disse relasjonene bygges automatisk, bare ved å analysere hvordan ordene brukes sammen i enorme mengder tekst.
Når "Harry Potter" ofte nevnes i sammenheng med "Ronny" og "Hermine", så blir disse relasjonene sterkere.
Den kan på en måte "forstå" at om du søker etter "Ronny Wiltersen", så har det sannsynligvis noe å gjøre med "Harry Potter".
Lenge brukt i søkemotorer som Google
Det er dette som gjør at Google kan foreslå: "Mente du Harry Potter?" når du ved et uhell søker på "Hrry Potter".
Systemet ser at "Hrry Potter" har en matematisk verdi som er veldig nær "Harry Potter" – og konkluderer med at du sannsynligvis mente sistnevnte.
Skaper selvfølgelig også "misforståelser"
Med denne innsikten, så er det kanskje litt lettere å se for seg hvorfor det å be KI generere bilde av en "same", i dette tilfellet førte til noe som... Ikke ser ut som en "stereotypisk" same.
(Selv om, det kunne jo i teorien vært en same. Hilsen same som er irritert på at sånne som meg skal puttes i boks og må ha et visst stereotypisk utseende for å være "ekte" same).
Men det er jo ikke så rart når du tenker over det. Denne tidlige versjonen av en bildemodell har blitt trent opp på et lite datagrunnlag, med begrensede eksempler å ta av.
Hvis vi skulle "sett for oss" at en datamaskin tenkte mer som et menneske, så kan vi se for oss at den "tenker" noe sånn som dette.
- Hmmm, jeg vet ikke hva en same er – så jeg får bare "regne" meg frem til hva det er basert på disse tallverdiene jeg har tilgjengelig.
- Konseptet "samer" nevnes ofte i forbindelse med "reinsdyr". Derfor "gjetter" jeg at det skal være "reinsdyr" i bakgrunnen, fordi alle samer har reinsdyr (*) og jeg har sett mange bilder av hvordan reinsdyr ser ut.
- "Samer" nevnes ofte i forbindelse med "urfolk". Siden de fleste bilder jeg har av "urfolk" er av urfolk i Nord-Amerika, så er det vel rimelig å anta at det er sånn samer ser ut også?
- "Samer" nevnes ofte i forbindelse med "Norge". I "Norge" er det "fjell", derfor putter jeg noen fjell i bakgrunnen. (Dessuten pleier mange bilder som handler om "Norge" å ha noe "fjell" i bakgrunnen).
Okei, dette var veldig forenklet. Og det blir bare gjetting fra min side her.
Samtidig, så er jo dette litt utfordringen med teknologien også. Det er vanskelig å få et "eksakt" svar på nøyaktig hvordan en AI-agent kom fram til et svar, fordi denne prosessen er bare mange mange tall og regneprosesser som det er vrient for oss mennesker å få oversikt over.
👆 (Dette bildet representerer bare en "vibe", ikke hvordan dette faktisk ser ut)
Den faktiske "magien" bak er bare matte.
Okei, la oss prøve å forstå bittelitt mer om hvordan det faktisk fungerer.
En to-trinns prosess
Så hvordan får man en maskin til å "forstå" tekst? Vel, forenklet sagt kan vi si at ord gjøres om til tall.
Det skjer i to trinn:
Steg 1: Tokenisering (Å splitte teksten)
Dette er den grunnleggende prosessen med å bryte ned tekst til mindre, håndterbare enheter kalt "tokens".
Når du skriver "Katten satt på matten", skjer dette:
- Teksten deles opp i logiske biter: ["Katten", "satt", "på", "matten"]
- Hver bit blir et "token" – en strukturert enhet maskinen kan jobbe med
- På dette stadiet har AI-en ingen anelse om hva "Katten" betyr – den vet bare at det er en enhet
Steg 2: Embedding (Å gi bitene mening)
Dette er hvor magien skjer. Hver token får en unik matematisk verdi som fanger opp dens mening.
Tenk på det som en oversettelse:
- Mennesker: "Harry Potter" = en gutt, en historie, magi, vennskap
- Maskiner: "Harry Potter" = [0.23, -0.41, 0.88, 0.12, -0.55, ...] (en liste med hundrevis av tall)
Det geniale: Disse tallene er ikke tilfeldig valgt. De er laget slik at ord med lignende betydning får lignende tallverdier.
La oss si at "Harry Potter" får tallverdien:[0.23, -0.41, 0.88, 0.12, -0.55, ...]
Da vil "Hermione Granger" kanskje få:[0.25, -0.39, 0.85, 0.14, -0.52, ...]
Ser du det? Tallene er ganske like, fordi ordene er relatert.
Men "pizza" vil få helt andre tall:[-0.67, 0.92, -0.13, 0.44, 0.88, ...]
Superkreftene som "embeddings" åpner opp
Ved å ta i bruk dette, så kan man virkelig låse opp noen seriøse superkrefter.
1. Lynraskt søk i enorme datamengder
Du kan søke gjennom milliarder av dokumenter på sekunder fordi AI-en sammenligner matematiske verdier i stedet for å lese tekst ord for ord.
2. Semantisk søk (AI forstår mening, ikke bare ord)
Du kan søke etter "en trist bok om en trollmann" og få treff på "Harry Potter og Føniksordenen", selv om ordene "trist bok" ikke står i beskrivelsen.
AI-en eller søkemotoren forstår konseptet du leter etter.
3. Automatisk kategorisering og anbefalinger
Systemet kan automatisk gruppere lignende innhold:
- "Denne nye support-saken ligner 90% på en sak vi løste forrige uke"
- "Kunder som leste denne artikkelen, likte også disse tre"
- "Dette produktet passer perfekt til din tidligere kjøpshistorikk"
4. Ekstrem effektivitet
I stedet for å måtte lese gjennom tusenvis av dokumenter hver gang noen søker, kan systemet bare sammenligne matematiske verdier.
Resultatet: Systemet blir responsivt, billigere i drift og mye mer klimavennlig per søk totalt sett.
AI som forfatter – hvordan ChatGPT "tenker" og "skaper" ny tekst
Nå har vi sett hvordan embeddings fungerer som en "bibliotekar" – et system som finner eksisterende informasjon.
Men ChatGPT gjør noe helt annet mer enn det. Den skaper nye svar, ord for ord, på samme måte som du skriver en melding til en venn.
Ekstremt god på å gjette
La oss starte med det grunnleggende spørsmålet: Hvordan i all verden kan en maskin skrive tekst som høres menneskelig ut?
Svaret er egentlig ganske enkelt: Den gjetter.
Ja, du leste riktig. ChatGPT gjetter seg frem, ord for ord. Men det er ikke tilfeldig gjetting – det er utrolig kvalifisert gjetting basert på at den har lest milliarder av tekster.
Hvordan kan en maskin skrive tekst?
La oss starte med det grunnleggende spørsmålet: Hvordan i all verden kan en maskin skrive tekst som høres menneskelig ut?
Svaret er egentlig ganske enkelt: Den gjetter.
Ja, du leste riktig. ChatGPT gjetter seg frem, ord for ord. Men det er ikke tilfeldig gjetting – det er utrolig kvalifisert gjetting basert på at den har lest milliarder av tekster.
Fullfør setningen
Velkommen til mitt quiz show! Her skal vi fullføre setninger.
Spørsmål 1: Jonas Gahr Støre er....
- En ku
- 8944637291
- statsminister i Norge.
- dksopipfjpqephe
Hva gjetter du?
Alternativ 3, sier du? Poeng til deg!
Hvordan visste du det?
Altså, i prinsippet så er det jo bare at du har hørt, ekstremt mange ganger, at Jonas Gahr Støre er statsminister i Norge.
Hjernen din har "koblet" disse to konseptet sammen i hodet ditt.
Og på mange måter, så er det sånn ChatGPT eller Claude fungerer også. Den assosierer konseptene "Jonas Gahr Støre" og "statsminister" så sterkt sammen, at den gjetter seg frem til at det må handle noe om dette.
Bare med mye mer data. Den har lest noe om at "Jonas Gahr Støre er statsminister i Norge" millioner, milliarder av ganger. Og den bruker det til å gjette hva som passer best.
Klarer å holde oppmerksomhet på det som er "viktig"
Det å bruke AI til å "fullføre" setninger har vi hatt lenge. Men den greide ikke helt skape lengre sammenhengende tekster som faktisk ga mening.
Den ble rett og slett veldig "distrahert" om du vil.
Den store revolusjonen kom først da disse språkmodellene faktisk greier å "forstå" og mer effektivt holde oppmerksomhet på den biten som er "viktig".
Vi kan be Claude eller ChatGPT om å aktivt svare feil, og den skjønner hva vi sikter til.
Vi kan så få den til å generere et dikt, og den "skjønner" at vi med på alternativ 4 sikter til det som kom "4." tidligere i samtalen.
Men diktet vi fikk ble ikke særlig originalt. Ikke så rart, for vi har jo ikke gitt den noe særlig mye å gå på annet enn at det skal være et "dikt".
Vi sa ikke at det skulle være et "bra" eller "originalt" dikt. Vi sa bare at det skulle være et "dikt".
Men vi kan jo kanskje gi den litt mer innsikt i HVORDAN vi ønsker diktet at diktet skal være. For eksempel kan vi be den om å skrive med en litt sånn "Jonas Gahr-Støre aktig" stil.
Og vipps, så har vi fått et vakkert dikt om "Dksopipfjpqephe".
Kjære venner,
Dksopipfjpqephe. Dette ordet representerer noe viktig – nemlig at vi alle, fra tid til annen, trenger rom for det uforutsigbare, det som ikke kan planlegges i et regjeringsprogram.
Vi må tørre å si: dksopipfjpqephe. Ikke fordi det gir mening i tradisjonell forstand, men fordi det minner oss om at språket, som samfunnet, er i konstant utvikling.
Dette handler om fellesskap. Om å bygge broer – også mellom d, k, s, o, p, i, p, f, j, p, q, e, p, h og e. Hver bokstav har sin plass. Hver bokstav bidrar.
La oss sammen ta ansvar for dksopipfjpqephe. For det er det vi gjør best i dette landet: Vi samarbeider. Vi inkluderer. Vi skaper mening der andre bare ser bokstaver.
La oss sammen ta ansvar for dksopipfjpqephe. For det er det vi gjør best i dette landet: Vi samarbeider. Vi inkluderer. Vi skaper mening der andre bare ser bokstaver.
Takk for meg.
Og hvordan kan den lage noe så absurd som likevel høres "Jonas Gahr Støre" aktig ut?
Vel, sitater fra Jonas Gahr Støre, transkripter fra taler, referater fra møter og fra Stortingssalen, nyttårstaler. Språkmodellen har lest ekstremt mange eksempler på hvordan "Jonas Gahr Støre" ofte prater, og kan derfor lage noe som "høres" riktig ut.
Selv om det er helt absurd.
Slik fungerer generering – forenklet
La oss bruke setningen som vi allerede kjenner fra quizen, og se på hvordan alt dette skjer i praksis.
Første ledd kjenner vi alle til fra forrige del.
Steg 1: Input (Tokenisering + Embeddings)
Når du skriver "Jonas Gahr Støre er Norges...", skjer dette:
- Tokenisering: Teksten deles opp i sine minste meningsfulle biter (tokens):
["Jonas", "Gahr", "Støre", "er", "Norges"] - Embeddings: Hver av disse tokenene (ordene) får sin matematiske tallverdi, som et slags "ID-kort".
På dette stadiet er verdiene "dumme".
- Den kan forstå at ordet "Jonas" ofte representerer et fornavn.
- Den vet at "Støre" kan representere et etternavn.
- Den vet at ordet "er" vet bare at det er et verb.
Steg 2: "Tenking" (Self-Attention)
Dette er hvor magien skjer.
Systemet bruker "Self-Attention" (selv-oppmerksomhet) for å finne ut hvordan ordene henger sammen.
Tenk på det som et panel av eksperter som diskuterer med hverandre:
- "Støre"-eksperten ser seg rundt og spør: "Hvilken 'Støre' er jeg? Hva 'er' jeg?"
- Den får svar fra "Jonas"- og "Gahr"-ekspertene: "Du er en del av navnet Jonas Gahr Støre."
- Samtidig får den svar fra "Norges"-eksperten: "Du har en sterk kobling til konseptet Norge."
- Plutselig forstår "Støre" sin egen kontekst! Den er ikke en "stør" (fisk) eller en tilfeldig person. Den er en spesifikk person knyttet til Norge.
Dette skjer gjennom flere lag (gjerne 12-96 ganger), hvor forståelsen av setningens indre sammenheng blir dypere for hver runde.
På en måte kan du tenke på det som at språkmodellen "lagrer" alt det som ble sagt i en slags ny "smartere" embedding.
Modellen har sett ["Jonas", "Gahr", "er", "Norges"]. Nå genererer den en ny, "smart" embedding for ["Støre"] som matematisk har fanget opp all denne konteksten. Denne nye embeddingen betyr nå noe slikt som "Statsministeren-i-denne-setningen".
Steg 3: Output (Neste ord)
Etter all denne "tenkingen" har systemet fått en dypere matematisk forståelse av setningen "Jonas Gahr Støre er Norges...".
Den bruker denne forståelsen til å generere matematiske sannsynligheter for hva som må komme nå:
- "statsminister": 95,2% sannsynlighet
- "konge": 1,1% sannsynlighet (logisk knyttet til "Norges", men feil person)
- "hovedstad": 0,04% sannsynlighet (logisk knyttet til "Norges", men feil ordklasse)
- "dksopipf": 0,0001% sannsynlighet
Systemet velger det mest sannsynlige ordet, "statsminister", legger det til setningen, og starter hele prosessen (steg 1-2-3) på nytt for å gjette neste ord etter "statsminister".
Når den blir blir instruert til å svare feil ser "regnestykket" annerledes ut
Resultat (sannsynligheter):
- "statsminister": 0,1% (Modellen "vet" at dette er det korrekte svaret og at den ikke skal velge det).
- "konge": 1,5% (Fortsatt lite sannsynlig, fordi det er nesten riktig og passer ikke helt med "svar feil").
- "baker": 30,5% (Høy sannsynlighet. Det er et yrke, men åpenbart feil).
- "en ku": 45,2% (Veldig høy sannsynlighet! Dette er garantert feil og passer perfekt med instruksjonen).
"Self-Attention"-mekanismen (tenkingen i Steg 2) fanger opp at "svare feil" er den viktigste instruksjonen. Denne instruksjonen veier nå tyngre enn den lærte kunnskapen om hvem Støre er.
Resultatet er at hele sannsynlighetskartet – selve "regnestykket" – blir snudd på hodet for å oppfylle den nye betingelsen.
Fallgruvene du må kjenne
Men embeddings og generative AI er ikke magisk. Det er noen alvorlige fallgruver du må være klar over.
De vanligste problemene
1. "Søppel inn, søppel ut" – forsterket
Hvis modellen primært er trent på engelsk, vil den være dårlig på norsk. Hvis den har lite data om ditt spesialiserte fagfelt, vil den ikke forstå nyansene.
Men problemet er ikke bare dårlig data – det er at AI forsterker problemene i dataene.
2. Full av fordommer
Modellene trenes på enorme mengder tekst fra internett, skrevet av mennesker. Hvis disse dataene inneholder historiske eller systemiske fordommer (knyttet til kjønn, etnisitet, yrker e.l.), vil modellen lære og reprodusere disse. Den "vet" ikke at en stereotypi er feil; den ser det bare som et sterkt statistisk mønster.
3. Kontekst-problemer
Embeddings er utmerkede på å fange tema, men sliter med:
- Negasjon: "Jeg vil ikke ha pizza" vs. "Jeg vil ha pizza" kan feilaktig bli vurdert som like
- Tidsaspekter: "Vi lanserte produktet i går" vs. "Vi lanserer produktet i morgen"
- Hypotetiske vs. faktiske utsagn: "Hvis behandlingen virker..." vs. "Behandlingen virker..."
4. Hallusinasjon i generative systemer
ChatGPT og lignende modeller "dikter ikke bevisst opp" løgner. Men når de ikke har riktig kontekst, genererer de det mest sannsynlige svaret – som kan være helt feil.
5. Dårlig strukturering av innhold
Før tekst kan bli til embeddings, må den deles opp i håndterbare biter. Naiv oppdeling kan:
- Splitte setninger midt i
- Separere spørsmål fra svar
- Fjerne all kontekst
Hvorfor det er viktig å forstå? Sånn delvis hvertfall
Jo bedre du forstår hvordan AI "leser" og "forstår" innhold, jo bedre kan du:
For innholdsskapere:
- Strukturere innholdet så AI finner det riktige
- Skrive tydelige sammenhenger mellom konsepter
- Unngå tvetydigheter som forvirrer systemene
For bedriftsledere:
- Forstå kostnadene ved å bygge pålitelige AI-systemer
- Stille de riktige spørsmålene til leverandører
- Planlegge for vedlikehold – ikke bare implementering
For alle:
- Være kritiske til AI-genererte svar
- Forstå begrensningene i systemene du bruker
- Verdsette menneskelig ekspertise som kvalitetssikring