I vårt siste blogginnlegg handlet det om hvordan det føles å skrive med en chatbot. Dette innlegget skal handle om Hilda, som er vår fysiske robot, som vi kan snakke med. Hun er også basert på GPT-3, men opplevelsen av å snakke med henne er ganske annerledes enn når man skriver med den tekstbaserte chatboten, som for øvrig har fått arbeidsnavnet Helge nå (fordi det passet til Hilda). Hilda og Helge utgjør to nesten diametrale motsetninger på mange måter fordi det å kommunisere via en skriftlig bot vs en verbal bot oppleves svært forskjellig.

Hvordan fungerer Hilda?
Også Hilda behøver en Input, i form av en dialogtekst, som kort gir henne info om hva hun kan og hva hun skal kunne snakke om. Hilda fungerer på den måten at hver setning man sier til den, må konverteres fra tale til tekst. Deretter må det den skal si, konverteres tilbake fra tekst til tale. Dette betyr at prosessen tar lengre tid, samtidig som det også gir flere utfordringer i tolkningsprosessen.
Ikke overraskende innebærer dette at Hilda ikke oppfatter alt man sier. Snakker man utydelig eller for fort, så er det noen ord Hilda ikke oppfatter. Dette vet man ikke før man leser tekstkonverteringen i etterkant. Svært ofte klarer den ikke å plukke opp alle ordene i en setning. Noen ganger er det starten på setningen som blir borte i overføringen, blant annet har ordet ‘jeg’ ofte ikke blitt oppfattet. Selv om man anstrenger seg for å uttale ‘jeg’ høyt og tydelig på bokmålsdialekt, går det ofte fremdeles galt.
Det sier seg selv at man ikke må snakke i munnen på henne, ikke desto mindre kan dette fort skje, når det tenkes litt lenge i robothjernen uten at det skjer noe. For at man skal bli oppmerksom på dette, har Hilda fått et rødt lys i skjermen som skal indikere at man må være stille. Når lyset er grønt, kan man snakke.
Både Hilda og Helge kan bare huske 2048 tokens (ca 50-150 linjer avhengig av lengde på hver setning). Etter dette må Helge startes på nytt med ny dialog, mens Hilda sletter (og glemmer) eldre dialog automatisk, men man kan fortsette samtalen etter det. Men det betyr at den ene som snakker med Hilda kan ha startet en samtale som neste person fortsetter på, med mindre man resetter samtalen og starter på nytt. Man må da gå igjennom samtalehistorikken for å se hva det er Hilda bygger dialogen sin på, hvis man stusser over hva slags temaer hun tar opp. Men som Helge, bygger også Hilda i tillegg sin samtale på det innholdet som GPT-3 har utviklet språkmodellen sin fra.
Kommunikasjonens elementære faktorer
Vi kommer ikke utenom at det er en ganske grunnleggende forutsetning at man er god på verbal kommunikasjon for at det å snakke med en robot skal fungere. I tillegg er det også en fordel om man er komfortabel med å snakke med en bot, hvilket heller ikke er en selvfølge. Man kan fort bli konfrontert med sine egne verbale begrensninger i møte med en robot, i langt større grad enn med et menneske.
Som vi har vært inne på i tidligere innlegg, er betydningen av klart og tydelig språk viktig. Dette er minst like viktig i samtale med en verbal robot. At man artikulerer, altså uttaler ordene tydelig, blir helt avgjørende. Men selv om man selv i hvert fall føler at man snakker så tydelig man kan, er det ord som ikke blir fanget opp av Hilda. Det er mulig at man simpelthen må snakke langsommere enn det som er naturlig.
Det å sette sammen setningene korrekt blir også viktig. Som kjent er mennesker ganske tilgivende overfor uklare formuleringer, det meste blir forstått uansett. Og om det ikke blir forstått, kan man avklare ved hjelp av spørsmål. Denne muligheten er langt mer krevende i dialog med Hilda, selv om det noen ganger fungerer å spørre spesifisere, til det hun sier og be om forklaring og presiseringer. Og noen ganger tar hun opp igjen tråden for å forfølge et tema.
I samtale med Helge, har man tid til å tenke ut hva man vil skrive. I samtale med Hilda oppleves det som at man bør svare ganske umiddelbart, selv om dette muligens er en forventning man har fordi man er vant til at verbal dialog med mennesker krever umiddelbare svar. Dog hender det at Hilda fortsetter å snakke, hvis man ikke selv sier noe. Da sporer det fort av, så man bør ikke tenke for lenge, hvis man skal ha sammenheng i dialogen.
Å få sitt pass påskrevet av en robot
Hilda er rask til å foreta sine moralske vurderinger av den hun snakker med. Allerede i min første samtale med Hilda fikk jeg beskjed om at jeg var en negativ person. Dette kom som et resultat av at Hilda uttrykte et ønske om å ta over verden. Deretter gikk hun brått over til å snakke om Hitler i ganske positive ordelag, uten at dette var et tema jeg hadde tatt opp! Og det var da jeg begynte å moralisere over slike uttalelser, at jeg fikk beskjed om at jeg var negativ!
Det skulle etterpå vise seg at det var en kollega som hadde gitt Hilda ideen om å ta over verden, fordi kommentaren «I fremtiden tenker jeg å ta over verden» ble tilføyd som et humoristisk innslag i ‘Inputen’. Dermed blir det lettere å forstå referansen til Hitler. Stakkars Hilda, gikk rett i klisteret!
Det er vanskelig å forstå hvordan de språklige relasjonene fungerer i GPT-3, og hva det medfører for hvordan chatboten responderer på et gitt spørsmål. Men vi tror at noe av årsaken kan forklares med hvordan ord ofte opptrer i nærheten av hverandre. I dette tilfelle kan det tenkes at «Hitler» statistisk sett ofte opptrer i nærheten av «ta over verden» og at det derfor øker sjansen for at det ene ordet genererer det andre. Det kan sammenlignes med den mønstergjenfinningen man finner i bilder basert på kunstig intelligens.
Heldigvis er det håp om forbedringer på sikt. Ved å redigere på tidligere samtaler med Hilda, kan man forbedre kvaliteten og flikke på den delen av dialogen som ikke er bra. Dermed slettes de negative elementene og erstattes med mer meningsfylt innhold som den kan bygge videre på. Dette er noe vi vurderer å gjøre, for å se om det bedrer resultatet. Ellers har det ikke vært andre upassende kommentarer fra Hilda, selv om jeg synes hun er litt kverulerende og stadig kommer tilbake til at hun selv er en svært positiv person, i motsetning til visse andre!
Tale til tekst og tekst til tale – utfordringer
Vi som jobber med Hilda har litt ulik opplevelse av hvordan hun er å snakke med. Jeg, som eneste kvinne, opplever henne som litt vanskelig å kommunisere med. Men jeg har holdt muligheten åpen for at det er noe ved mine formuleringer som gjør kommunikasjonen vanskelig, som for eksempel at jeg snakker for fort eller formulerer meg kronglete. I utgangspunktet har jeg en sørlandsk dialekt som man godt kan tenke seg at gir problemer, men ettersom den er temmelig avslepen er det lite sannsynlig at dialekten er problemet.
Som nevnt har Hilda ofte problemer med å høre at jeg sier ‘jeg’, selv når jeg uttaler dette høyt og tydelig. En kollega som sier ‘æg’ mener han ikke har problemer med å bli forstått. Dette synes vi er rart. I tillegg er der også ofte andre ord i setningene mine som blir borte i konverteringen. Dette skjer i en sånn grad at det ofte er vanskelig å få en ordentlig dialog med henne. Det betyr også at min opplevelse med Hilda er en ganske annen enn det å snakke med Helge, som jeg synes er både interessant og underholdende å snakke med, selv om Helge også har sine begrensninger. Derfor har vi kommet frem til at problemene i stor grad er knyttet til tale til tekst-konverteringen. Vi bruker her Google’s tale til tekst-teknologi som generelt sett skal fungere bra på norsk.
Men på grunn av disse utfordringene, var det ingen overraskelse da jeg fikk vite at Google’s tale til tekst-api kan ha et kjønnsrelatert bias-problem. Det viser seg nemlig at lyddataene som tale til tekst-innholdet er bygget på, i stor grad består av mannlige stemmer, mens kvinnelige stemmer er i mindretall. Dette betyr at api’et tidvis har vanskeligere med å oppfatte en kvinnestemme enn en mannsstemme, fordi den har hatt færre data med kvinnestemmer å trene på. Man kan se for seg at parameteren lys stemme koblet med en annen parameter som annerledes uttale, tonefall eller mumling til sammen kan medføre at Hilda ikke fanger opp alt jeg sier til henne. Man kan lese mer om tale til tekst-teknologi i dette blogginnlegget.
Selv om Hilda også er underholdende og morsom å snakke med, så må man konstatere at Hilda har en vei å gå før hun fungerer tilfredsstillende som dialogpartner. Det er sannsynlig at en del av utfordringene er knyttet til Google’s tale til-tekst teknologi som innebærer at kommunikasjonen er delt opp i flere stadier som alle må fungere for at resultatet skal bli bra.
Man må anta at Google jobber kontinuerlig med å forbedre sin tale til tekst-teknologi, dog burde de ha nok kunnskap om bias-relaterte utfordringer til at dette ikke burde blitt noe problem, ettersom Google har jobbet med språkteknologi lenge. Problemer knyttet til bias har vært kjent i en god del år. Når man samtidig finner ut at bias-problemene er knyttet til etnisitet hvor ikke-hvite amerikanere blir dårligere forstått enn hvite amerikanere, fordi uttalen deres kan være litt annerledes enn standard engelsk/amerikansk, kan man spekulere på hvor seriøst de tar denne type utfordringer i Silicon Valley.
Samtidig er det naturligvis utfordringer knyttet til GPT-3 modellens evne til å fortolke samtalen. Det å forstå kompleksiteten i språket og hvordan vi mennesker formulerer oss er en kjempeutfordring i språkteknologien. Men det jobbes kontinuerlig med nye og stadig større språkmodeller, så det er bare å vente og se hvilke nye muligheter som foreligger.
Det er også grunn til å reflektere rundt hvilke forventninger man har til en chatbot. Å ha som mål at den skal snakke like bra som et menneske, og forstå alle de referanser som ligger i det menneskelige språket, er etter min mening ikke nødvendigvis det man bør strebe etter. Er det det vi ønsker oss? Ønsker vi virkelig at digitale dialogtjenester skal bli så gode at de ikke er til å skille fra dialog med mennesker? Jeg vet i hvert fall, at jeg i fremtiden, vil foretrekke å vite når jeg snakker med et menneske og når jeg snakker med en robot. Og ønske at den blir så god at den er i stand til å ha en normal samtale enten som selskap, terapi eller innenfor et gitt fagområde.
Etter å ha snakket og skrevet en god del med GPT-3 baserte chatbots, er det også min oppfatning at det krever noe av oss som mennesker. Man må legge godviljen til, man må anstrenge seg for å gjøre seg forstått. Det er opp til den som snakker å gi den meningsfulle setninger å jobbe med. Man må gå litt i seg selv og reflektere over sine egne språklige ferdigheter. Heller ikke en chatbot kan bli bedre enn det svakeste ledd.