Kvalitet på innhold avgjørende for et godt resultat

For at en chatbot skal gi gode resultater må tekstmaterialet ha de riktige kvalifikasjonene. Første del av prosessen har dreid seg om å finne norskspråklig, dialogbasert tekstmateriale med dagligdagse samtaletemaer innenfor et bredt spekter, som i liten grad inneholder eksplisitte eller upassende temaer. Ettersom vi ønsker å skape en vennlig chatbot, må temaer av voldelig karakter unngås. Også temaer relatert til sex er det lett å se for seg at fort kan ta en uønsket retning. En stoppordsliste med banneord og andre upassende ord skal håndtere en del av problemene. Samtidig er det ønskelig at en vennlig chatbot skal kunne håndtere temaer knyttet til kjærlighet og følelser.

Den innledende, manuelle behandlingen har bestått i å strukturere teksten i den grad dette er mulig og kvalitetssikre og fjerne elementer som vil oppfattes som støy i maskinlæringen. Dette kan dreie seg om alt fra skrivefeil til bruk av tegnsetting som skaper problemer eller lydord som ikke gir mening. I den grad det har vært praktisk mulig har vi også redigert noe av innholdet manuelt for å skape bedre språk og tydelighet i innholdet, men det sier seg selv at dette er alt for tidskrevende og derfor kun unntakelsesvis er blitt gjort. Dessuten er jo hele poenget at maskinlæringen skal håndtere disse tingene automatisk. Allikevel ble deler av innholdet redigert bort, fordi det ble funnet upassende eller ikke relevant til formålet.

Undervegs har vi notert oss hypoteser, problemområder og konkrete testscenarier, som det er sannsynlig at man må bruke en del tid på for å forbedre. Testingen vil medføre flere gjennomkjøringer av data for å se resultatet av de endringer man foretar.

Det dreier seg særlig om etiske utfordrende temaer, som det er vanskelig å vurdere hvordan kan utarte seg i praksis. Selv om veien frem er lang til en chatbot som er god på å diskutere samfunnsfaglige og mellommenneskelige temaer, er det naturlig å forsøke å tenke seg til hva som kan skje hvis man stiller spørsmål som dette.

En av våre bekymringer har vært om datagrunnlaget på sikt vil kunne skape fordomsfulle svar fra chatboten, ettersom den utvikler seg. Som kjent er en av de største utfordringene å unngå at man overfører menneskelige fordommer til chatboten og at disse får lov å eskalere uhemmet på måter det er vanskelig å se for seg. Akkurat denne problematikken er blitt et eget område innenfor kunstig intelligens som kalles fairness og som det er viktig å være bevisst på.

Relatert