Du har lest det før, men du har godt av å lese det igjen: Du kan ikke ta alt AI-er som ChatGPT forteller deg for god fisk.
En gjeng smartinger fra det amerikanske Purdue University har i en ny forskningsartikkel stilt ChatGPT 517 spørsmål, alle henta fra Stack Overflow-tråder. The Register forteller at de deretter sjekka om ChatGPT faktisk ga det riktige svaret.
Resultatet: ChatGPT tok feil i 52 prosent av tilfellene. Flåsete sagt: Dårligere enn et myntkast.
Men det som er minst like interessant, er hva forskerne fant da de ba folk vurdere hvor godt de likte svarene - uavhengig av hvor riktige de var.
«Også positiv ordlyd og høfligheten i svarene var viktige grunner»
Foretrekker AI-svar
I artikkelen "Who Answers It Better? An In-Depth Analysis of ChatGPT and Stack Overflow Answers to Software Engineering Questions" forteller forskerne hvordan de ba folk vurdere hvilke svar de likte best: Det muligens gale svaret fra ChatGPT, eller det riktige svaret fra Stack Overflow.
- ChatGPT-svarene ble foretrukket i 39,34 prosent av tilfellene, skriver forskerne ifølge The Register.
Vi bruker AI, men stoler ikke på den
Selv ChatGPT-svar med det forskerne anser som åpenbare feil, skal av mange ha blitt foretrukket. Grunnen er trolig måten roboten svarer på.
- En av hovedgrunnene var hvor detaljerte ChatGPT sine svar var. I mange tilfeller brydde ikke deltakerne seg om at svarene var lange, så lenge de fikk nyttig informasjon fra dem. Også positiv ordlyd og høfligheten i svarene var viktige grunner, mener forskerne.
Det vises blant annet til ChatGPTs stadig like optimistiske "selvfølgelig kan jeg hjelpe deg!", uavhening om du faktisk får god hjelp - ofte den rake motsetningen til hvordan du kan bli møtt på Stack Overflow av dine medmennesker.
Foreslår forbedringer
Som kode24 har meldt tidligere, sliter Stack Overflow med å møte konkurransen fra våre nye syntetiske overherrer. For selv om utviklere ikke stoler på AI, er det veldig mange som nå bruker det, i stedet for å spørre sine medmennesker.
Streik hos Stack Overflow
Forskerne ved Purdue University mener derfor at Stack Overflow bør gjøre ett og annet for å sørge for at mennesker fortsatt vil spørre andre mennesker.
- Vi foreslår at Stack Overflow får seg effektive metoder for å oppdage "giftighet" og negativ ordlyd i svarene sine, for å bedre ordlyd og høflighet, sier doktorgrad-student Samia Kabir til The Register, som også mener de bør gjøre noe med hvor enkelt det er å finne de gode svarene.
- I tillegg bør de få seg spesifikke retningslinjer for hvordan folk strukturerer svarene sine, for eksempel ved å gi steg-for-steg-guider og være detaljfokusert.