ChatGPT scoort op kennis ... en empathie

In november van vorig jaar werd ChatGPT op het internet geplaatst. Het systeem is gratis en had vanaf de eerste twee maanden honderd miljoen abonnees. Een storm van commentaren raasde over het web, ook vanuit medische hoek.

...

Als je een ingenieur vraagt te omschrijven wat ChatGPT is, word je algauw overdonderd door een jargon waar je als simpele arts geen touw aan kan vastknopen. Dan maar de omschrijving die een medische nieuwssite vermeldt (vrij vertaald): "ChatGPT is een chatbot die wordt aangestuurd door artificiële intelligentie en een gesprek tussen mensen kan nabootsen." (1)Neem nu het artikel hiertegenover. U tikt de volgende vraag in: 'Waarom worden mitochondria alleen door de moeder overgedragen?' In een tijdspanne van een twintigtal seconden genereert ChatGPT een synthese van zowat een getypte pagina, die overeenstemt met wat te lezen staat in de artikels opgeleverd door een Google-search - dat is althans de perceptie van een gebruiker die niet iedere dag met mitochondriën bezig is. Als een machine zoiets kan, gaan sommigen zoeken naar de zwakke punten ervan - dat is des mensen. En die zwakke punten bestaan. ChatGPT blijkt wel eens onzin uit te kramen. En op de vraag naar een bespreking van een recent boek (gesteld op 19 mei jongstleden) moest ChatGPT deemoedig antwoorden dat zijn kennis maar tot 2021 strekt. De vraag rijst dus hoe vers de aangeleverde informatie is. Maar goed, als leek kunnen we er in onze onkundige onbezorgdheid van uitgaan dat updates een anekdotisch gegeven zijn naast het verbijsterende potentieel van dit systeem. Zei u: een gesprek onder mensen nabootsen? Een team van artsen en informatici trok het na.(2) Uit het platform Reddit's r/AskDocs haalden de onderzoekers 195 vragen rond gezondheid die gebruikers in december 2022 hadden gesteld, alsook de antwoorden die een arts daarop schriftelijk gaf. Ze legden die 195 zelfde vragen voor aan ChatGPT in een nieuwe sessie. De antwoorden van de arts en die van ChatGPT werden geblindeerd en in gerandomiseerde volgorde gepresenteerd aan een panel van zorgverleners. Het panel evalueerde zowel de kwaliteit als het empathisch gehalte van de informatie op een vijfpuntenschaal. Resultaat: ChatGPT scoorde significant beter dan de corresponderende arts, zowel op kwaliteit als op empathie (telkens met een p < 0,001). Het percentage hoge scores (4 of 5) lag gevoelig hoger voor de chatbot dan voor de arts, zowel voor kwaliteit (78,5% versus 22,1%) als voor empathie (45,1% versus 4,6%). Heuglijk nieuws is dit wel: het betekent dat systemen als ChatGPT op termijn in de dagelijkse praktijk kunnen worden ingezet om vragen van patiënten te beantwoorden, terwijl de arts zich met complexere activiteiten bezighoudt. Het zou dan volstaan dat de arts de antwoorden even herleest.