De Zevende Brief is echt van Plato (maar niet helemaal) (3)

[Dit is het derde van acht door Marco Folpmers geschreven blogjes over de mogelijkheid met artificiële intelligentie Plato’s Zevende Brief te analyseren. Het eerste was hier en we moeten het eens hebben over statistische classificatiemodellen en hun prestaties. Maar eerst een woord over bankieren.]

We moeten het eerst eens hebben over banken. Voor banken is het essentieel om een inschatting te kunnen maken of ze hun verstrekte leningen terugbetaald krijgen of niet. Daarom maken banken voor elke individuele klant (zowel voor bedrijven als voor u en mij) een inschatting van de kans op wanbetaling, vaak aangeduid met de Engelse term “Probability of Default” of PD. Is vastgesteld dat bij een kredietaanvraag iemands PD te hoog is, dan krijgt deze persoon de lening niet, of alleen tegen een hoge rente, of na het verstrekken van voldoende onderpand. Maar aangezien elke lening wel enig risico heeft (de PD is nooit nul) en deze PD’s ook in de tijd kunnen veranderen, nemen banken aanvullende maatregelen. De belangrijkste is dat ze kapitaal aanhouden als buffer om verwachte en onverwachte verliezen op te vangen.

Banken berekenen voor elke klant de PD door een statistisch model toe te passen. Dit model is eerder ontwikkeld aan de hand van historische data. In historische data heb je namelijk het profijt van “kennis achteraf”. Je weet wie er in wanbetaling is gegaan (vaak gedefinieerd als achterstanden die meer dan negentig dagen zijn opgelopen). Er wordt dus eerst data verzameld met mogelijke verklarende variabelen alsmede de te verklaren variabele: in wanbetaling wel/niet geraakt.

De verklarende variabelen zijn vaak gerelateerd aan gedrag uit het verleden, persoonlijke kenmerken (inkomen, leeftijd, gezinssituatie…) en kenmerken van de lening en het onderpand. Met behulp van deze data kan een statistisch model ontwikkeld worden dat tegenwoordig met een hoge mate van betrouwbaarheid kunnen verklaring waarom een klant in wanbetaling is gegaan. Zo ontstaan modellen die zoiets ook kunnen voorspellen.

Dit soort modellen kunnen we ook bij andere vragen toepassen. Natuurlijk willen we weten hoe goed zo’n statistisch model het fenomeen verklaart. Is het accuraat, is de voorspelling vaak goed? In dit kader is de confusion matrix van belang (zie de tabel hieronder). Deze vat samen hoe vaak de voorspelling overeenkomt met de werkelijkheid.

In dit soort analyses staat “positief” altijd voor het positief zijn van het te verklaren kenmerk. Het refereert dus in ons bancaire voorbeeld aan een wanbetaling. Dat is even een gedachtesprong omdat vaak de fenomenen zelf (vooral ook bij medische toepassingen) helemaal geen positieve ervaring uitdrukt!

Werkelijkheid\Voorspelling	Positief (wanbetaling)	Negatief (geen wanbetaling)
Positief (wanbetaling)	Echt positief	Vals negatief
Negatief (geen wanbetaling)	Vals positief	Echt negatief

De aantallen die we tellen in deze confusion matrix zijn bepalend voor onze evaluatie of het model het “goed doet”. Stel nu dat we een model hebben ontwikkeld met behulp van 100 historische observaties en het statistische model levert de prestatie op zoals samengevat in de volgende tabel.

Werkelijkheid\Voorspelling	Positief (wanbetaling)	Negatief (geen wanbetaling)	Totaal
Positief (wanbetaling)	8	2	10
Negatief (geen wanbetaling)	5	85	90
Totaal	13	87	100

De accuratesse van het model (hoe vaak goed) is gelijk aan (8+85)/100 = 93%. Vaak willen we meer weten, met name hoe vaak het model een observatie als positief identificeert als het ook echt positief is? Die kans is in dit voorbeeld 8/10 = 80%. Deze statistiek heet de sensitiviteit. Je kunt een model instrueren om met name deze statistiek te optimaliseren. Maar dan kun je in de valkuil terecht komen dat het model alle observaties als positief gaat identificeren. Je wil dus dat het model ook voldoende specifiek is. In ons voorbeeld is deze statistiek 85/90=94.4%.

Er zijn veel meer prestatiestatistieken te berekenen maar dit zijn de voornaamste: accuratesse, sensitiviteit en specificiteit. Wat echter gemeen is aan al deze statistieken is dat het model beter presteert als in de confusion matrix zoveel mogelijk observaties op de hoofddiagonaal liggen.

Die diagonaal is dus vaak het eerste waar statistici en modelleurs naar kijken.

[Dit was het derde van acht door Marco Folpmers geschreven blogjes over de mogelijkheid met artificiële intelligentie Plato’s Zevende Brief te analyseren. Wordt vervolgd. Dank je wel Marco!]