Threshold analyse#
Data combineren#
Er is een gecombineerde dataset gemaakt door de afgeronde meldingen en de doorgestuurde meldingen samen te voegen. Hieronder zijn enkele terugmeldingen te zien:
| meldingsnummer | omschrijving | registratie | doorgestuurd_van_registratie | |
|---|---|---|---|---|
| 0 | 621 | Hier is de tramhalte vernieuwd. Er is een extra spoor bijgekomen. | BGT | NaN |
| 1 | 622 | Geen BAG object is fietsenhok. Heeft wel een BAG id | BGT | NaN |
| 2 | 623 | Geometrie klopt niet. | BGT | NaN |
| 3 | 624 | Voetpad ontbreekt. Overkant straat staat voetpad wel op kaart | BGT | NaN |
| 4 | 625 | Verdrijvingsvlak niet aanwezig | BGT | NaN |
| ... | ... | ... | ... | ... |
| 155821 | 173501 | Adressen 9 en 11 staan verkeerd om | BAG | BGT |
| 155822 | 173547 | De oppervlakte van onze woning komt niet overeen met de werkelijke bouw. zie bijgevoegde tekening. Zie de bouwtekening 2021. Het betreft Fort Vurenstraat 31. | BAG | BGT |
| 155823 | 173548 | BGT: Verbouwing is nagenoeg gereed; kan dit opnieuw ingetekend worden? | BGT | BAG |
| 155824 | 173688 | Jaddanbaikade 3, Amsterdam. Op streetsmart is te zien dat het gebouw al staat, hij mist alleen nog op de kaart. Graag inmeten. | BAG | BGT |
| 155825 | 173783 | BGT klopt hier niet, landbouwgrond is gewijzigd in waterpartijen (zie foto & top-kaart). Deels bronhouder gemeente Cranendonck, grootste deel is Min. EZ de bronhouder. Graag aanpassen of mogen wij (gemeente Cranendonck) dit doen ? | BGT | BRT |
155826 rows × 4 columns
Threshold analyse op basis van voorspelmodel#
80% van de dataset is gebruikt om een Random Forest model mee te trainen. Dit model voorspelt op basis van de omschrijving van de melding op welke registratie de terugmelding wordt gedaan. 20% van de dataset is gebruikt om het model op te testen. Voor elke terugmelding in deze testset is bepaald wat de waarschijnlijkheid (probability) is dat de melding bij een registratie (BAG, BGT of BRT) hoort. De registratie met de hoogste waarschijnlijkheid is de voorspelde registratie van de terugmelding.
In de grafiek “Aantal voorspeld ≥ threshold per threshold per registratie” is te zien dat de meeste terugmeldingen voorspeld worden op de BAG en de minste op de BRT. Dit komt overeen met de daadwerkelijke registraties waarop een terugmelding is gedaan. Van de 152.371 terugmeldingen zijn 88.790 terugmeldingen op de BAG (58,3%), 56.094 op de BGT (36,8%) en 7.487 op de BRT gedaan (4,9%).
Voorbeeld: “15.000 terugmeldingen worden op de BAG voorspeld bij een waarschijnlijkheidsdrempel van 75%.”
In de grafiek “Percentage voorspeld ≥ threshold t.o.v. totaal per threshold per registratie” is te zien hoeveel procent van de terugmeldingen op een registratie is voorspeld met een bepaalde waarschijnlijkheidsscore. De lijn van de BAG ligt het hoogste, gevolgd door de BGT en daarna de BRT. De voorspellingen die op de BAG zijn gedaan hebben dus over het algemeen een hogere waarschijnlijkheidsscore dan voorspellingen die op de BGT en BRT zijn gedaan. Een reden hiervoor zou kunnen zijn dat terugmeldingen op de BAG goed te herkennen zijn op basis van de omschrijving en bovendien relatief veel voorkomen. Het model kan hierdoor goed leren hoe een terugmelding op de BAG eruitziet. Voor de BRT zijn er weinig terugmeldingen, waardoor het model hier minder goed in is en het percentage voorspellingen met een hoge waarschijnlijkheid lager ligt.
Voorbeeld: “80% van de terugmeldingen die op de BAG worden voorspeld hebben een waarschijnlijkheidsdrempel van 76%.”
In de grafiek “Aantal foute voorspellingen per threshold per registratie” valt op dat de lijn van de BGT het hoogste ligt, gevolgd door de BAG en daarna de BRT. Hoewel de meeste terugmeldingen op de BAG worden voorspeld en daarna op de BGT, laat deze grafiek zien dat in verhouding tot het aantal voorspellingen het model meer fouten maakt bij de BGT dan bij de BAG.
Voorbeeld: “Van de 15.000 voorspellingen op de BAG worden 200 terugmeldingen (1.3%) verkeerd voorspeld bij een waarschijnlijkheidsdrempel van 75%.”
In de grafiek “Foutpercentage per threshold per registratie” is te zien dat het foutpercentage daalt naarmate de waarschijnlijkheidsdrempel hoger wordt. Dat is logisch, aangezien bij een hogere waarschijnlijkheidsdrempel alleen voorspellingen met hoge zekerheid worden meegenomen. Zoals ook uit de vorige grafiek bleek, ligt het foutpercentage bij de BGT hoger dan bij de BAG. Wat daar nog niet duidelijk zichtbaar was, is dat de BRT het hoogste foutpercentage heeft. Bij de BRT daalt het foutpercentage pas sterk na een waarschijnlijkheidsdrempel van 96%.
Voorbeeld: “4% van de voorspelde terugmeldingen op de BGT wordt verkeerd voorspeld bij een waarschijnlijkheidsdrempel van 78%.”
De stippellijnen in de grafiek geven het menselijke foutpercentage weer en kunnen als referentiewaarden worden beschouwd. Zo is te zien dat 0,69% van de terugmeldingen die op de BAG zijn gedaan is doorgestuurd naar een andere registratie, omdat deze bijvoorbeeld ten onrechte op de BAG zijn gemeld. Het foutpercentage bij de BGT ligt een stuk hoger, namelijk 5,81%. Uit een eerdere data-analyse van de terugmeldingen bleek dat van de 4.023 doorgestuurde terugmeldingen er 3.102 (77%) van de BGT afkomstig waren. Het kwam regelmatig voor dat een terugmelding van de BGT naar de BAG werd doorgestuurd, maar uiteindelijk op beide registraties werd afgerond. Je zou je dus kunnen afvragen of dit in alle gevallen daadwerkelijk als ‘fout’ moet worden beschouwd.
Wanneer de lijnen van het model de stippellijnen kruisen en daaronder komen te liggen, betekent dit dat het AI-model boven die probability threshold betere voorspellingen doet en dus minder fouten maakt dan het huidige systeem.
Voor BGT ligt dit omslagpunt al vóór de probability threshold van 70%. Voor een hoge gebruikersacceptatie van AI-suggesties kan het Generieke Geo Services team ervoor kiezen om bij introductie van AI een hogere probability threshold in te stellen (bijvoorbeeld 95%). Hierdoor is minder dan 2% van alle AI-suggesties voor de BGT foutief. In zo’n geval zou voor 3.698 terugmeldingen een AI-voorstel voor BGT aangeboden worden.
Voor BAG ligt het omslagpunt rond een probability threshold van 83%. Het foutpercentage is op dit punt slechts 0,68%. Voor 13.309 terugmeldingen zouden AI-suggesties voor de BAG worden gedaan.
Voor BRT ligt het omslagpunt pas bij een probability threshold van ongeveer 96%. Onder deze drempel maakt het model relatief meer fouten dan het huidige systeem, maar bij een probability threshold van 97% is minder dan 1% van alle AI-suggesties voor de BRT foutief. In zo’n geval wordt voor 237 terugmeldingen een AI-voorstel voor BRT aangeboden.
Voorspellingen op doorgestuurde meldingen#
Er zitten 833 doorgestuurde meldingen in de testset. 540 hiervan (64.8%) worden door het model wel goed voorspeld, op de registratie waarnaar de terugmelding is doorgestuurd. Hieronder zijn een aantal terugmeldingen te zien die zijn voorspeld op de registratie waar de terugmelding naar is doorgestuurd.
| meldingsnummer | omschrijving | registratie | doorgestuurd_van_registratie | voorspelling | BAG | BGT | BRT | |
|---|---|---|---|---|---|---|---|---|
| 153790 | 86797 | Nieuwe skatebaan | BGT | BRT | BGT | 0.002640 | 0.952087 | 0.045273 |
| 155648 | 168733 | Geometrie van dit pand onjuist. Oostgevel zou ca. 4m. naar het westen moeten worden verplaatst. | BAG | BGT | BAG | 0.655604 | 0.316440 | 0.027956 |
| 152627 | 36541 | Deze openbare ruimte moet Lange Wateringkade te Kwintsheul zijn i.p.v. Hoenderparklaan te Kwintsheul. Zie ook interne terugmelding. | BAG | BGT | BAG | 0.671838 | 0.247247 | 0.080915 |
| 151856 | 5098 | Straatnamen komen niet overeen met adresgegevens BAG panden. Op meerdere plekken in de wijk klopt het kaartproduct niet. | BRT | BGT | BRT | 0.217852 | 0.124831 | 0.657317 |
| 153786 | 86655 | Noem dit locatie C. Er loopt een voetpad naar locatie D. Zie luchtfoto en BGT. | BRT | BGT | BRT | 0.000000 | 0.000000 | 1.000000 |
Van de 293 terugmeldingen die verkeerd worden voorspeld worden 271 terugmeldingen (92.5%) voorspeld op de oorspronkelijk gemelde registratie. Een verklaring hiervoor zou kunnen zijn dat een aanpassing nodig is geweest op zowel de oorspronkelijke registratie als op de registratie naar waar doorgestuurd is. Hieronder zijn een aantal terugmeldingen te zien die zijn voorspeld op de oorspronkelijk gemelde registratie.
| omschrijving | registratie | doorgestuurd_van_registratie | voorspelling | BAG | BGT | BRT | |
|---|---|---|---|---|---|---|---|
| 155145 | Nieuw POP-station | BAG | BGT | BGT | 0.352195 | 0.647805 | 0.000000 |
| 152062 | Uitbouw Burg. Adelaarstraat 2 en 8 staan nog niet op BGT. Halve schuurtje achter nr 8 gesloopt; gedeelte achter nr. 10 staat er nog | BAG | BGT | BGT | 0.326192 | 0.631911 | 0.041898 |
| 152585 | Bebouwing Huis nr. 37 en 39 verkeerd op de kaart. | BAG | BGT | BGT | 0.230008 | 0.726253 | 0.043739 |
| 153291 | De schuurtjes van alle buren staan als bijgebouw op de kaart, ons schuurtje echter niet. Zie luchtfoto voor de contouren. | BAG | BGT | BGT | 0.446556 | 0.447835 | 0.105609 |
| 155708 | Oppervlakte 152 moet worden: 165. De aanbouw is niet opgenomen in de geometrie. Mogelijk is het aantal m2 nu ook onjuist.. | BGT | BAG | BAG | 0.795808 | 0.201136 | 0.003056 |
De grafiek hieronder laat zien hoeveel doorgestuurde meldingen een AI-voorstel krijgen per registratie bij verschillende thresholds. Bij een threshold van 0,83 voor de BAG krijgen 142 meldingen een AI-voorstel. Dit is 37,9% van de voorspellingen op de BAG en 17% van alle doorgestuurde meldingen in de testset. Bij een threshold van 0,95 voor de BGT krijgen 26 meldingen een AI-voorstel. Dit is 7,2% van de voorspellingen op de BGT en 3,1% van alle doorgestuurde meldingen in de testset. Bij een threshold van 0,97 voor de BRT krijgen 15 meldingen een AI-voorstel. Dit is 15,2% van de voorspellingen op de BRT en 1,8% van alle doorgestuurde meldingen in de testset.
In de grafiek “Aantal foute AI-voorstellen per threshold per registratie” is te zien dat met name de BGT verkeerd wordt voorspeld. We zagen al eerder dat een deel van de doorgestuurde meldingen ook op de oorspronkelijke registratie zijn afgerond met aanpassing. Er is bijvoorbeeld een terugmelding gedaan op de BGT, maar het object waar het over gaat staat ook nog niet in de BAG, dus het wordt doorgestuurd naar de BAG, maar op beide registraties wordt een aanpassing gedaan.
In de grafiek “Aantal foute voorspellingen per threshold per registratie” onder het kopje “Threshold analyse op basis van voorspelmodel” is te zien hoeveel nieuwe fouten per registratie worden geïntroduceerd bij verschillende thresholds. Voor de gekozen thresholds van 0,83 voor de BAG, 0,95 voor de BGT en 0,97 voor de BRT zijn dat respectievelijk 91, 69 en 2 fouten, in totaal dus 162. In de grafiek “Aantal correcte AI-voorstellen per threshold per registratie” hieronder is te zien hoeveel doorgestuurde meldingen terecht een AI-voorstel hebben gekregen. Bij dezelfde threshold waardes zijn dat 128 (BAG), 18 (BGT) en 15 (BRT) opgeloste ‘fouten’, in totaal 161. Voor de BAG en BRT worden daarmee meer fouten opgelost dan nieuwe fouten geïntroduceerd. Voor de BGT is dat niet het geval, maar zoals hierboven geconstateerd, wordt 92,5% van de verkeerd voorspelde meldingen toegekend aan de oorspronkelijk gemelde registratie, waardoor slechts 7,5% van de verkeerd voorspelde meldingen daadwerkelijk aan een andere registratie wordt toegekend dan oorspronkelijk gemeld.