Brondata
Zowel bij het Kadaster als bij veel ontwikkelingen om ons heen (Denk aan Common Ground en DiS-Geo) erkennen we dat het belangrijk is dat we Data bij de bron als belangrijk uitgangspunt hanteren. Dit wordt expliciet benoemd in de Datastrategie voor het Kadaster. Maar wat betekent dat?
Data bij de bron
- Data wordt zo dicht mogelijk uit de bron beschikbaar gesteld.
- Er zijn geen onnodige kopiëen.
- De actualiteit van data is hierdoor (near) real-time.
Het gebruik van de bron is in discussies vaak ambivalent. Immers, de bron kan betekenen:
- Data rechtstreeks bij de absolute bron (bijvoorbeeld voor de BAG het gemeentelijke systeem waar deze wordt ingevoerd).
- Data rechtstreeks bij de Landelijke Voorziening.
- Data in een centrale informatie voorziening welke verantwoordelijk is voor de levering van data (zoals Datahub, PDOK).
Voor de Kadaster Knowledge Graph komt ‘data bij de bron’ het meest overeen met optie 3. Hierbij worden alle data die getransformeerd zijn naar linked data bij voorkeur benaderd in DataHub en, indien (nog) niet beschikbaar in de DataHub, opgehaald uit PDOK. De DataHUB is de centrale data voorziening voor Kadaster en is toegankelijk voor deze use case via Azure’s Databricks. Mochten de gegevens niet beschikbaar zijn in datahub, dan is een voorbereidingsproces gedefinieerd om de informatie uit PDOK te halen. Dit wordt in de volgende sectie beschreven.
- DataHub: De DataHub als dienst binnen Kadaster kopieert bron data naar een DataHub catalog in Databricks. Zodra de bron beschikbaar is in een Databricks catalog, het is mogelijk om de generatie workflow op deze bron uitvoeren.
- PDOK + Databricks: Als de gegevens nog niet beschikbaar zijn in Databricks, worden de gegevens vanuit de bron in PDOK in een Databricks catalog geladen. Deze tweede optie creëert meer afstand tot de broninformatie vergeleken met de eerste optie en blijft daarom een tussenoplossing.
Beide benaderingen worden hier uitgebreider uitgelegd.
Bronnen
De onderstaande tabel geeft een overzicht van alle bronnen die zijn gebruikt bij het genereren van de KKG en bevat informatie over de bron van de gegevens.
Registratie | Bron | Type bestand | URL |
---|---|---|---|
Basisregistratie Adressen en Gebouwen (BAG) | Databricks DataHUB catalog | Unity catalog table | |
Basisregistratie Grootschalige Topografie (BGT) | PDOK | GML | PDOK API |
Bestuurlijkge gebieden (BG) | Databricks DataHUB catalog | Unity catalog table | |
Basisregistratie Topografie (BRT) | Databricks DataHUB catalog | Unity catalog table | |
Basisregistratie Kadaster - Publiekrechtelijke Beperkingen (BRK-PB) | PDOK | GPKG | PDOK Service |
Digitale Kadastrale Kaart (DKK) | PDOK | GML | PDOK API |
CBS Wijk- en buurtcijfers (CBS) | PDOK | GPKG | PDOK Service |
Nationaal Wegen Bestand (NWB) | PDOK | GPKG | PDOK Service |