Kadaster ― Metadata 2.0

Kadaster Data Science Team (https://labs.kadaster.nl)

Agenda

  1. Probleem
  2. Wat willen we?
  3. Ervaren & Laten zien ― Wat kunnen we?
  4. Advies

Maak kennis met Gerwin

Gerwin gaat een app maken over woningen en kerken.

Gerwin is Software Engineer (en net zoals 99% van de SE geen geo achtergrond).

Gerwin heeft data nodig…

Waar gaat Gerwin als eerste zoeken?

  1. Nationaal Georegister
  2. European Data Portaal
  3. Google Dataset Search
  4. Data.overheid.nl
  5. Google/Bing
  6. Iets anders

Wat gaat Gerwin zoeken?

  1. De BAG (natuurlijk)
  2. Verblijfsobjecten / Panden
  3. Huizen / Woningen / Gebouwen
  4. Bouwjaren / Status

Maak kennis met Elvira

Elvira weet niks van IT, maar is wel geïnteresseerd in de officiële informatie over haar huis, dichtstbijzijnde scholen, kerken, etc.

Waar zal Elvira gaan zoeken naar informatie over haar huis?

Mijn frustratie

Waarom spenderen we 100% van de tijd om metadata op orde te krijgen voor het “last resort”???

Waarom doen we niks? Interesseert ons de gebruiker niks?

“De opdrachtgevers vinden het niet belangrijk.”

Hoort dit niet gewoon bij service publiceren van data?

Er is sense of urgency: op het web is de eerste vaak uiteindelijk de enige…

Wat willen we?

De kwaliteit van metadata moet omhoog!

3 Doelen

  1. Vindbaarheid
  2. Bruikbaarheid (fitness for use)
  3. Samenstellen KG

3 Niveaus

  1. Dataset
  2. Model
  3. Instantie

Experiment Data Science Team

Knip tussen ability en result

Result is ook afhankelijk van:

  • Het woord (“moskee” of “mosselbank”)
  • Betrouwbaarheid website (labs.kadaster.nl of kadaster.nl)
  • Dominantie marktpartij (betaald)
  • Tijd…

Dus Ability is nu belangrijker dan Result!

Ervaren & Laten Zien

Wat kunnen we… in drie delen:

  • Huidige situatie ervaren
  • Metadata die google ziet?
  • Resultaten so far…

Huidige situatie NGR

  • Basisregistratie Adressen en Gebouwen
  • Bouwjaar panden
  • Oppervlakte gebouwen

6 proeven

A. DatasetB. ModelC. Instanties
1. Vindbaarheid1A. Dataset metadata1B. Model metadata1C. Instantie metadata
2. Kwaliteit (fitness for use)2A. Dataset kwaliteit2B. Model kwaliteit2C. Instantie kwaliteit
3. Knowledge Graph
Uitgevoerd door het Kadaster Data Science team.

1A. Dataset metadata voor vindbaarheid

De-facto standaarden

1A. Dataset metadata die Google ziet: NGR

1A. Dataset metadata die Google ziet: Labs

1A. Dataset metadata in sociale media

Plak URL https://data.labs.kadaster.nl/bag/lv in Twitter.

1A. Dataset metadata in zoekmachines

Pas op! Tussentijdse resultaten!! ;-)

1B. Model metadata die Google ziet

1B. Model metadata in sociale media

Plak URL https://data.labs.kadaster.nl/kadaster/bag-vocab/def/Pand in Twitter.

1B. Model metadata in zoekmachines

Pas op! Tussentijdse resultaten!! ;-)

1C. Instantie metadata voor vindbaarheid

Open standaarden

  • RDF
  • RDFS
  • OWL
  • SKOS
  • SHACL

De-facto standaarden

1C. Instantie metadata voor vindbaarheid

BAG instanties lastig te vinden:

  • Huisnummer zit op nummeraanduiding…
  • Straatnaam zit op openbare ruimte…
  • Plaatsnaam zit op woonplaats…
  • Geometrie volgens OGC/GIS standaarden…

Zoekmachines prefereren eenvoud:

  • Alle eigenschappen waar mensen op zoeken zijn verbonden aan 1 object.
  • Eenvoudige geometrie.
  • Maar, well gelinked met de gedetailleerde BAG objecten (prov:wasDerivedFrom).

1C. Instantie metadata voor vindbaarheid

Schema.org beschrijvingen worden automatisch aangemaakt o.b.v. de officiële KDP versie.

1C. Instantie metadata: Labs

Google-first BAG: simpele, maar correcte, samenvatting van de BAG.

1C. Instantie metadata die Google ziet: PDOK

1C. Instanties vindbaar in Google Search

Pas op! Tussentijdse resultaten!! ;-)

1C. Instantie metadata in sociale media

KDP versie

KDP versie binnen Labs

Labs versie

2A. Dataset kwaliteit

2B. Model kwaliteit

“Amsterdamse panden hebben soms bouwjaar 1005.”

Annotatie op type niveau: bijv. pand

Annotatie op eigenschap niveau: bijv. bouwjaar

2C. Instantie kwaliteit

Alle Amsterdamse panden met bouwjaar 1005.

Bereikte resultaten

  • Verbeterde metadata publicatie voor datasets, model, en instanties.
  • Verbeterde indexeerbaarheid voor datasets, model, en instanties.
  • Verbeterde kwaliteits annotaties voor datasets, model, en instanties.
  • Verbeterde deelbaarheid op sociale media.

En als we hiermee verder gaan

  • Verbeterde vindbaarheid van datasets in Google Dataset Search.
  • Verbeterde vindbaarheid van model en instanties in Google Search.
  • Verbeterd hergebruik door kwaliteits annotaties/

Advies

  • De standaard “geo-ogc” weg is niet de oplossing: attitude: “We can do it better than google. We are going to beat google…” (wrong. If you can’t beat them, join them)
  • Je ziet dat kwartje bij data.overheid.nl wel gevallen is (op dataset niveau/vindbaarheid). Maar zouden we dat niet zelf willen doen?
  • Je kunt dit stap voor stap aanpakken.

Adviestabel


A. DatasetB. ModelC. Instanties
1. Vindbaarheid1A. handmatig; quick-win; high-impact1B. automatische transformatie; kleinschalig1C. automatische transformatie; grootschalig
2. Kwaliteit (fitness for use)2A. handmatig2B. handmatig2C. kleinschalig en handmatig óf grootschalig o.b.v. regels
3. Knowledge Graph

Advies o.b.v. tabel

  1. Quick win: Dataset niveau in NGR: onze ruwe inschatting 120 uur werk.
  2. PMs: PDOK/KDP overtuigen: het is ‘basis’
  3. Niet alleen focussen op vindbaarheid, maar ook op kwaliteit en knowledge graph.

Toetje: Voice Assistants

Alle in deze presentatie getoonde datasets, modellen, en instanties hebben ook speakable metadata.

Maar nog even wachten…

Dank voor Uw aandacht!

Kadaster Data Science Team (https://labs.kadaster.nl)