Het belang van schone data
Sinds dit jaar heeft bijna elke provincie een datawerkplaats. De datawerkplaatsen zijn een initiatief van het Netwerk Digitaal Erfgoed en zijn ondergebracht bij de provinciale erfgoedhuizen. De datawerkplaats Noord-Brabant geeft advies over het opschonen en verrijken van collectiegegevens. Hiervoor is het belangrijk om de data van de Brabantse collectiebeherende instellingen ook in kaart te brengen, een zogenaamde datascan.
Schone data betekent dat er geen vervuiling optreedt. Het gaat dan bijvoorbeeld om verschillende benamingen van hetzelfde onderwerp, fouten of velden die op een verschillende manier gebruikt worden. Met schone data wordt het eenvoudiger om je collectie efficiënt te registreren en doorzoeken. Het gebruik van termenlijsten is een hulpmiddel bij het goed invoeren van je collectie.
Vervuilde data in het veld afmetingen. (Bron: Erfgoed Brabant)
Een datascan is een methode om inzicht te krijgen in de kwaliteit van je collectiegegevens. Met een datascan kun je verschillende zaken onderzoeken en lokaliseren.
- Spelfouten en inconsistenties in je registratie.
- Lege of verkeerd ingevulde velden.
- Semantische onzuiverheden (bijvoorbeeld “bruin glas” vs. “glazen, bruin”).
- Kansen om je huidige registratie te verrijken aan de hand van termen.
Wat zijn duurzame identifiers?
Duurzame identifiers zijn unieke, duurzame referenties die worden toegekend aan digitale records, zoals beschrijvingen van objecten, documenten of afbeeldingen. Een duurzame identifier werkt als een soort ‘adres’ op het internet dat altijd naar hetzelfde record verwijst, zelfs als de plek waar de informatie wordt bewaard in de toekomst verandert. Een duurzame identifier is eigenlijk vergelijkbaar met het ISBN-nummer van een boek, het zorgt ervoor dat je altijd bij de juiste informatie uitkomt. Het is een onveranderlijk webadres dat altijd naar hetzelfde stukje informatie verwijst.
Er zijn diverse systemen die duurzame identifiers aanbieden, en één van hen is de ARK Alliance. Dit systeem is gratis, relatief eenvoudig te implementeren en flexibel inzetbaar voor diverse soorten collecties en verhalen. Bovendien zijn er al meer dan 1700 instellingen over de hele wereld die gebruik maken van de ARK Alliance, waaronder het Louvre en FamilySearch. Daarom heeft Brabant Cloud de ARK Alliance opgenomen in de duurzame identifier-strategie, die we de afgelopen jaren opgesteld hebben.
Zelf een datascan maken
Wij vinden het belangrijk dat instellingen deze vaardigheden ook zelf onder de knie krijgen. Zo leren ze hun collectie beter kennen, en kunnen ze er zelf voor zorgen dat ze schone data hebben.
Voor het maken van een datascan kun je een analyse doen via Memorix Maior. Zelf gebruiken wij het programma OpenRefine. Dit is gratis open-source software waarmee data kan worden geanalyseerd en opgeschoond. Het programma draait lokaal op je harde schijf en je data wordt dus niet blootgesteld aan derden. Daarnaast werk je met een kopie van je gegevens (een export van Memorix Maior). De brondata binnen Memorix Maior lopen dus geen risico.
In OpenRefine kun je eenvoudig een overzicht maken van alle waarden die in een bepaald veld zijn ingevuld. Wanneer je deze waarden alfabetisch sorteert, zie je snel welke waarden dubbel voorkomen. Ook kun je eenvoudig zien welke waarde vaak, of juist minder vaak voorkomt. Het kan waardevol zijn om te kijken of de weinig voorkomende waarden misschien onder een andere waarde passen, of helemaal overbodig zijn.
Verder kan OpenRefine dienen om te analyseren hoe vaak een specifiek veld ingevuld is binnen je collectieregistratie. Zijn er records waar essentiële velden niet zijn ingevuld? Of zijn er juist records waar een veld is ingevuld, dat niet ingevuld hoort te zijn?
Wanneer je een beeld hebt van de hiaten en fouten in je collectie, maakt het het eenvoudiger om deze collectie op te schonen. En een schone collectie, leidt tot beter vindbare data en maakt het invoeren een stuk eenvoudiger.
Handige links en documenten
- De helptekst Exporteren uit Memorix Maior. Hier lees je hoe je een export uit Memorix Maior maakt. Deze export kun je gebruiken om in te laden in OpenRefine.
- OpenRefine downloadt je via de pagina van Digitaal Erfgoed Coach Online van het NDE.
- De helptekst Termenlijsten. Hier vind je informatie over wat termenlijsten zijn.
- De helptekst Aan de slag met termen en termenlijsten. Hier vind je een uitleg van de verschillende termenlijsten die gebruik worden binnen Memorix Maior.
- In de Helptekst Het belang van kwalitatief goede data vind je een overzicht van pagina’s en helpteksten die je kunnen ondersteunen bij het realiseren van schone data.
- Bij het Termennetwerk vind je alle termenlijsten die door het NDE worden aangeboden.
- In de handleiding OpenRefine van Kubus vind je een basiscursus in het gebruik van OpenRefine.
- Om instellingen te ondersteunen in het opschonen van hun data organiseert Erfgoed Brabant regelmatig inklopdagen. In het verslag van de laatste inklopdag zie je hoe een inklopdag eraan toe gaat en wat je er kunt leren.