Fördjupning: Några rader om ”kulturarvets masterdata”

Henrik Summanen

En av de stora knäckfrågorna när det gäller digital kulturarvsinformation är de så kallade auktoriteterna. Eller, uttryckt med ett annat ord, kulturarvets masterdata. Detta är termer som kan behöva lite förklaring. Inom de flesta sektorer finns det information som används av väldigt många aktörer. Det kan handla om listor över hammarmodeller för verkstadsmekaniker, om listor över djurarter för biologer, eller listor över människor för historiker och arkivarier. Dessa listor har funnits i analog form i många av de databaser som byggts upp på olika institutioner, eftersom man har haft ett behov av att hålla reda på att man refererar till samma typ av objekt.

Nu när de digitala nätverken via internet öppnar upp institutionernas data för omvärlden uppstår således problem. Eftersom detta handlar om data som är användbar för många olika aktörer, så finns det också många register med historiska gubbar, och många förvaltare av samma information. Hur ska vi göra för att på ett så enkelt och effektivt sätt som möjligt hantera dessa ”huvudposter” inom kulturarvsvärlden?

Detta var faktiskt en av huvudfrågeställningarna som det uppdrogs till DIGISAM att utreda, när sekretariatet tillsattes för ett antal år sedan. DIGISAM skapade projektet DISKA som skulle kunna ge ett svar på problemet. Den 11/2 2014 hade DISKA sitt slutseminarium och redovisade vad de har gjort, tillsammans med andra aktörer inom samma område.

I DISKA har man dels inventerat vilka informationsmängder som finns på institutionerna. Dels valt ut några av dessa för att skapa en representation av objekten som Länkade Öppna Data. Urvalet handlade om historiska personer från olika institutioner, och personerna hade haft lite olika roller – t.ex. insamlare eller arkitekter. Man konstaterar att det fortfarande förstås är den förvaltande institutionen som har ansvar för sina respektive personer. Poängen med DISKA-projektet är att de nu även är länkbara med unika identiteter.

Även Kultur-IT:s projekt KulturNav presenterade en liknande lösning, där institutioner ges möjlighet att ”ladda upp” sina dataset för att användas av andra. MetaSolutions berättade om sin tjänst LODify som skapar Länkade data av dataset. Sedan fick vi också höra lite från Wikimedias André Costa angående Wikipedias arbete med framför allt WikiData.

Det är viktigt att dessa frågor lyfts fram, och det är väldigt viktigt att institutionerna publicerar sina vokabulär så att man kan länka till dem. Det måste jag säga först, för nu kommer ett antal funderingar kring vad som händer när man publicerar vokabulär på det här sättet.

För det första: Det har inte förekommit någon diskussion kring ansvar i frågan om digitala auktoriteter. Alla tjänster som presenterats hanterar möjligheter att lägga upp vokabulär. Både inom KulturNav och inom DISKA så handlar detta om att man lägger sina listor sida vid sida. Detta löser givetvis inga problem. Det är först när det utkristalliserar sig en aktör som är villig att ta på sig ett större ansvar än enbart de entiteter som är relevanta för den egna verksamheten som det uppstår magi.

För det andra: Det har inte förekommit någon diskussion kring vad som händer när man börjar länka ihop olika masterdataset. Om institution X lägger upp August Strindberg, och institution Y lägger upp August Strindberg så har vi goda skäl att anta att de syftar på samma historiska individ. Särskilt om födelse- och dödsdatum överensstämmer. Då kan man länka dessa som ”SameAs” så vet både maskiner och människor att man syftar på samma sak. Problemet är att det inte har presenterats några gränssnitt för att göra denna koppling, och ofta har inte institutionerna någon egen kompetens för att sätta ihop datat. Inom KulturNav förefaller det finnas ett ganska bra gränssnitt för att göra just den typen av länkar dock. Men det är bara den förvaltande institutionen som kan göra förändringar i datasetet, så vad händer om man inte vänder länken åt andra hållet? Får den andra institutionens ansvarige reda på att någon har länkat en annan resurs som SameAs deras resurs? Det är ju först när man börjar att på detta sätt använda andras data, eller koppla mot andras data som det börjar bli intressant.

En tredje fundering är vem som är ansvarig för all ”bonusinformation”. Om syftet med att ha distribuerade datakällor är att man ska kunna använda varandras data, så är det snart så att någon får skörda vinsten av att någon annan gör jobbet. Så är det nämligen med Länkade Öppna Data, att vinsten inte nödvändigtvis uppstår där kostnaden uppstår. Och dataförvaltning kostar. Så på sikt ser vi scenariot att ett fåtal aktörer glider in i rollen som informationsförvaltare av information som i huvudsak är viktig för andra. Man institutionaliserar alltså auktoritetsbehovet. Detta tror jag är bra, och jag tror att det är nödvändigt eftersom det krävs en tydlig rollfördelning.

Tyvärr, måste jag säga, var tiden så knapp att ingen av dessa frågor var möjlig att diskutera på plats. Så jag får skriva det här istället:

1. Hur ska ansvaret för olika auktoriteter se ut, om vi ska kunna få ut någon vinst av att man använder varandras data?

2. Vem är ansvarig för tillbakalänkning, eller ”vända” länkar? Är det datasetsägaren så har vi problem.

3. Hur hanterar vi en situation där kostnad och ansvar går hand i hand? Går det att reglera detta på sikt?

Läs också:

Att arkivera och publicera forskningsdata

av Kenneth Nyberg och Jessica Parland-von Essen

Historia i en digital värld

Fördjupning: Några rader om ”kulturarvets masterdata”

Att arkivera och publicera forskningsdata

En reaktion på ”Fördjupning: Några rader om ”kulturarvets masterdata””

Lämna en kommentar Avbryt svar

Att arkivera och publicera forskningsdata

Dela:

En reaktion på ”Fördjupning: Några rader om ”kulturarvets masterdata””

Lämna en kommentar Avbryt svar