Vad är forskningsdata?

Jessica Parland-von Essen

Med forskningsdata menar man ofta data som uppstår i samband med forskning. Forskningsdata som skapas av en historiker kan till exempel utgöras av en databas dit man matat in uppgifter från källmaterial eller de digitala foton som en forskare tagit på ett arkiv. Hanteringen och bevaringen av forskningsdata borde alltid ha en planerad livscykel och tillräcklig dokumentation och struktur så att den kan återanvändas. I praktiken saknas ofta fortfarande kompetens, resurser och infrastruktur för historiker i deras verksamhetsmiljö för att hantera hela denna process med alla dess aspekter.

Men för en historiker kan vilken data som helst i princip utgöra material för forskning. Vi står därför inför en utmaning vad gäller att ta till vara den data som finns i dag med tanke på framtida forskning.

Myndighetsdata

Myndigheter har lagstadgade direktiv för hur de ska hantera data och det finns noggrann reglering för elektroniska dokumentarkiv, som baserar sig på arkivteoretiska modeller om ärendehantering. Myndigheterna besitter ändå en hel del data som inte direkt faller in under dessa kategorier. I Finland har den så kallade JUHTA-delegationen utfärdat direktiv för offentlig informationsförvaltning, där man utgår från Arkivverkets SÄHKE 2-direktiv, som uttryckligen handlar om handlingar, snarare än till exempel dataregister eller andra informationssystem. Ämnet behandlas också i Statsrådets förordning om informationssäkerheten inom statsförvaltningen 1.7.201/681 och till exempel i Arkivlagen 4 §, där det stadgas att ”Arkivverket har till uppgift att säkerställa att handlingar som hör till vårt nationella kulturarv bevaras och är tillgängliga, främja forskning samt styra, utveckla och undersöka arkivfunktionen.” Generellt är regleringen fokuserad på ärendehantering, “arkivhandlingar” och dokumenthanteringssystem, även om alla register också i princip borde ses som “handlingar”.

Myndigheter har i dag en del data som inte direkt faller under denna kategori. Ett exempel, som direkt berör myndigheters offentliga kommunikation, är deras kommunikation med allmänheten över sociala medier. Denna kommunikation arkiveras inte systematiskt på alla ställen. I vissa fall har ovissheten kring statusen av denna typ av myndighetskommunikation helt förhindrat kommunikationen med medborgarna på detta sätt. Om Facebookstatusar uppfattas som ”handlingar” bör de arkiveras, samtidigt som denna tolkning kan ifrågasättas. Liksom inte heller alla telefonsamtal eller möten heller bandas och sparas, kunde denna typ av kommunikation helt enkelt uppfattas ha en status som liknar muntlig kommunikation. Med tanke på att arkivering ändå i teorin är möjlig och med hänsyn till medborgarnas rättsskydd borde man sträva efter att bevara dem.

Sociala medier och diarieföring

Ska myndigheter diarieföra sin kommunikation via t.ex. Twitter på samma sätt som (andra) offentliga handlingar? Här väcks den frågan på – var annars? – Twitter.

Till myndigheternas kommunikation med medborgarna hör i dag också olika medborgarinitiativ och projekt (som avoinministerio.fi, otakantaa.fi eller medborgarinitiativ.fi). Dessa är ibland skapade av myndigheter och ibland av privata aktörer, men de fungerar ändå som viktiga kommunikationskanaler och även reella påverkningsmetoder mellan medborgarna och beslutsfattarna (i båda riktningarna).

Forskningsdata

Tillvaratagandet av forskningsdata är viktigt eftersom vetenskapen kräver att forskningen ska kunna granskas och upprepas. Vetenskapen kräver också största möjliga transparens, varför publicering av dessa data är att vänta (och kräva) i allt högre grad.

Utmaningarna är ändå mycket stora eftersom datamängderna är enorma och standardisering och metadata är av mycket varierande nivå. Också inom till exempel humaniora uppstår i dag data, som inte alltid ens av forskaren själv uppfattas som data. Nationella infrastrukturer som sträcker sig ända in i universiteten också för humanister vore nödvändiga att åstadkomma snabbt för att trygga forskningens nivå i såväl Finland och Sverige som andra länder.

En delvis ny utmaning i sammanhanget har att göra med att många av de data som används och som genereras i samband med forskning numera är webbaserade. Det betyder att de ofta är mer kortlivade och föränderliga än pappers- och tryckbaserade media, vilka i många fall är mer permanenta men i gengäld har sämre tillgänglighet då de bara finns i ett eller (relativt sett) få exemplar på en eller ett begränsat antal fysiska platser.

Publicerad data

Data eller information publiceras också av privata aktörer. Tidigare tryggade friexemplarslagen att dessa material bevarades för eftervärlden. I Finland utgör Nationalbibliotekets samlingar ett exceptionellt heltäckande arkiv över den tryckta offentligheten och det kompletteras av Nationella audiovisuella arkivet och Yles arkiv; i Sverige fyller idag Kungliga biblioteket samma uppgifter. Sedan den digitala eran börjat, har en ny digital offentlighet uppstått som närmast bevarats i Internet Archive i USA och sedermera i nationella webbarkiv. Dessa arkiv är endast så kallade skrapningar, ögonblicksbilder som ger en helhetsbild av webben. Sökbarheten och användbarheten är inte så bra och materialet inte så omfattande som de kunde vara.

Det övriga internet, som i dag omfattar till exempel en del populära spel som har sina egna klienter på användarnas maskiner (Minecraft, Angry Birds etc), ingår inte i webbarkiven, utan arkiveringen är helt beroende av spelarna i en community eller de kommersiella företagens egna arkiverings- och backuprutiner.

En särskild kategori material är det material som tjänstemän och politiker mer eller mindre privat sprider på sociala medier. Hit hör också journalistiska material producerade inom eller utom traditionella medieföretag och material som journalister sprider s.a.s. privat på plattformar som Twitter och Facebook. Dessa material kan kraftigt påverka politiska beslut. Dessa material hör också enligt min preliminära bedömning till de allra mest akuta att få kontroll på.

Även mediehus publicerar i dag en hel del material digitalt som inte nödvändigtvis arkiveras systematiskt, så som digitala specialupplagor, tv-sändningar eller kommentarer på webbsidorna. På grund av att skrapandet av webben är tungt för systemet, brukar inte webbarkivering utifrån göras särskilt djupt i strukturerna. Diskussioner och forum riskerar att ställas utanför systematisk arkivering.

Privata material

E-post, sms och fotografier utgör exempel på material som i dag utgör väsentliga delar av vår kultur och som endast undantagsvis tas om hand för långsiktig bevaring.

Problem

Det finns flera olika typer av utmaningar som gör arkiveringen av material svår att genomföra. Till dessa hör lagstiftning som gäller upphovsrätt, personuppgifter och äganderätten till data. Till exempel äger Twitter den data som deponerats vid Library of Congress och man kan inte utan lov och bistånd av företaget Twitter göra körningar i materialet. Det är inte heller möjligt att ladda ner data från en Facebookgrupp eller -sida.

< Föregående avsnitt   |   Nästa avsnitt >

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s