Jessica Parland-von Essen
Förutom valet om vad som skall sparas, står vi förstås inför ytterligare frågor då det gäller hur sparandet ska gå till. Vi måste också fråga oss vilka egenskaper vi vill spara hos det vi vill bevara, eftersom man sannolikt i något skede kommer att stå inför konvertering av material och man måste bestämma hur viktiga olika egenskaper hos ett material är: Behöver vi i framtiden veta vart alla länkar ledde från denna webbsida? Behöver vi ha kvar PowerPoint-presentationens animerade övergångar? Måste vi ha kvar annonserna i YouTube-videon (om nu någon arkiverar YouTube…)? Vi kommer här att kort gå igenom några grundbegrepp, som är viktiga att känna till. Utgångspunkten är att allt digitalt material föråldras och blir det som ibland kallas obsolet också på svenska, det vill säga att en hård- eller mjukvara blir föråldrad eller ett filformat blir gammalt och helt oanvändbart förr eller senare. Dessutom kan både medier, mjukvara och data gå sönder av många olika orsaker. För att eliminera risker behövs systematisk planering av bevarandet.[1]
I huvudsak finns det två olika strategier för att bevara digitala material. Ett vanligt alternativ inom arkivvärlden i dag är att man väljer migrering, vilket innebär att man är inställd på att konvertera mellan medier, filformat och program allt efter att tekniken utvecklas. Man migrerar alltså både själva innehållet till nya format och flyttar det till nya medier, eftersom båda anses ha begränsad livstid. Till exempel en CD-skiva anses inte ha så mycket längre livstid än en C-kassett av god kvalitet, det vill säga ett par decennier. Som medium har man inom arkiv ofta i dag så kallade LTO-band, det vill säga magnetband av hög kvalitet. Orsaken till detta är delvis historisk och kommer från en tid då utrymme på datorernas hårdskivor var mycket dyrt. Man har nu investerat mycket i dessa i sig ekonomiska och välbeprövade tekniker, varför andra metoder kanske ibland nedvärderas utan tekniska orsaker. Numera diskuterar man nämligen både bevaring i egna distribuerade system, t ex LOCKSS (”Lots of copies keeps stuff safe”, läs mer på http://www.lockss.org/) och andra former av användning av hårdskivor eller material som glas.[2] Magnetbanden är rätt känsliga för strålning, men å andra sidan drar de ingen ström så länge de vilar. Också data på magnetband bör emellertid kontrolleras och förfriskas, det vill säg skrivas om regelbundet, helst med ett års mellanrum.[3]
Formatmigrering betyder att man konverterar data från ett filformat till ett annat. Eftersom det rör sig om översättning finns alltid en allvarlig risk för att information ska gå förlorad. Frågan är bara hur mycket och vilken information man väljer att tappa. Dessa frågor är mycket tekniska och beror på vad man tänker sig att man i framtiden skall använda informationen till (det kan man trots allt inte med säkerhet veta, men man måste ändå göra medvetna val här och inte låta den tekniska terminologin skrämma en, utan be att få den förklarad för sig genom konkreta exempel). Format föråldras i takt med att programvarorna utvecklas. Har programmet en öppen kod som finns tillgänglig på webben, betyder det att en it-kunnig person alltid kan ta fram information ur en fil, vilket inte alltid är fallet med kommersiella produkter. För att stå på säkrare grund gäller det alltså att fundera på att helst välja:
- filformat som är mycket vanliga (för bilder tiff el jpeg, för text pdf, olika xml-baserade format)
- filformat som har öppen kod (för text odf, presentationer odp)
Och som sagt man måste fundera över vilka egenskaper man vill bevara, vilken funktionalitet som är relevant i synnerhet då det gäller digitalbaserade material. Detta är inte enkelt, men det är viktigt att beakta. Då man använder sig av databaser vid sin forskning blir dessa frågor ännu viktigare för den vetenskapliga trovärdigheten.
Den andra strategin för bevarande är emulering. Det innebär att man ser till att man bevarar de tekniska miljöerna, eller tillräcklig information om dem, så att man kan skapa virtuella miljöer för att använda gamla filformat eller program. Denna metod verkar vara mer populär bland personer med rent teknisk bakgrund. Den ter sig enklare och mindre komplicerad och riskfylld. I praktiken är metoden ändå en en verklig utmaning, eftersom mycket av mjukvaran är proprietär och det inte finns några juridiska möjligheter i dag att arkivera och dokumentera till exempel de i dag så oerhört vanliga programmen från Microsoft eller Adobe. Samtidigt kan man konstatera att konvertering till öppna format och till exempel arkivdugliga pdf-filer innebär stora risker för förlust av relevant information.
Som vi tidigare skrivit är teknisk och administrativ metadata, samt annan dokumentation så som systemens loggar, viktiga för både själva bevarandet och för trovädigheten. Den tekniska proveniensen är oerhört viktig för källkritisk bedömning av material; det är en sak som direkt handlar om informationens autenticitet och integritet. Autenticitet är nära förknippat med trovärdighet och proveniens. Eftersom digitala objekt lätt kan kopieras och även förändras på ett ofta osynligt sätt kan det vara svårt att fastställa autenticiteten på digitala objekt. Med noggrant dokumenterad proveniens kan man tolka det digitala objektet i förhållande till ett originalobjekt och fastslå graden av autenticitet. Integritet är också viktigt för autenticiteten. Integritet innebär att det digitala objektet inte har förändrats inom en viss tidsperiod. Det kan man försäkra sig om genom att räkna ut kontrollsummor (checksum) av ett objekt på olika tidspunkter och jämföra dem. Om summorna är samma är objektet oförändrat och dess integritet bevarad. Orsaker till att objekt förändras kan t ex vara medveten förändring eller dataröta.
Dataröta är ett fenomen som förekommer mycket sällan och innebär att koden utan synbar orsak av sig själv förändrats. Har man att göra med mycket komprimerade filer är detta ändå ett mycket stort problem. Det beror på att man vid komprimeringen använder sig av matematiska algoritmer för att krympa ihop data, så att den sedan kan ”svällas upp” igen då den ska användas genom en omvänd komplicerad räkneoperation. Då kan det räcka med att en enda liten nolla blivit en etta eller försvunnit för att hela processen av återskapande skall misslyckas totalt och all information vara förlorad. Detta är den enkla orsaken till att man alltid försöker undvika komprimering då det är möjligt. Dataröta är alltså mycket sällsynt, men ju större mängder data man sparat desto sannolikare är det att man råkar ut för det. Det är också en tungt vägande orsak till att man gärna skall ha många kopior av all data.
För att bekräfta att en fil är oförändrad måste man regelbundet räkna kontrollsummor och varenda förändring eller annan åtgärd måste dokumenteras i metadata. Detta kallas filens proveniens och den måste, liksom då det gäller alla arkivmaterial, vara dokumenterad så bra som möjligt, eftersom den påverkar den källkritiska bedömningen.
I slutändan handlar ändå allt om hur trovärdigt ett arkiv är, för även digital proveniens kan vara bristfällig, för teknisk för en lekman att värdera eller helt enkelt rent förfalskad. För själva bevarandet kan det däremot vara vitalt på lång sikt att veta exakt vilket program som använts och vilka åtgärder som vidtagits under olika skeden av filens livscykel. Genomskinligheten och öppenheten är i sig kanske det allra viktigaste kriteriet för en humanist vid denna bedömning. Ger arkivet ut information om teknisk proveniens och en beskrivning av sina system in i minsta detalj? Använder man sig av internationella standarder som Open Archival Information System (OAIS) eller Preservation Metadata (PREMIS)? I annat fall kan och bör man fråga sig: varför inte? Detta verkar möjligen lite överdrivet tillsvidare, men betänk en situation, som är rätt nära förestående, då stora delar av alla offentliga handlingar bara finns i digital form. Då måste vi kunna vara säkra på att ingen fixat till ett eller annat protokoll eller beslut, oberoende av om det migrerats flera gånger.
Läs också:
Fördjupning: Bevaringssynpunkter på några vanliga filformat
av Juha Lehtonen
< Föregående avsnitt | Kapitel 7 >
[1] Ett centralt arbete på detta område är C Becker et al, ”Systematic planning for digital preservation: Evaluating potential strategies and building preservation plans”, International Journal on Digital Libraries 10:4 (December 2009), s. 133–157, DOI 10.1007/s00799-009-0057-1, tillgänglig som pdf på adressen: http://publik.tuwien.ac.at/files/PubDat_180752.pdf (2013-11-27).
[2] Chris Welsh, “Hitachi invents quartz glass storage capable of preserving data for millions of years”, The Verge 2012-09-27, http://www.theverge.com/2012/9/27/3417918/hitachi-quartz-glass-data-preservation (2013-11-27).
[3] Mycket bra diskussion förs på bloggar. Bra ställen att börja är Library of Congress blogg The Signal, http://blogs.loc.gov/digitalpreservation, och David Rosenthals blogg DSHR, http://blog.dshr.org/.