Fördjupning: Bevaringssynpunkter på några vanliga filformat

Juha Lehtonen

Att välja filformat då man planerar bevaring är inte en enkel process. I allmänhet rekommenderas att vanliga ”kontorsdokument”, såsom presentationer, textdokument och kalkyldokument, konverteras till antingen PDF/A eller något annat öppet xml-baserat format, så som de format som används av Open Office.

Då man väljer filformat ska man alltid tänka på ändamålet: Hurdana egenskaper behöver filen ha? Är det viktigt att bevara utseendet, innehållet eller funktionaliteten? Åtminstone då det gäller filer skapade i vanliga kontorsprogram (ODF, OOXML, PDF) kan alla funktioner vara svåra – om inte omöjliga – att bevara, eftersom filerna kan innehålla väldigt mycket egenskaper och olika komponenter. Dessutom kan olika element infogas i en enda fil nästan hur som helst, till och med innanför varandra.

Och hur går det med att migrera mellan olika filformat? Möjligheten att redigera dokumentet går förlorad, men utseendet kan vanligen bevaras ganska väl, när ett MSOffice-dokument konverteras till en PDF/A. Å andra sidan bevaras redigerbarheten, men inte nödvändigtvis utseendet, om samma dokument konverteras till ODF-format. Innehåll och utseende är inte heller nödvändigtvis samma sak, då man konverterar till ODF. Presentationer kan till exempel innehålla funktioner, då man på samma bild upprepade gånger lägger nya element ovanpå andra genom en animation. När filen konverteras till PDF/A, syns nog de översta objekten, men animationsfunktionen försvinner och därför försvinner också den information som ingick i den (alltså de underliggande elementen). Ibland kan det vara en fördel att man tappar information. Till exempel räcker kanske ett komprimerande ljudfilsformat bra, då det gäller att bevara talande röster, medan ett format utan packning verkligen tar mycket utrymme.

Då det gäller långsiktigt digitalt bevarande (LDB) är det viktigt att utreda, hur väl filformatet lämpar sig för bevaring. En av kärnfrågorna är: Kommer vi att få problem, när vi vill överge det filformat vi nu tar i bruk? Det leder oss in på en del nya frågor: Finns dokumentationen av detta format öppet tillgänglig? Kostar den? Är specifikationen formellt standardiserad? Hur mycket används filformatet vid bevaring eller över huvud taget? Är specifikationerna etablerade eller kommer det ofta nya versioner av filformatet? Beaktar man kompatibiliteten framåt och bakåt mellan de olika versionerna? Har filformatet egenskaper som är beroende av en specifik hårdvara? Innehåller filen länkar eller hänvisningar till externa objekt? (Observera att detta också kan gälla de delar av filen som användaren normalt inte ser, alltså metadatan inne i filen.) Hurdana infogade objekt innehåller filen? Kan filen repareras om den gått sönder? Oberoende av hur bra ett filformat är, kommer det en dag att inte längre vara i allmän användning, och då står vi inför samma frågor med de nya formaten.

Filformatens specifikationer är en noggrann beskrivning av hur filen är uppbyggd och vad den kan innehålla. Då det gäller långsiktigt bevarande är specifikationen mycket viktig och därför bör man föredra sådana filformat, som det går att få tag i specifikationen för. Om den är standardiserad, är det tryggare att lita på formatet, för då uppstår det inte så lätt olika versioner eller varianter av filerna som sedan måste beaktas vid bevarandet. Av en noggrann specifikation får man på ett teoretiskt plan reda på alla egenskaper filen kan ha och man kan direkt bedöma hur väl de lämpar sig för LDB. Specifikationen möjliggör också förverkligandet av sådana verktyg, där de olika egenskaperna är beaktade med tanke på just LDB. Om man inte har specifikationerna för ett format och de program som normalt används skulle försvinna ur bruk, kan en fil i värsta fall bli helt oläsbar.

Hur är det då med oberoende? I kontorsfilerna är en vanligt förekommande hänvisning i filen uppgiften om typsnittet (ofta kallat fonten). I normalt bruk inkluderas inte fonten i själva filen, utan den innehåller ofta endast en hänvisning till en viss bokstavstyp, som mjukvaran sedan hämtar ur dan aktuella datorns typsnittsbibliotek. Om typsnittet inte hittas, väljs någon annan förhandsinställd bokstavstyp, vilket ibland kan förorsaka problem: till exempel kan raderna och sidnumreringen förändras och hänvisningar till texten kanske inte längre stämmer, texten i tabeller som ingår kanske inte längre passar in i sina celler osv. I kontorsfilerna kan man i dag också inkludera hela typsnittet, dvs exakt hur alla bokstäver ska se ut, och då kan texten alltid visas korrekt – förutsatt att mjukvaran man använder klarar av att utnyttja de infogade bokstäverna.

Att baka in olika typer av information i själva filen är inte alltid en bra lösning, eftersom detta kan komplicera innehållet ytterligare och göra bevarandet ännu svårare. Olika funktionella komponenter (t.ex. ActiveX-komponenterna) hör till den typen av egenskaper i en fil som inte är lätta att bevara. Kraven på bevaring kan föda nya typer av filformat, såsom PDF/A, som är en version av PDF som är en ISO-standard, där vissa vanliga egenskaper i PDF-filer är förbjudna. Målsättningen med PDF/A är att säkra att filerna är oberoende av vilken hårdvara som används, att de inte innehåller några hänvisningar utanfär dokumentet självt (t ex ingår hela bokstavstypsnittet) och filen dokumenterar (beskriver) sig själv. Allt detta är egenskaper som är relevanta vid LDB.

Till slut ännu några ord om metadata som sparas inne i själva filen: Metadata kommer att utgöra en mycket viktig del av bevarandet, eftersom man i dem kan  ange en beskrivning av innehållet, proveniens, tekniska uppgifter och rättigheter. I en del filformat kan man infoga väldigt mycket metadata och det lönar sig förstås att göra där också, men metadata borde också bevaras någonstans separat i ett för dem lämpligt format, till exempel som xml. Att bevara metadata separat tryggar tekniskt deras läsbarhet, och möjliggör förverkligandet av effektiva sökningar, sortering eller olika statistiska operationer. Dessutom är det inte sagt att man vid en formatmigrering lyckas bevara all metadata som finns inne i filen, varvid en separat hantering av dem ändå blir aktuell.

Läs också:

Långsiktigt digitalt bevarande

av Jessica Parland-von Essen

En reaktion på ”Fördjupning: Bevaringssynpunkter på några vanliga filformat

  1. Pingback: Fördjupning: Bevaringssynpunkter på några vanliga filformat | Historia i en digital värld

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s