3. Material

Texten i detta kapitel är, när inget annat anges, författad av Jessica Parland-von Essen och består av följande avsnitt:

* * *

[Tillbaka upp]

Att hitta bland material

Ett grundbegrepp som är viktigt att känna till för att över huvud taget kunna hitta bland material är metadata. Det brukar definieras som information om data, vilket är en ganska klumpig definition. Enklast kan man exemplifiera vad det handlar om med en katalogpost i en bibliotekskatalog: den innehåller metadata. Metadata kan antingen beskriva innehållet i ett dokument eller en fil, så som upphovsperson, upphovsrätt, tillkomstår, titlar, ämnesord eller dylikt, eller andra aspekter som gäller själva objektet. Till de senare hör på ett bibliotek till exempel uppgifter om var man kan hitta en bok. I den digitala världen är kraven på den senare typen av metadata ännu större: uppgifter om filtyp, filformat, administrativa uppgifter om olika rättigheter och tekniska uppgifter om proveniens eller vilka program man behöver för att kunna komma åt innehållet är mycket relevanta för att man ska kunna hantera digitala material. För att allt detta ska fungera i datorvärlden måste metadata vara mycket strikt och enhetligt formulerad, så att den kan behandlas maskinellt. För ändamålet finns därför en hel del olika riktlinjer och standarder.[1]

Olika typer av kataloger, register och index har länge funnits för att ta fram information. Inom de olika minnesorganisationerna, alltså museer, bibliotek och arkiv, har man traditionellt haft olika sätt att ordna sina material. Det handlar dels om att ordna själva materialet, dels om att skapa verktyg och hjälpmedel att hitta fram på andra sätt än enligt den systematik samlingarna är ordnade. Som exempel kan återigen biblioteket fungera: böckerna ordnas enligt biblioteksklass och enligt författare – en bok kan stå endast på ett ställe – men med hjälp av kataloger har man sedan kunnat leta sig fram också andra vägar, till exempel direkt enligt författare.

I arkiven har man i stället ordnat materialen enligt proveniens, det vill säga enligt det historiska sammanhang där ett dokument uppkommit. Men uppdelningen mellan samlingstyper har inte heller varit helt konsekvent. I många museer finns det bibliotek och arkiv, i arkiv finns det föremål och i bibliotek finns arkivalier. Bibliotekarier och arkivarier har specialiserat sig på att ordna skrifter, så att man kan hitta vad som behövs. Visserligen handlade det länge om kunskap som till stora delar funnits i huvudet på folk, men strukturerna i materialet har ändå behövts för att hitta fram.[2]

Den tryckta bokens parentes och det växande antalet böcker har gjort biblioteksmänniskorna till experter på att skapa enhetlig, normaliserad metadata. I arkiv har metadata tidigare inte värderats särskilt högt, eftersom arkivteorin har proveniensen som grundprincip. Detta har också gjort arkivpersonalen till verkliga grindväktare till informationen. Det viktiga har varit att betjäna myndigheter och forskare.

Pappersepokens fysiska, oföränderliga exemplar och sättet att strukturera informationen, som ändå i grunden är baserat på att hitta fram till ett fysiskt dokument, är i dag föråldrad. Framför allt har dessa tidigare varit verktyg för personalens interna och professionella bruk, men i och med webben vill och kan allt fler användare själv söka i både material och olika typer av index. I dag pågår därför ett omfattande omstruktureringsarbete inom samtliga sektorer, men förändringen är omfattande och långsam, för den rubbar i grunden uppfattningen om vad det är vi förvaltar och hur vi gör det.[3]

Bibliotekssystemen är stora informationsresurser med förhållandevis god (enhetlig och väl strukturerad) kvalitet, men i grunden för allt finns fortfarande kortkatalogens sätt att hantera informationsförvaltningen. Ett arkiv består i sin tur av handlingar som uppstått inom en verksamhet. En myndighet, en person, en släkt eller en organisation är arkivbildare, vilket utgör grunden för arkivsystemet. Sättet att ordna materialet är därför helt annorlunda, det baserar sig på ursprung, dokumenttyp och kronologisk ordning. Det är sammanhanget som ger varje dokument sin betydelse, och det reflekteras i dess placering, såsom breven i ett personarkiv, som kan vara ordnade enligt motpart i korrespondensen och sedan enligt datum. I arkiv behövs inga ämnesord som i en bibliotekskatalog, kontexten säger det som behöver sägas. Indexen är därför mer begränsade.

En museisamling liknar mer ett bibliotek än ett arkiv till sin idé och även i hur den administreras. Också en del av de samlingar som går under namnet ”arkiv” i dag är de facto snarast samlingar, till exempel inom folkkultursarkiv. Därför finns det också inom arkivvärlden olika system med olika logik. I dag förväntar man sig ändå att sökande skall vara enkelt, det skall vara snabbt och helst ske via ett enda gränssnitt, alltså en och samma tjänst oberoende av var material finns eller hur det är ordnat. Kravet är fullständigt rimligt i sig. Det är därför projekt som Europeana, K-samsök , Sondera och det Nationella digitala biblioteket med söktjänsten Finna kommit till.[4] Tekniken skall nog kunna klara det. Uppdelningen mellan de olika kulturarvsinstitutionerna är på sätt och vis konstgjord och ibland mer eller mindre slumpmässig.

Men det är fortfarande ett problem att man i minst ett par sekler ordnat sin information på så olika sätt. I dag borde man lära sig att tänka digitalt. Numera ordnas till exempel alla böcker i det franska nationalbiblioteket endast enligt akvistionsordning i magasinen. Det räcker och är det allra mest effektiva.

Det är möjligt att bryta de gamla informationsstrukturerna inom alla sektorer och gå in för en rikare struktur. Men det kräver ett fördomsfritt förhållningssätt och noggrann semantisk analys av resurserna: vad betyder egentligen de olika elementen i alla kataloger och databaser? Vilken typ av information innehåller de? Det krävs också en del mod att bryta sönder de gamla strukturerna och arbetssätten. För gemene informationssökare är det helt egalt om materialet förvarats i ett arkiv eller katalogiserats i ett bibliotek. Man måste få fram det som är relevant.

Att tvingas till nya datamodeller inom olika branscher ger också nya möjligheter. Gemensamt för de nya modellerna är att de, till skillnad från många biblioteks- och arkivsystem som närmast motsvarar lite utvecklade elektroniska traditionella kortregister, faktiskt är genuina begreppsmodeller av verkligheten. Då man byggt upp dem har man ordentligt analyserat informationen och dess art. Resultatet är system som ser mer invecklade ut, men som i själva verket är mycket enklare och mer rationella. Framför allt innehåller det otroligt mycket mera information om relationer mellan olika entiteter, information som tidigare måste finnas i huvudet på användaren.

En viktig aspekt är till exempel att man skilt på benämning eller etikett/titel/namn från representationen av själva begreppet/verket/personen, vilket gör att systemen kan hålla reda på olika varianter av samma verk eller olika namn på samma person mycket effektivare. Men avancerade, så kallade semantiska system, kan också beskriva roller och funktioner, alltså relationer mellan olika objekt. Det är ju rätt stor skillnad om en tavla är målad på eller föreställer en viss plats, något som visserligen ofta funnits dokumenterat, men inte kunnat utnyttjas fullt ut vid sökning.

Om man analyserar informationen i de olika gamla systemen, finner man förutom att den ofta är extremt inkonsekvent och bristfälligt ifylld, att den lätt passar in i dylika semantiska modeller. Och då försvinner också problemet med de i utgångsläget olika informationsstrukturerna. Fortfarande är det ändå ett problem, i synnerhet då det gäller arkivmaterial, att man borde producera mycket mera beskrivande metadata och bättre fungerande sökningar och andra tjänster för att man ska kunna använda det digitaliserade materialet fullt ut.

[Tillbaka upp]

Digitalisering av text

Inom kulturarvssektorn har man ofta förespråkat massdigitalisering och digitalisering av hela material och serier snarare än urval baserade på forskares eller kunders behov och önskemål. Denna linje har motiverats med bästa input-output-nytta, alltså flest filer och gigabytes, frånvaro av en extra urvalsprocess och den största nytta man hävdar komma för forskare med obrutna helheter som är mycket använda och som genom digitalisering kan skyddas från slitage. Linjen har dessutom förstärkts genom resultatstyrningen inom den offentliga sektorn som belönar mängd framför kvalitet. En stor del av materialen är därför digitaliserade från gamla mikrofilmer, vilket är både billigt och snabbt. Kort sagt skannar man gärna in bilder av dokument så automatiserat som möjligt.

Problemet var, och är det delvis fortfarande, att sökbarheten i sådana arkivmaterial är mycket dålig, inte minst för att metadata eller annan kontextuell information är bristfälliga. I praktiken har man gjort livet lite enklare för (släkt)forskare som kanske nu kan titta på dokument på skärm hemma istället för att behöva ta sig till en forskarsal. Å andra sidan vet varenda forskare att kvaliteten ofta är dålig på dessa material och det är mycket tröttsamt och arbetsdrygt att läsa oskarp text från en datorskärm. När man väl hittat det man söker, vill den seriösa forskaren dessutom ofta ändå granska originalet för att kunna göra en källkritisk bedömning, eftersom det i metadata saknas information om papperskvalitet och dylikt. Äldre digitalisering gjordes svartvit och i värsta fall som tvåbit (alltså utan gråtoner) så all färginformation har försvunnit. Därför är det mycket problematiskt om man rutinmässigt belägger originalen till digitaliserade material med totalt användningsförbud.

Denna form av digitalisering är i regel ändå bara det första steget vid digitalisering av text. Är texten maskinskriven eller tryckt kan den också läsas in maskinellt så att den tekniskt sett faktiskt blir en text istället för en bild. Processen kallas ofta optical character recognition, OCR. Sådan text är genast sökbar och betydligt mer hanterlig för en forskare, man kan till exempel kopiera in den i ett dokument. Problemet är att om bilden är av dålig kvalitet kommer den digitala texten sannolikt att innehålla många fel, även om den maskinella avläsningen hela tiden blir bättre. I det finska Historiska tidningsbiblioteket har man löst detta genom att använda sig av oskarp logik (fuzzy logic, sumea haku).[5] Denna metod ger programmet möjlighet att förbise felen och söka textsträngar som liknar på ett ungefär, i motsats till normal datorlogik där allt antingen är ja eller nej, 1 eller 0.

I Australien – eller inom Project Runeberg[6] – har man i stället använt sig av de möjligheter webben erbjuder, genom att låta användarna rätta korrekturfel direkt i databasen. Detta är förstås mycket klokt genom att kvaliteten hela tiden förbättras på ett för webben typiskt sätt och varje korrigering behöver göras endast en gång. Erfarenheterna har varit goda.

Vad gäller handskrifter är situationen tills vidare i praktiken en annan. Själva texten måste uttydas av en människa och skrivas in manuellt i en annan fil. I detta fall är det den som gör arbetet som gör tolkningen av texten, som vanligen är betydligt mer utmanande då det gäller handskriven text. När texten skrivs in måste man välja hur man förhåller sig till stavfel, otydliga bokstäver eller saker som överstrykningar. För detta ändamål kan man använda sig av koder, förslagsvis TEI-kod (Text Encoding Initiative)[7] som erbjuder en standardiserad form för att märka ut sådant i texten. Detta ger sedan möjlighet att presentera texten på olika sätt på en datorskärm enligt redaktörers eller användares preferenser.

Genom att presentera bilden och den inskrivna texten samtidigt för användaren erbjuder man möjlighet för forskaren att göra egna tolkningar, men man har ändå möjliggjort bra sökning och kopieringsmöjligheter. Att skriva in text på detta sätt är ungefär hundra gånger dyrare än att bara producera bilder av arkivdokument. För närvarande utvecklas också maskininläsning av handskrift. I dessa fall måste man först skriva in en del text manuellt och ange koordinaterna på sidorna så att man kan lära ett program att tolka texten. Tills vidare behövs ganska mycket text (tiotals sidor) samt korrekturläsning varvid man samtidigt kan göra annotering, men maskininläsningen innebär ändå en viss effektivisering av processen.[8] Ett exempel på hur man med annotering med TEI-kod kan beskriva hur en handskrift ser ut:

Du har ju vågat en fräckhet som jag godtagit, <add place="below" medium="pencil">ehuru</add> inte för att <subst><del>vad du sagt</del><add place="below" medium="pencil">de infall du haft</add></subst> varit sista ordet.

Den annoterade texten är svår att gestalta som ren kod, varför olika visningsprogram är nödvändiga för att man ska kunna använda den kodade texten på ett bra sätt, i synnerhet om man inte arbetat med annotering själv.

Till svårigheterna på handskrifts- och arkivsidan hör dessutom katalogiseringstraditionen och den arkivvetenskapliga synen på dokument som diskuterades ovan. Ett arkiv har bildats under och genom en specifik verksamhet och det enskilda dokumentets plats i strukturen anger dess kontext. Till skillnad från bibliotek, då man beskriver varje bok på en egen katalogpost, beskriver man inom arkiv strukturen med en hierarkisk ordning, som i sig utgör beskrivning av det enskilda dokumentet. Några ytterligare särskilda klasser, ämnesord eller dylikt behövs inte. Det är förstås arbetsekonomiskt vettigt, men i digitala sammanhang – då man ofta har att göra med ett enskilt dokument helt lösryckt ur sitt sammanhang – blir det snabbt svåröverskådligt.

Om man har texten ordentligt utskriven och annoterad blir den sökbar och kan användas eller ytterligare vidareförädlas på många sätt. Förutom de TEI-koder som ovan nämndes i samband med hur ett manuskript ser ut kan man markera till exempel namn, språk, orter, titlar eller vad man önskar i texten. Själva texten blir då en xml-fil som består av läsbar text, men som också kan visas snyggt och på flera olika sätt enligt hur man önskar på en skärm. Den som någon gång arbetat med enkel html är bekant med idén i stort, principen är den samma. Man markerar delar av texten med taggar före och efter det annoterade avsnittet, det kallas att taggar öppnas och stängs. Dessutom finns det en hel del regler om hur man skall göra det för att följa standarden. Vissa taggar behöver inte stängas.

<name type="person">Thomas Hoccleve</name> <name type="place">Villingaholt</name> <name type="org">Vetus Latina Institut</name> <name type="person" ref="#HOC001">Occleve</name>

Då man annoterat texten kan man också föra in en kopia i en databas om man vill, eller länka personnamn till auktoritetsregister eller orter till koordinater. Arbetet låter drygt, men det är förvånansvärt snabbt, förstås beroende på hur komplicerad kod man använder och hur många korrekturläsningar man gör. Då man läser korrektur på kodens grammatik kallas det validering. Det kan man göra automatiskt med ett valideringsverktyg som hittar fel i koden åt en. Då man läser korrektur på själva texten kallas det för kollationering. Det ska helst göras av en annan person än den som skrivit in texten.

Det är i alla fall helt klart att för många forskningsändamål är dylikt berikande av text en stor hjälp och gör det möjligt att få fram strukturer och samband man annars kanske aldrig kunde ha fått syn på. Då texter är i digital form kan man göra omfattande sökningar i litteratur eller till exempel tidningsmaterial som av arbetsekonomiska skäl annars blivit helt outnyttjade som källor. Poängen här är fulltextsökning, det vill säga att användaren kan söka inne i texterna, i dokumenten och inte bara i metadata, alltså kataloger och register, som ibland kan dölja information mer än att hjälpa en rätt.

De stora textmassorna är förstås en guldgruva för lingvister, vare sig de är annoterade eller inte. Stora textmassor ger möjligheter att undersöka språk och utveckla språkteknologi och de kallas korpusar då man upprätthåller dem i detta syfte. Automatisk översättning är till exempel en utmaning som många arbetar med och som skulle avhjälpa den språkförbistring som många gånger finns på nätet och som i Europa mest syns som en dramatisk ökning av det anglosaxiska inflytandet på snart sagt alla områden. Forskningen går också mycket snabbt framåt och även stora företag som Google har hållit sig väl framme.

Historiker är ofta intresserade av enskilda uppgifter i de stora textmassorna, varför de gärna uppskattar tjänster som bygger på databaslösningar, där texten ordnats enligt innehållets struktur, vilket gör sökandet mycket effektivare. Databaser med uppgifter ur kyrkböcker eller dylikt passar bra att göra till databaser eftersom de är väl strukturerade, men det skulle vara önskvärt att man parallellt med texten kunde studera bilden av originalet.

Litteraturvetare är ofta mer intresserade av intertextuella relationer eller litterära processer, som på ett mycket bra sätt kan återges genom annotering. Den digitala textens många nivåer fungerar på ett liknande sätt som texten ”på riktigt” gör då den blir till. Med hjälp av TEI är det till exempel lätt att jämföra olika varianter av en text, och dessa kan också behandlas som jämbördiga, då man slipper den tryckta bokens endimensionella eller betydligt klumpigare format.

Det finns alltså lika många behov och ansatser som det finns forskare och forskningsdiscipliner då det gäller annotering av text och det är knappast värt att annotera allt med tanke på alla eventuella framtida forskare. Det är ändå så, att man aldrig kan veta med säkerhet vad som anses relevant och viktigt för vetenskapen i framtiden. Som ett klassiskt exempel inom bokhistorien kan man nämna alla de skyddspapper och papperspärmar som tagits bort då man bundit in böcker, som i dag är mycket eftersökta och intressanta för forskare, eftersom de berättar väldigt mycket om bokmarknaden, ett område som tidigare inte uppfattades som särskilt kulturhistoriskt relevant. Och ändå är det ju så, att forskare läser, skriver och behandlar stora mängder text under sin forskning och att allt detta material också kunde göras till råmaterial för ny forskning. Det behövs mycket samarbete mellan arkiv, bibliotek och forskare för att digitalisering ska kunna göras på ett bra sätt. Med nära och integrerade samarbeten med forskare får också kulturarvsorganisationerna omedelbart mervärde för sina digitaliserade material. Material som bearbetats, strukturerats och berikats och som det finns forskning om kan också ge den mindre insatta användaren mycket mer än en massa bilder av dokument man inte kan gestalta betydelsen av på något sätt.

[Tillbaka upp]


Fördjupning:

Digitala textkritiska utgåvor

Jenny Bergenmar


Fördjupning:

Textkorpusar för historikerbruk – ett inifrånperspektiv

Helena Holm-Cüzdan och Julia von Boguslawski


Digitalisering av bilder och bilder av föremål

Det finns två olika huvudtyper av digitala bilder: vektorgrafik och bitmaps (kallas också punktuppbyggda bilder eller rasterbilder). Vektorgrafiken baserar sig på geometriska figurer som datorn ritar upp enligt instruktioner i filen, vilket gör att man kan förstora bilder hur mycket som helst utan att de förlorar i skärpa. Vektorgrafik används därför i regel för ritningar som gjorts med datorprogram och filnamnet slutar ofta på .svg. Fotografier består däremot i normala fall av punkter (pixlar), där exakt färg för varje punkt finns angiven i filen (vars namn kan sluta på t.ex. .jpg eller .tiff). En del filformat kan innehålla både vektorgrafik och raster (t.ex. .psd-filer skapade med bildbehandlingsprogram).

Med resolution avser man hur många punkter det finns på en tum (25,4 mm; på skärm ppi och i tryck dpi, dvs. dots per inch). Det handlar ofta om rätt stora mängder information varför en del filformat kan komprimeras. Detta behandlas närmare i (det kommande) avsnittet om bevarande av digitala material.

En bild kan sparas som enbitsbild, vilket innebär att varje pixel bara kan ha ett av två värden, antingen svart eller vit. De allra äldsta digitaliseringarna gjordes ofta som enbit eftersom förvaringsutrymmet tidigare var mycket dyrt. Fortfarande räcker enbitsbilder för till exempel digitalisering av stora mängder text, där man bedömer att ingen annan information än bokstävernas och de andra tecknens form, placering och storlek är av intresse. Gråskala ger dock redan betydligt mycket mer information. Då det gäller manuskript strävar man i vanliga fall i dag till färgbilder, som kan återge många fler nyanser och detaljer om till exempel pappret eller bläckets kvalitet. Det är viktigt att komma ihåg att information som förloras vid digitaliseringsprocessen inte kan återskapas annat än genom en ny digitalisering.

Det sägs ofta att datorskärmen kan visa fler färger än ögat kan uppfatta, till exempel över 16 miljoner. Färgerna på en skärm består i normala fall av rött, grönt och blått som grundfärger (RGB). Varje pixel har alltså ett värde för varje ljuslängd (färg) och färgen kan anges som tre siffror på en skala som varierar enligt hur många bitar man anvisar för varje värde (bitdjup). Det är bra att veta att till exempel de 16 miljoner utlovade färgerna alltid ytterst begränsas av datorskärmens och själva mjukvarans tre extremvärden: den mest röda, gröna och blåa färgen som skärmen kan visa.[9] Dessa punkter kan variera i olika programversioner, filer och skärmar, varför datorn kan visa färger felaktigt om de tre inte utgår från samma inställningar. Vid digitalisering är det därför viktigt att man har kalibrerat både skanner eller kamera och skärm på bildbehandlingsprogrammet. Även hemma eller i forskarsalar borde man kalibrera skärmen om man vill göra noggrannare analys av materialet. För detta finns utrustning att köpa. Dessutom bör man veta att det alltså fortfarande finns en hel del färgtoner som inte kan återges på en datorskärm, eftersom de består av ljuslängder som befinner sig utanför den triangel som bildas av de angivna (dock varierande) extremvärdena av datorskärmens tre grundfärger.[10]

På arkiv och museer har man ofta en något olika inställning till bilder såsom gamla fotografier. Inom museivärlden uppfattas bilder som föremål, vilka digitaliseras som sådana som en del av dokumentationen, medan arkiv ofta bara strävar till att reproducera dem som digitala versioner. Att digitalisera bilder kan verka enkelt, skanners är ju enkla att skaffa, men det är nog en betydligt mer svår process än så.

Som ovan framkom finns det en hel del saker att ta ställning till, man väljer (medvetet eller omedvetet) mjuk- och hårdvara för själva processen, liksom man måste bestämma hur mycket bilderna ska behandlas eller beskäras, man måste välja filformat, resolution och så vidare. I regel korrigerar man så lite som möjligt i hela bildens färgåtergivning och att ändra enskilda detaljer är förbjudet. Det innebär förstås i klartext att en digital bild är en tolkning i sig. Dessutom måste man fråga sig: en tolkning av vad? Av det som bilden föreställer? Av hur bilden såg ut när fotografen nyss framkallat den (och var nöjd)? Eller kanske av bilden i det skick den råkade befinna sig den dagen man skannade den?

Det sista är det svar man ofta spontant skulle få också av en del människor i branschen, men efter någon eftertanke brukar de flesta vara överens om att man måste spara så mycket information som möjligt. Det är informationsinnehållet som är det som ska räddas. “Allt” ska sparas.

Men även skannern eller kameran som ibland används har ju gjort en tolkning. En tolkning sker varje gång man överför information från ett språk till ett annat, vare sig det gäller naturliga språk eller datorkod. Varje gång förlorar man sannolikt information. Den tolkning som gjorts vid överföringen i digital form är inte alltid optimal, utan mycket information kan finnas dold och kan tas fram genom att justera hur bilden visas. Denna information är ju också bra att spara, så att en framtida användare hittar den. Vissa saker anses alltså korrekta att göra med en bild då man digitaliserar den för att ta fram information, medan annat, så som att beskära den eller retuschera den anses absolut förbjudet. Slutresultatet är att man ofta har minst två versioner av en bild. Dessutom vill man gärna ha flera bilder av mindre format som man kan bläddra och hantera enklare på datorn. För att bilden skall vara till någon större glädje för en forskare borde det dessutom finnas så mycket uppgifter som möjligt om bilden, både om originalet och om vad bilden föreställer (vem, var, när, vad?). Sådana uppgifter är också viktiga för att man skall kunna söka och hitta bland bilderna. Uppgifterna kan antingen lagras i själva filen eller i en databas, helst båda.

Fotografering används i synnerhet då det gäller föremål och stora bilder såsom tavlor och kartor. Med skanner kan man uppnå stora resolutioner, upp till 24 000 ppi, men fotografering är många gånger snabbare och enklare med stora objekt. Vid fotografering kan i vissa fall uppstå upphovsrätt om fotografiet har verksstatus. Gränsen är något flytande, men det är alltid hyggligt att nämna fotografens namn om man har det då man använder en bild. I princip anses ändå att ny upphovsrätt inte uppstår vid digitalisering, vilket likställs med en ny utgåva av originalet.

Då man beställer en bild för att använda den är det viktigt att kontrollera att man får tillräckligt med uppgifter om bilden, inte minst om upphovspersonen och innehållet. Det är också stor skillnad om bilden ska tryckas eller användas i något annat syfte, t.ex. på webben, vilket man bör beakta då man beställer en bild. Andra siffror, format eller färgprofiler etc. behöver lekmän inte bry sig så mycket om i detta skede, eftersom de är så pass standardiserade tekniska saker.

Tross från Mollösund, Bohusläns museum

Ett exempel på digitalisering i form av bilder av föremål: “Tross av hampa, drygt 19 meter. I två delar. Försedd med öglor insplitsad. Har använts vid islandsfiske med drivgarn efter sill. Från Mollösund.” (Bohusläns museum, en av två bilder) Från Digitalt Museum, http://digitaltmuseum.se/011024279446 (hämtad 2016-09-16, licens CC BY-NC-ND 4.0).

[Tillbaka upp]


Fördjupning:

Fördjupning: ProBok – en proveniens- och bokbandsdatabas

Helena Strömquist


Digitalisering av ljud och rörlig bild

Då det gäller digitalisering av ljud och rörlig bild gäller i princip alla de ovan diskuterade principerna och problemen. Ljud- och videoinspelningar på magnetband förstörs av sig själva rätt snabbt, redan inom några decennier, men det kan vara stor skillnad i kvaliteten så man kan sällan vara säker på den exakta livslängden. För CD-skivor räknar man inte heller med någon längre livstid. I praktiken är det så att information som går förlorad vid digitaliseringen ofta är förlorad för evigt.

Exempel på fyrabitars PCM (puls code modulation), Wikipedia

Digitaliseringen tvingar till val eftersom den digitala informationen är diskret till sin karaktär. Vid digitalisering av ljud måste man bestämma sig för till exempel samplingsfrekvensen. Från Wikimedia Commons (användare Aquegg~commonswiki), https://en.wikipedia.org/wiki/File:Pcm.svg (hämtad 2016-09-16, licens CC BY-SA 3.0).

Då det gäller skapandet av ljudfiler finns det många parametrar man måste ta ställning till, som påverkar slutresultatet. Man måste definiera skala och format för både ljudstyrka (decibel), frekvenser (Hertz), samplingsfrekvens och bitdjup och förstås filformatet. I mån av möjlighet borde man använda samma apparatur vid digitaliseringen, som använts vid den ursprungliga inspelningen. Också då det gäller ljud är det mycket viktigt att man inte gör ingrepp för att “förbättra” ljudkvaliteten i samband med själva digitaliseringen. Till exempel eventuellt reducerande av brus ska göras som separata åtgärder, på kopior av den så kallade masterfilen eller arkivfilen, eftersom information alltid försvinner under processen och tekniken hela tiden blir bättre. Det händer ofta att man behöver gå tillbaka till en tidigare version av en inspelning för att förbättra resultatet då tekniken förbättras. Då ett analogt original förstörts, är den ursprungliga digitaliseringen den ursprungligaste versionen. Den bör därför vara så rik på information som bara någonsin är möjligt. Även om det innebär att en hel del brus ingår och det inte låter särskilt bra. Användarkopior av materialet kan sedan behandlas på ett sådant sätt att ljudet låter bra för människoörat.

Filer med rörlig bild består av både en ljudfil och en serie bilder. Bilderna kan vara separata eller innehålla radsprång (interlacing), vilket innebär att de enskilda bilderna är strimlade i mycket smala rader som sedan är sammanflätade lite i otakt, vilket gör att bilderna kan vara färre och ändå ge rörelsen på filmen ett smidigt intryck. Vidare kan filer packas så att endast de ställen som förändrats från föregående bild ersätts i följande bild, så att resten av bildens kod i praktiken säger ”ta detta område från den förra bilden”. Man tar gärna till dylika tekniker för att få mindre filstorlekar, eftersom videofiler är mycket stora, hundratals gånger större än ljudfiler och tusentals gånger större än textfiler. Slutresultatet är att filer med rörlig bild är enorma och väldigt komplexa till sin struktur. Om filerna är väldigt komprimerade är de mindre pålitliga eftersom den enskilda bilden innehåller artefakter, alltså sådan information som datorn konstruerat. Å andra sidan kan man ju komma ihåg att också människans egen hjärna fyller i avsevärda delar av det vi tror oss se på ett liknande sätt (unconscious inference), men varje tolkning eller överföring av information förvanskar eller förändrar den ytterligare.

Beskrivande metadata är viktig för sökning i rörlig bild och ljud. Man har dessutom stor nytta av tidskodning. Om man har en ljudfil utskriven som text kan man göra kodningen i xml. Automatisk transkribering av ljud är ett viktigt område under kraftig utveckling, som kommer att hjälpa mycket vid sökning i framtiden. Många språkvetare är bekanta med talspråkskorpusar, där man sparat både ljud och text med ibland flera varianter av transkribering med inflikade tidskoder, så att man med rätt program kan plocka fram exakt rätt ställe i ljudfilen. Samma teknik kan givetvis användas på videofiler. Tal- och bildigenkänning är tekniker som utvecklas mycket snabbt. Med hjälp av dem förbättras sökbarheten betydligt, då bilder kan taggas automatiskt och ljud- och videofiler göras sökbara och även annoteras automatiskt. Samtidigt lider dessa metoder ännu av samma problem med stora skillnader i kvalitet beroende på material och maskininlärningens effektivitet och nivå. Ogranskade material innehåller tills vidare i praktiken alltid fel och maskinella tolkningar som skiljer sig från hur en människa skulle tolka innebörden i materialet.

[Tillbaka upp]

Källkritik och hänvisningar på webben

Kenneth Nyberg

Den grundläggande förändring, med en mängd uttryck på olika områden och nivåer, som internets framväxt representerar handlar ytterst om en sak: tillgänglighet. Som tidigare nämnts har vi gått från en situation av brist till överflöd på information eller, i historikerns fall, på källor. En del av dessa är digitalfödda (eng. born digital) och en del är digitaliserade från befintliga, fysiska källor, men de har alla det gemensamt att vi i allt större utsträckning når dem via internet. I detta avsnitt ska vi titta närmare på vad det betyder för källkritik och hänvisningar på webben, och i nästa mer specifikt på samma frågor i relation till material i digitala arkiv.

I båda fallen är det viktigt att fråga sig vad som egentligen är nytt i den digitala världen och vad som inte förändrats sedan tidigare. Ett första, ganska givet och allmänt svar på det som ändå bör understrykas, är att källkritik i grunden alltid är och har varit ett förhållningssätt och inte i första hand en teknik. Däremot kommer självfallet denna hållning till uttryck i form av olika ”tekniker” eller handfasta råd, och därför är stora delar av detta och följande avsnitt tämligen konkreta och praktiska till sin karaktär.

Källkritikens grundprinciper

Som en utgångspunkt för det som följer kan det vara värt att kort summera den klassiska källkritikens grundprinciper, de begrepp som generationer av studerande i både Norden och andra delar av världen har fått lära sig genom åren. Kort uttryckt är källkritiken, ur ett forskarperspektiv, en samling riktlinjer för att avgöra en källas äkthet, trovärdighet och relevans för den fråga vi söker svar på. Inom historieämnet utgjorde dessa principer länge, och är kanske i vissa avseenden fortfarande, det sammanhållande metodologiska ramverket i avsaknad av mer utvecklade teoretisk-metodologiska modeller; som ett brett ämne med många subdiscipliner har källkritiken sålunda utgjort ett förenande band mellan utövarna. Åtminstone är det ofta så det framställs i grundutbildningen i historia.

De grundläggande källkritiska principerna har mycket gamla rötter men kom att systematiseras i den form vi känner dem idag från 1800-talet och framåt, under en period när många historiker eftersträvade en mer objektiv och exakt historievetenskap inspirerad av natur- och samhällsvetenskaplig forskning. Ambitionen att med ett batteri kritiska frågor avtäcka Sanningen, uttryckt i Leopold von Rankes berömda formulering ”Vad har egentligen hänt?” (wie es eigentlich gewesen), har fått sig många törnar sedan dess och anspråken har skruvats ner något; idag talar vi mer om att målet för vår granskning av källorna är att kunna uttala oss om sannolikheter och ”giltighet”.[11]

Källkritikens bud kan sammanfattas och grupperas på olika sätt. Ett är den heltäckande frågan, begriplig utan några som helst fackkunskaper, ”Vem säger vad till vem i vilken situation och med vilket syfte?” Ett annat är att tala om ”yttre” kritik – en källas tillkomst, bakgrund och eventuella avsikter – respektive ”inre” kritik – själva innehållet och dess trovärdighet – samt växelspelet däremellan i en hermeneutisk cirkel eller (i bästa fall) spiral. Den yttre kritiken hjälper oss utföra den inre, vilket ger en bättre förståelse för att utveckla den yttre kritiken osv. Ett tredje sätt, för de flesta kanske det mest bekanta, är att systematisera källkritiken utifrån fyra moment, vilka alla är beroende av varandra i varierande mån:

  • Äkthet: Är källan vad den utger sig för att vara, vad den tycks vara? Detta är givetvis en första förutsättning för att alls kunna avgöra dess användbarhet för den fråga vi vill besvara. Även en förfalskning kan vara av relevans beroende på hur och när den tillkommit, men att någorlunda säkert kunna etablera vad en källa faktiskt representerar (eller inte) är en grundförutsättning för resterande steg i värderingen.
  • Närhet (samtidighet): Hur nära i tid och rum till det vi vill veta något om ligger källans tillkomst? Ju närmare desto bättre (allt annat lika), men ibland får vi nöja oss med källor tillkomna ganska långt från/efter den tid de berättar om.
  • Beroende: Flera källor som berättar om samma sak är alltid bättre än en enda, men om en av dem helt bygger på den andra – är beroende av den – har den givetvis inget självständigt värde som källa. Åtminstone är det så i normala fall; återigen kan det bero på hur relationen mellan den så kallade primärkällan och sekundärkällan ser ut mer i detalj, eftersom tillkomsthistorien också kan ge intressant information som belyser det vi vill veta något om.
  • Tendens: Här ställs frågan vilka avsikter och intressen som präglar källan, dvs. om det finns skäl att anta att framställningen är skev i en viss riktning för att någon har intresse av att ge en viss bild av en händelse eller ett förlopp. Det är inte nödvändigtvis så att en mer ”neutral” framställning alltid är bättre än en mer tendentiös, åtminstone inte om man är medveten om tendensen; tvärtom kan skevheten i källan, särskilt när den lämnar uppgifter som går på tvärs mot tendensen (alltså strider mot upphovspersonens intressen), bidra till att stärka trovärdigheten i just dessa uppgifter.

En viktig aspekt i den källkritiska prövningen är till sist om källan kan betraktas som en kvarleva eller en berättande källa. Är det en direkt kvarleva av ett historiskt förlopp och vi kan fastställa dess äkthet – till exempel ett kontrakt, en lagsamling eller ett mynt – är den definitionsmässigt en primärkälla som värderas mycket högt eftersom den genom sin blotta existens så att säga är en bit av historien. Olika former av beskrivningar gjorda av människor – vare sig det är rättegångsprotokoll, brev eller målningar – är däremot så kallade berättande källor där beroende, tendens och närhet blir viktiga kriterier för granskningen. Samtidigt är det alltid den ställda frågan som avgör om en källa är berättande eller kan behandlas som en kvarleva, vilket är en helt avgörande poäng. Om själva syftet exempelvis är att undersöka hur en resenär uppfattade ett främmande land blir hennes eller hans beskrivning en kvarleva i relation till frågor om författarens synsätt, men en berättande källa i förhållande till frågor om situationen i det aktuella landet.

Även om alla de moment som berörts här i princip är relevanta för den källkritiska värderingen, handlar det i praktiken alltid om en helhetsbedömning där olika aspekter vägs mot varandra och där kunskaper om det historiska sammanhanget används för att ytterligare fördjupa förståelsen av källans värde och relevans för frågan. Därmed är den källkritiska granskningen alltid en hermeneutisk process med en ständig växelverkan mellan del och helhet, källan och dess sammanhang. Av den anledningen är det också många som idag hellre talar om källanalys eller källvärdering snarare än källkritik.

Webben som medium

Oavsett vilken etikett vi använder är ovanstående framställning präglad av de former och uttryckssätt som förknippas med traditionell historisk forskning, baserad på tryckt och otryckt material – främst text på papper av olika slag. Det väcker frågan om hur källkritikens förutsättningar förändras av det nya digitala landskapet i allmänhet och webben i synnerhet. Vad skiljer egentligen dessa två miljöer från varandra och vad är likt? För att kunna säga något om det behöver vi först ringa in vad internet, särskilt webben, är och inte är i detta sammanhang, vilket inte är helt självklart. Några av dessa kännetecken har vi redan berört, men långtifrån alla.

För det första bör det påpekas att internet egentligen är summan av en lång rad nätverk och protokoll som numera knyter samman världen: FTP, e-post, Usenet och, förstås, HTTP (webben) för att nu bara nämna några. Idag spelar också olika typer av specialiserade appar för både datorer, surfplattor och mobiltelefoner en växande roll för trafiken på internet, men det lämnar vi därhän för nu. I det följande är det just World Wide Web – inklusive webbaserade plattformar som Facebook, Twitter och Youtube – som står i centrum, eftersom det är där de verkligt stora informationsmängderna finns och det är där vi s.a.s. måste navigera utan att någon föregående filtrering egentligen har skett. Det är en stor skillnad mot tidigare, då publicering innebar att ett material hade passerat något slags gallrings- eller filtermekanism som innebar att inte riktigt vad som helst kunde slinka igenom.

Även på webben har nya filter börjat växa fram, inte minst genom de algoritmer som styr alltmer av både Google-sökningar och Facebook-flöden, men publicering av ett innehåll på webben innebär i sig inget annat än att en person med tillgång till nätet valt att lägga upp det där. Med webben ”drabbas” vi alltså dels av ett informationsöverflöd av tidigare oanade proportioner, dels av det faktum att vi själva måste bli än mer kapabla att snabbt kunna granska och värdera uppgifter vi hittar där. Webben är därmed inte en källa utan ett medium eller en (typ av) kanal. Materialet där är inte bättre eller sämre än i något annat medium, men förutsättningarna för publicering ser ut på ett visst sätt och det påverkar hur vår källkritiska hållning bör komma till konkret uttryck.

Ett kännetecken är, per definition, att material på webben (vare sig det är text, bilder eller något annat) i praktisk mening inte går att granska fysiskt utan bara som ”data” eller ”innehåll”.[12] Den typ av källkritik som tidigare handlade om att studera papperssorter, bläcktyper med mera är inte möjlig här, och om vi inte anlitar oerhört sofistikerad teknisk expertis med tillgång till serverloggar etc. kan vi oftast inte heller säga något säkert om hur en viss fil hamnat i ett visst sammanhang på webben (vare sig rent tekniskt, i form av var den lagras på internet, eller i mer överförd bemärkelse hur den kommit till en viss webbplats). Av samma skäl kan vi ofta inte skilja på original och kopior på samma sätt, då duplicering i princip inte kostar någonting, och det är också relativt lätt att manipulera innehållet i exempelvis en text utan att vi direkt kan se det.

Det leder oss in på ett annat kännetecken för webben och för internet i allmänhet, nämligen att innehållet är föränderligt – vissa skulle säga instabilt – på ett sätt som inte riktigt gäller för pappersbaserat material. Även tryckta verk är visserligen inte fullt så oföränderliga och stabila som vi ibland vill tro, men det är ändå en kvalitativ skillnad, och ofta en del av själva poängen med webben att vi till näranog ingen marginalkostnad kan förändra, utveckla, revidera, duplicera och radera innehåll där. Det betyder att beroendeförhållanden kan bli oerhört komplexa att reda ut när till exempel en viss text förekommer i ett stort antal varianter efter att ha spritt sig genom sociala medier, på bloggar och andra webbplatser. En annan konsekvens, som egentligen hör till avsnittet om hänvisningar nedan men bör nämnas redan nu, är att det i forskningssammanhang alltid är en god idé att spara undan eller göra en utskrift av webbsidor man tänker använda sig av eftersom de kan vara borta när man väl behöver dem; därför är det också viktigt att i näthänvisningar alltid ange datum för när en sida eller fil har hämtats. En sådan datumangivelse gör det också lättare att kontrollera om en i tid närliggande version av webbplatsen finns arkiverad hos Internet Archive (http://archive.org), om originalsidan inte längre finns kvar.[13]

Ett sista karakteristiskt drag för webben är slutligen det som gett den dess namn, nämligen det täta nät av ömsesidiga hänvisningar mellan sidor och resurser som gör att vi talar om hyperlänkning. Dessa nät av länkningar är viktiga för att de sätter in sidor i ett sammanhang som på vissa sätt (men inte alla) kan jämföras med ordnandet av material i ett arkiv efter proveniens (härkomst), dvs. genom att studera det kringliggande sammanhanget och källans placering i nätverket får vi viktig information om hur vi ska förstå den och dess tillkomst. De inbördes relationerna av länkar är också betydelsefulla i ett helt annat avseende, nämligen genom den viktiga roll de spelar för hur exempelvis Google rankar sökresultat; en av de faktorer som avgör hur högt en sida kommer i sökningar är just hur många andra sidor som länkar dit (och hur högt rankade dessa sidor i sin tur är).

Källkritik på nätet

Vad betyder då allt detta för källkritik på nätet mer konkret? Ja, för det första får vi här, liksom annorstädes, aldrig glömma bort att vilka svar som är mest värdefulla beror på den fråga vi ställer. Det kan låta trivialt, men det är ändå viktigt att påpeka att det inte är samma sak att snabbt kolla upp en enkel faktauppgift som blivit aktuell vid middagsbordet, som att få ett sakligt och allsidigt underlag kring någon laddad fråga som man tänker skriva om i ett vetenskapligt sammanhang. I det förra fallet är konsekvenserna av en felaktig eller missvisande uppgift mindre än i det senare, där det också blir mycket viktigare att bilda sig en uppfattning utifrån genuin och djup sakkunskap från flera experter på ett område.

För det andra är en mer generell förändring, kanske tvärtemot vad många skulle tro i första rummet, just att betydelsen av djup ämneskunskap om något blir ännu viktigare när man använder sig av material från webben. Ja, där finns en ocean av information, tillgången är större än någonsin, men detsamma kan sägas om osäkerheten kring hur all denna rikedom ska värderas. Och det enda sättet att göra sådana värderingar är att kunna utgå från just sakkunskap, antingen sin egen eller andras som man litar på. Inom områden man själv inte behärskar är det därför viktigt att kunna falla tillbaka på en mer generell kompetens att identifiera personer och institutioner man bedömer ha stor trovärdighet.

För det tredje blir därigenom sammanhanget (i vid mening) som en nätbaserad källa återfinns i av central betydelse. Just eftersom det handlar om ett nätverk, ytterst ett socialt system, blir källans plats i detta system ett någorlunda säkert mått på dess trovärdighet – särskilt i de fall där vi själva saknar kunskap för att bedöma den. Med andra ord, vem är det som säger något och vilken auktoritet (authority) bedömer vi att den personen har? Där kan vissa tekniska faktorer som domänadress och institutionstillhörighet spela in (exempelvis tillmäts välrenommerade universitet hög trovärdighet i vetenskapliga sammanhang), men också och kanske än mer vilka som länkar till eller behandlar källan ifråga som trovärdig. Samtidigt måste man också hela tiden i detta nätverk vara vaksam på att varje enskild länk kan förflytta en runt halva jorden och ställa en inför en helt ny avsändare med en helt annan avsikt än den vi betraktade för bara en minut sedan; och en enstaka länk betyder inte nödvändigtvis att någon vi litar på gett sitt ”godkännande” av någon för oss helt okänd person.

I sista hand är det alltså, i den digitala liksom den fysiska världen, alltid en fråga om en helhetsbedömning där olika faktorer vägs mot varandra. Ingen källa står över kritik, vi har alla våra motiv och intressen (även om det i vissa fall blir mer problematiskt än andra), och även den mest trovärdiga auktoritet kan ha fel. Det gäller alltså att utgå från vad ens fråga är, vilken typ av information och kunskap man är ute efter och väga källans värde utifrån sin samlade erfarenhet. Som Maria Ågren har påpekat i en mycket inflytelserik artikel om källkritik måste vi också alltid minnas att lika viktig som källkritik är självkritiken, att vara medvetna om de tendenser som präglar vår egen bedömning av källorna och de uppgifter de innehåller.[14]

Det hittills sagda sammanfattas nedan i en mer handfast ”checklista” med några av de frågor som man kan eller bör ställa sig när man försöker bedöma en källa på webben, en lista som är sammanställd utifrån en handfull av de många goda vägledningar som finns för källkritik på webben.[15] Viktningen av respektive moment kan självfallet variera beroende på vad frågan är och vilken typ av material man söker, och i slutändan blir det alltid nödvändigt att jämka och väga samman alla dessa (och kanske andra) aspekter.

Vem är det som uttalar sig?

– Var är jag? Tekniskt: Domänadress (www.uu.se osv.)

– Framgår det vem som står bakom/skrivit texten?

– På vilka grunder/utifrån vilka kunskaper uttalar hen sig?

– Är sidan publicerad av en välkänd/respekterad institution?

Vad är avsikten?

– Försäljning, ideologiska motiv, (påstått) saklig och allsidig information…?

När och hur tillkom informationen?

– Är informationen aktuell?

– Anges det när sidan uppdaterades?

– Anges det vid vilken tidpunkt informationen först kom till?

Relevans/värde

– Täcker källan in min fråga avseende bredd, djup, period, område?

– Är framställningens nivå rätt för mitt syfte?

– Finns materialet i en mer ursprunglig eller för mig mer relevant version någon annanstans?

Innehållets trovärdighet

– Hur kontrollerbart är innehållet? (Referenser, länkar osv.)

– Anges underlaget (beläggen) för de påståenden som görs?

– Är antaganden och slutsatser rimliga i förhållande till materialet?

Sammanhanget

– Hur hamnade jag här? Vem har länkat till sidan?

– Vad säger andra om denna källa/sida/upphovsman?

Länkning och hänvisningar

Till sist några ord om hantering av länkning och hänvisningar på webben. Hyperlänkarna är, som sagt, ett av mediets kännetecken, men komplexiteten och föränderligheten kan också göra det svårt att uppnå den stabilitet och permanens i hänvisningarna som traditionellt har varit ett ideal inom forskningen. En annan utmaning är att information, uppgifter, data som hämtats från internet, till och med om vi begränsar oss till just webben, kan komma i så många olika former och uttryck att det kan vara svårt att hitta format som tydliggör både vad det är för typ av källa och var man hittat den. För ett blogginlägg blir hänvisningen inte likadan som för en tweet, och kanske inte helt identisk med en enskild sida på en ”statisk” webbplats heller.[16]

Även om en praxis håller på att växa fram på olika håll råder det därför viss oklarhet om hur vetenskapliga citeringar ska utformas. I den osäkerheten gäller det att påminna sig om syftet med sådana hänvisningar, nämligen att göra det möjligt för läsare att lokalisera det åberopade materialet eller en motsvarande källa och granska det själv. Det gör att hänvisningar bör utformas så att de ger uppgift om:

  • upphov (person/institution – erkänsla åt skaparen av verket/arbetet),
  • rubrik/titel på citerat verk/material; vid behov också den
  • publikation verket är en del av (t.ex. blogg, webbplats, socialt nätverk) samt ev.
  • datum för tillkomst/publicering,
  • adress (t.ex. en http-länk i klartext så den följer med vid utskrift/konvertering),
  • datum för hämtning/nedladdning och (om det behövs för tydlighets skull)
  • typ av källa/material/verk, till exempel blogginlägg, tweet, Facebookstatus etc.[17]

För ett blogginlägg kan en hänvisning enligt ovan exempelvis se ut så här:

Jessica Parland-von Essen och Kenneth Nyberg, ”Text: Inledning”, Historia i en digital värld 2013-05-15, https://digihist.se/2013/05/15/text-inledning/ (hämtad 2013-09-05). [Blogginlägg.]

Och för en tweet:

Barack Obama (BarackObama), ”Four more years. pic.twitter.com/bAJE6Vom”, 2012-11-07, https://twitter.com/BarackObama/statuses/266031293945503744 (hämtad 2013-09-05). [Tweet.]

Ibland förekommer det att tweetar citeras bara med användarnamn och tidpunkt men utan webbadress. Att utelämna adressen på detta vis anser vi är olämpligt, särskilt eftersom det är notoriskt svårt att få fram just tweetar som är mer än några dagar gamla på grund av hur Twitters sökfunktion är upplagd. Liksom för annat webbaserat material bör därför tweetar citeras med en länk som leder direkt till källan. Den avslutande uppgiften om att det är en tweet, blogginlägg etc., är däremot inte ett absolut krav, utan den fungerar bara som ytterligare en hjälp till läsaren att förstå sammanhanget. Här som annars är det viktigaste att man är konsekvent i sina referenser eftersom det gör dem mer transparenta och därmed lättare att förstå.

[Tillbaka upp]

Källkritik och hänvisningar i material i digitala arkiv

Eftersom man ofta använder digitala material på ett annat sätt än fysiska arkiv finns det en del frågor som är specifika för digitaliserade material. Metadata är viktigt då det gäller digitala material, även digitaliserade, och man borde därför inkludera den i en källkritisk granskning.

Materialets proveniens och kontext

De allra viktigaste frågorna gäller förstås det sammanhang där man finner sin källa. Man måste därför allra först ställa frågor som: Vem är utgivaren av materialet? Är det en trovärdig instans med tillräcklig sakkunskap, så att man till exempel kan lita på den metadata som finns om objektet? Finns det möjligheter att lätt kontakta utgivaren? Eftersom alla databaser innehåller fel är en aktör som tydligt och enkelt erbjuder användarna möjligheter att berika eller korrigera information ofta en pålitligare källa. Det innebär nämligen i regel att fel rättas oftare.

En trovärdig utgivare av digitaliserade material erbjuder också mycket information om sin verksamhet, om digitaliseringsprocesserna, beskrivning av materialen och de digitaliserade helheterna och principerna för hur man skapar metadata. Dessutom används internationella standarder åtminstone för beskrivande och teknisk metadata.

Då det gäller digitalbaserade material bör det finnas bevarandeplaner, inkluderande processbeskrivningar och gärna redovisningar för att man arbetar med OAIS och andra standarder för digitala arkiv. Ett välkänt certifikat är det s.k. Data Seal of Approval, som kan hittas på certifierade arkivs webbsidor.[18] Tillräcklig metadata för proveniens bör finnas i form av PREMIS-metadata. (I detta skede räcker det att veta att man ska fråga efter dessa akronymer, vi behandlar innebörden av dem utförligare i följande kapitel.)

Materialets representativitet och urval

Det är viktigt att beakta hur man tagit fram materialet för sin forskning, det vill säga har man bläddrat eller gjort sökningar i en databas. Vilket material kan finnas som blivit utanför, hur har urvalet av de källor som digitaliserats gått till och vilka sökmöjligheter erbjuds till materialet?

Vilken är alltså mängden material man sökt i? Är den konstant eller växande? Om man gör samma sökningar om ett år eller tio – kommer man då att få samma resultat? Vilken är kvaliteten på metadata? Vem har skapat den och hur påverkar den sökresultaten? Svaren på dessa frågor övergår inte sällan i frågor som handlar om själva forskningsmetoden och de är därför ytterst relevanta att ställa.

Då det gäller metadata är det bra om den baserar sig på kontrollerade vokabulärer. Om sökningarna i ett arkiv fungerar bra, det vill säga att man med några sökningar får fram relevanta resultat, är det vanligen ett tecken på att metadata håller god kvalitet. Det är ändå viktigt att komma ihåg att databaser kräver betydligt mycket mer övning och tålamod att söka i än vad många i dag är vana med. Det är därför helt normalt att man måste göra flera sökningar kring varje ämne. Men man ser enkelt om sökningar på olika namnvarianter till exempel ger olika resultat. Det tyder på att metadata inte är normaliserade och sökningarna är därför opålitliga.

Kvaliteten av själva digitaliseringen

Beskrivande metadata är också här en relevant faktor. Det kan vara av intresse att veta måtten eller papperskvaliteten på objektet man studerar. Vid högklassig bilddigitalisering finns både ett mått och en färgskala inne i bilden. (Se ovan i avsnittet om bilddigitalisering.) Dessa syns dock inte alltid i brukskopiorna på webben, även om det vore bra om man vill ta en bild för tryckning. Med hjälp av det lilla färgbandet kan man nämligen kalibrera både datorskärm och tryckning så att färgerna återges korrekt. Vid digitalisering av god kvalitet har dessutom båda sidorna av varje dokument digitaliserats, eller så anges åtminstone eventuell text från baksidan i metadata.

Persistent identifiers (PID)

Varje dokument borde vara möjligt att länka till med ett id som är “evigt”, det vill säga en webbadress som är oberoende av systembyten eller annat. Dessa igenkänns ofta på adresselement som DOI, Handle eller URN. De bygger på tjänster med register som innehåller webbadresserna till respektive dokument och automatiskt länkar användaren vidare till den adress som är aktuell och fungerande. Ibland kan dessa register även innehålla annan information om materialet. Om beständiga id finns ska de alltid användas i första hand i stället för någon annan webbadress.

Hänvisning och länkning

I praktiken finns det för närvarande två olika typer av digitala arkiv som vanligen berör humanister och samhällsvetare: (forsknings)dataarkiv och kulturarvsmaterial som förvaltas av arkiv, museer och bibliotek och som kan vara digitalbaserade eller digitaliserade. Till den första kategorin hör europeiska forskningsinfratrukturer som språkbanker och samhällsvetenskapliga dataarkiv. De senare förvarar närmast digitalbaserade material såsom korpusar som kan innehålla text eller audiovisuella material. För historiker kan det vara utmanande att hantera splittringen, men likväl erbjuder alla dessa möjligheter till att göra bra hänvisningar. En särskild utmaning utgörs ända av det faktum att hanteringen av versioner till exempel då det gäller växande material inte är helt etablerad.

I ett professionellt upprätthållet digitalt arkiv har varje material ett unikt signum, även om man ibland anser att detta signum inte hör till en viss fil, utan till ett specifikt “informationsinnehåll”, varvid filen exempelvis kan bytas ut eller samma signum kan gälla flera olika versioner. I digitala arkiv finns till exempel i regel en arkivfil som ofta är en TIFF och en användarkopia som är en jpeg-fil. Dessutom kan det finnas minibilder (tumnaglar) som visas i sökresultaten och till exempel en utskriven textfil och övrig metadata, som allt sammankopplas med en PID. En beständig identifierare måste leda till en sida som innehåller information om materialets proveniens. Logiken är att materialet annars inte är dugligt som forskningsmaterial. Man ska således inte hänvisa direkt till en URN eller fil som innehåller bara data även om en del tjänster erbjuder sådana id. En människa som klickar på en länk vill inte råka i en situation där en flera gigabyte stor korpus laddas ner utan förvarning och utan metadata.

DataCite, organisationen bakom DOI, har formulerat principer om hur man ska använda dem vid hänvisningar. I princip behöver man inte uppge något datum för när man hämtat informationen, eftersom idén med de beständiga identifierarna är just beständigheten. Ett undantag utgörs ändå av de ovannämnda växande materialen, då nu data ständigt ackumuleras. Detta hanteras olika av olika arkiv (en del ger nya identifierare åt nya versioner eller kombinationer av filer, andra gör det inte), så här bör man vara uppmärksam och betänka att senare forskare bör kunna rekonstruera och upprepa samma operationer, t. ex. sökningar, man gjort och få samma resultat. Om detta inte går, måste man försöka dokumentera processen så nog som möjligt, så att den kan granskas.[19]

En detalj som ofta diskuteras är om man ska ange de beständiga identifierarna som webbadresser, alltså med förleden http:// eller https:// .[20] Ett argument mot detta är att vi knappast i evighet kommer att använda just http-protokollet och att hållbarheten och oföränderligheten därför riskerar att korrumperas. Ett argument för denna kutym är ändå att om man använder denna långa och “fula” form, är man mer användarvänlig i en digital miljö och identifieraren kan lätt kopieras som sådan t.ex. till en webbläsare om hypertexten tappats bort. Den signalerar också tydligt att det finns mer information att få på webben.

Doria urn

URN pekar här på katalogposten och bildfilerna har egna namn som är synliga. Men kan vi vara säkra på att filen är den samma om 10 år, även om den har samma namn? Det beror mycket på vilket förtroende vi tillmäter utgivaren. Skärmdump från http://www.doria.fi/handle/10024/79198 (hämtad 2016-10-29).

Då det handlar om digitaliserade material finns det förstås både ett fysiskt original, ett (eller flera) “informationsinnehåll” och en eller flera filer att hänvisa till. Varierande numrering av filer eller separata adresser till olika sidor och paginering ställer dessutom till det på ett sådant sätt att man i hänvisningen borde nämna alla dessa explicit.

Idealet vore om forskaren kunde skapa nya permanenta adresser enligt behov till arkivhelheter som man själv plockar ihop. Då kunde också samtidigt en relation registreras i den andra riktningen, nämligen från arkivmaterialet  till forskaren och publikationen. Detta skulle vara mycket värdefull information, inte minst för arkiven själva, men också med tanke på framtida lösningar med länkad data. Klickbarheten borde finnas från båda hållen, både från forskningstexten till källan och från källan till forskningen.

Detta kräver att man vid arkiven lär sig resonera på ett ytterligare nytt sätt. Nu tänker man gärna att vi i avsaknad av original som ska bevaras bara ska bevara “information” i många kopior och versioner. Man borde i stället ta ännu ett steg vidare och beakta att den “information” man bevarar de facto inte existerar utan sitt analoga uttryck, alltså mjuk- och hårdvara.[21] Vi bör därför fästa uppmärksamhet också vid de tekniska aspekterna av digitala arkiv. Det är skillnad på fil och fil, liksom på dator och dator, och informationen finns inte alls utan dessa. Också därför är det viktigt att man hänvisar till en helhet som består av både data och metadata.

I slutändan gäller förstås för forskaren att använda sitt sunda förnuft och eget omdöme och ange så mycket information som möjligt för att underlätta för andra att hitta fram till det material man använt. Om beständiga id eller länkar saknas är det särskilt viktigt att ange så detaljerad information om materialet som möjligt. Det är alltid bra att testa de webbadresser man anger. Till exempel kan det vara värdefullt att länka till specifika vyer eller sökresultatsidor, men då är det bra att testa att det faktiskt fungerar.

Topelius url

Skärmdump från http://www.topelius.fi/index.php?p=texts&bookId=12#itemId=12_1&sectionId=ch3&columns=[[|il|,-1],[|lt|,-1],[|fa|,0]] (hämtad 2016-10-29). En trovärdig utgivare som arbetar långsiktigt kan man förvänta sig att se till att dylika php-baserade adresser fungerar även i framtiden.

[Tillbaka upp]

Noter

[1] Se till exempel Jenn Rileys och Devin Beckers visualisering “Seeing Standards” (2009–2010), http://jennriley.com/metadatamap/ (hämtad 2016-08-30).

[2] Insamling, ordning och klassificeringssystem i sig har givetvis mycket viktiga och intressanta ideologiska dimensioner, en sak inte minst Michel Foucault pekat på. Som ett nordiskt exempel se Rainer Knapas, Kunskapens rike. Helsingfors universitetsbibliotek – Nationalbiblioteket 1640–2010 (Helsingfors: Svenska litteratursällskapet i Finland 2012), s. 116–119, 141–143 och 415.

[3] Inom museivärlden har man kommit längst med att ta i bruk de nya systemen som baserar sig på grundligt gjorda semantiska begreppsmodeller där man skiljer på begrepp och namn (CIDOC CRM), inom biblioteken har man länge arbetat med modellen (FRBROO) men att byta system har varit lättare sagt än gjort. Inom arkiven har processen varit betydligt mycket svårare men verkar ha kommit igång på olika håll.

[4] Se http://www.europeana.eu/portal/sv, http://www.ksamsok.se/, http://sondera.kb.se/, http://www.kdk.fi/sv samt https://www.finna.fi/?lng=sv (samtliga hämtade 2016-08-30).

[5] http://digi.lib.helsinki.fi/sanomalehti/secure/main.html (hämtad 2016-09-07).

[6] http://runeberg.org/ (hämtad 2016-09-07).

[7] http://www.tei-c.org/ (hämtad 2016-09-08).

[8] Se forskningsprojektet “Recognition and Enrichment of Archival Documents”, http://cordis.europa.eu/project/rcn/198756_en.html, och verktyget Transkribus, https://transkribus.eu/wikiDe/index.php/Hauptseite (hämtade 2016-09-07).

[9] Man kan läsa mer om färgrymder till exempel i Wikipedias artikel om “Gamut” (sv. färgomfång), http://en.wikipedia.org/wiki/Gamut (hämtad 2016-09-16).

[10] För intresserade finns det mycket läsning om ämnet på webben. Ett utförligt exempel är Pei-Ying Li, Ya-Ping Wang, Lang-Hsuan Kao, Digitization Procedures Guideline: Color Management, Taiwan e-Learning and Digital Archives Program, Taiwan Digital Archives Expansion Project (2011), http://culture.teldap.tw/culture/images/collection/20120820/Color%20Management.pdf (PDF, 18 Mb). En mer konkret inledning av Gareth Hawker finns i Artwatch UK-bloggen 2011-01-10, http://artwatch.org.uk/the-national-gallery-londonthe-world-leader-in-museums-online-provision-of-photographic-reproductions-of-paintings/ (hämtad 2016-09-16).

[11] Jfr Rolf Torstendahl, ”Källkritik, metod och vetenskap”, Historisk tidskrift 125:2 (2005), http://www.historisktidskrift.se/fulltext/2005-2/2005-2_209-217.htm (2016-10-14). Artikeln ingår i Historisk tidskrifts temanummer om källkritik (125:2) från 2005, som innehåller flera intressanta bidrag och sammantaget ger en god bild av hur historiker idag ser på dessa frågor.

[12] Stig Roland Rask, Med eller utan filter. Personliga funderingar kring etiken, pedagogiken, källkritiken och vuxenrollen när internet kommer till skolan (Stockholm: KK-stiftelsen 2000), s. 31, http://www.kks.se/om/Lists/Publikationer/Attachments/173/med_eller_utan_filter_2000_publ.pdf (PDF, hämtad 2016-10-14). Även om denna publikation hör till en tidig fas av internets utveckling och därför i delar är föråldrad, innehåller den en rad kloka observationer om vad som kännetecknar internet jämfört med de medier som tidigare varit dominerande.

[13] Det finns också argument för att obeständigheten hos hemsidor gör att man inte bör eller behöver ange datum då man hämtat en sida, och dem har Jessica Parland-von Essen skrivit om bland annat i två blogginlägg: ”Webbarkiv”, Essetter 2010-01-01, http://essetter.blogspot.fi/2010/01/webbarkiv.html, och ”Om att hänvisa till webbsidor”, Essetter 2011-02-03, http://essetter.blogspot.fi/2011/02/om-att-hanvisa-till-webbsidor.html (båda hämtade 2016-10-14).

[14] Maria Ågren, ”Synlighet, vikt, trovärdighet – och självkritik. Några synpunkter på källkritikens roll i dagens historieforskning”, Historisk tidskrift 125:2 (2005), http://www.historisktidskrift.se/fulltext/2005-2/2005-2_249-262.htm (hämtad 2016-10-14).

[15] Se ”Critically Analyzing Information Sources: Critical Appraisal and Analysis”, Cornell University Library, http://guides.library.cornell.edu/criticallyanalyzing; ”Källkritik”, Umeå universitetsbibliotek, http://www.ub.umu.se/skriva/kallkritik; ”Kolla källan”, Skolverket, http://www.skolverket.se/skolutveckling/resurser-for-larande/kollakallan; och Kristina Alexandersson, ”Källkritik på Internet”, Stiftelsen för Internetinfrastruktur, https://www.iis.se/lar-dig-mer/guider/kallkritik-pa-internet/ (samtliga hämtade 2016-10-14).

[16] Jfr Jessica Parland-von Essen, ”Att hänvisa till en tweet”, Essetter 2012-03-11, http://essetter.blogspot.fi/2012/03/att-hanvisa-till-en-tweet.html (hämtad 2013-09-07).

[17] Sedan ovanstående skrevs första gången 2013 har den i dessa frågor inflytelserika Modern Language Association antagit ett liknande men mer genomarbetat principschema för hänvisningsformat. Istället för att försöka täcka in varje tänkbar typ av referens med normerande exempel, en alltmer omöjlig uppgift, är schemat uppbyggt kring ett antal “core elements” som är gemensamma för alla hänvisningar. Se Modern Language Association, “Works Cited: A Quick Guide”, The MLA Style Center, https://style.mla.org/works-cited-a-quick-guide/ (hämtad 2016-10-14).

[18] Se närmare Data Seal of Approval: http://www.datasealofapproval.org/en/ (hämtad 2016-10-22).

[19] DataCite Metdata Schema for the Publication and Citation of Research Data. Version 4.0 (19 September 2016), https://schema.datacite.org/meta/kernel-4.0/ (hämtad 2016-10-23).

[20] Ed Pentz, “New Crossref DOI display guidelines are on the way”, The Art of Persistence 2016-09-27, http://blog.crossref.org/2016/09/new-crossref-doi-display-guidelines.html (hämtad 2016-10-20).

[21] Matthew Kirschenbaum, ”The .txtual Condition: Digital Humanities, Born-Digital Archives and the Future Library”, Digital Humanities Quarterly 7:1 (2013), http://www.digitalhumanities.org/dhq/vol/7/1/000151/000151.html (hämtad 2016-10-23).