Jessica Parland-von Essen
Digitalisering av text
Inom kulturarvssektorn har man ofta förespråkat massdigitalisering och digitalisering av hela material och serier snarare än urval baserade på forskares eller kunders behov och önskemål. Denna linje har motiverats med bästa input-output-nytta, alltså flest filer och gigabytes, frånvaro av en extra urvalsprocess och den största nytta man hävdar komma för forskare med obrutna helheter som är mycket använda och som genom digitalisering kan skyddas från slitage. Linjen har dessutom förstärkts genom resultatstyrningen inom den offentliga sektorn som belönar mängd fram om kvalitet. En stor del av materialen är därför digitaliserade från gamla mikrofilmer, vilket är både billigt och snabbt. Kort sagt skannar man gärna in bilder av dokument så automatiserat som möjligt.
Problemet var, och är det delvis fortfarande, att sökbarheten i sådana arkivmaterial är mycket dålig, inte minst för att metadata eller annan kontextuell information är bristfälliga. I praktiken har man gjort livet lite enklare för (släkt)forskare som kanske nu kan titta på dokument på skärm hemma istället för att behöva ta sig till en forskarsal. Å andra sidan vet varenda forskare att kvaliteten ofta är dålig på dessa material och det är mycket tröttsamt och arbetsdrygt att läsa oskarp text från en datorskärm. När man väl hittat det man söker, vill den seriösa forskaren dessutom ofta ändå granska originalet för att kunna göra källkritisk bedömning, eftersom det i metadata saknas information om papperskvalitet och dylikt. Äldre digitalisering gjordes svartvit och i värsta fall som tvåbit (alltså utan gråtoner) så all färginformation har försvunnit. Därför är det mycket problematiskt att man rutinmässigt belägger originalen till digitaliserade material med totalt användningsförbud vid vissa arkiv.
Denna form av digitalisering är i regel ändå bara det första steget vid digitalisering av text. Är texten maskinskriven eller tryckt kan den också läsas in maskinellt så att den tekniskt sett faktiskt blir en text istället för en bild. Processen kallas ofta optical character recognition, OCR. Sådan text är genast sökbar och betydligt mer hanterlig för en forskare, man kan till exempel kopiera den in i ett dokument. Problemet är att om bilden är av dålig kvalitet kommer den digitala texten sannolikt att innehålla många fel, även om den maskinella avläsningen hela tiden blir bättre. I det finska Historiska tidningsbiblioteket har man löst detta genom att använda sig av oskarp logik (fuzzy logic, sumea haku). Denna metod ger programmet möjlighet att förbise felen och söka textsträngar som liknar på ett ungefär, i motsats till normal datorlogik, där allt antingen är ja eller nej, 1 eller 0.
I Australien – eller inom Project Runeberg – har man i stället använt sig av de möjligheter webben erbjuder, genom att låta användarna rätta korrekturfel direkt i databasen. Detta är förstås mycket klokt genom att kvaliteten hela tiden förbättras på ett för webben typiskt sätt och varje korrigering behöver göras endast en gång. Erfarenheterna har varit goda.
Vad gäller handskrifter är situationen tillsvidare en annan. Själva texten måste uttydas av en människa och skrivas in manuellt i en annan fil. I detta fall är det den som gör arbetet som gör tolkningen av texten, som vanligen är betydligt mer utmanande då det gäller handskriven text. När texten skrivs in måste man välja hur man förhåller sig till stavfel, otydliga bokstäver eller saker som överstrykningar. För detta ändamål kan man använda sig av koder, förslagsvis TEI-kod (Text Encoding Initiative) som erbjuder en standardiserad form för att märka ut sådant i texten. Detta ger sedan möjlighet att presentera texten på olika sätt på en datorskärm enligt redaktörers eller användares preferenser.
Genom att presentera bilden och den inskrivna texten samtidigt för användaren erbjuder man möjlighet för forskaren att göra egna tolkningar, men man har ändå möjliggjort bra sökning och kopieringsmöjligheter. Att skriva in text på detta sätt är ungefär hundra gånger dyrare än att bara producera bilder av arkivdokument. Ett exempel på hur man med annotering med TEI-kod kan beskriva hur en handskrift ser ut:
Du har ju vågat en fräckhet som jag godtagit, <add place="below" medium="pencil">ehuru</add> inte för att <subst><del>vad du sagt</del><add place="below" medium="pencil">de infall du haft</add></subst> varit sista ordet.
Den annoterade texten är svår att gestalta som ren kod, varför olika visningsprogram är nödvändiga för att man ska kunna använda den kodade texten på ett bra sätt, i synnerhet om man inte arbetat med annotering själv.
Till svårigheterna på handskrifts- och arkivsidan hör ytterligare katalogiseringstraditionen och den arkivvetenskapliga synen på dokument som diskuterades ovan. Ett arkiv har bildats under och genom en specifik verksamhet och det enskilda dokumentets plats i strukturen anger dess kontext. Till skillnad från bibliotek, då man beskriver varje bok på en egen katalogpost, beskriver man inom arkiv strukturen med en hierarkisk ordning, som i sig utgör beskrivning av det enskilda dokumentet. Några ytterligare särskilda klasser, ämnesord eller dylikt behövs inte. Det är förstås arbetsekonomiskt vettigt, men i digitala sammanhang – då man lätt har att göra med ett enskilt dokument helt lösryckt ur sitt sammanhang – blir det lätt svåröverskådligt.
Om man har texten ordentligt utskriven och annoterad blir den sökbar och kan användas eller ytterligare vidareförädlas på många sätt. Förutom de TEI-koder som ovan nämndes i samband med hur ett manuskript ser ut kan man markera till exempel namn, språk, orter, titlar eller vad man önskar i texten. Själva texten blir då en xml-fil som består av läsbar text, men som också kan visas snyggt och på flera olika sätt enligt hur man önskar på en skärm. Den som någon gång arbetat med enkel html vet idén i stort, principen är den samma. Man markerar delar av texten med taggar före och efter det annoterade avsnittet, det kallas att taggar öppnas och stängs. Dessutom finns det en hel del regler om hur man skall göra det för att följa standarden. Vissa taggar behöver inte stängas.
<name type="person">Thomas Hoccleve</name> <name type="place">Villingaholt</name> <name type="org">Vetus Latina Institut</name> <name type="person" ref="#HOC001">Occleve</name>
Då man annoterat texten kan man också föra in en kopia i en databas om man vill, eller länka personnamn till auktoritetsregister eller orter till koordinater. Arbetet låter drygt, men det är förvånansvärt snabbt, förstås beroende på hur komplicerad kod man använder och hur många korrekturläsningar man gör. Då man läser korrektur på kodens grammatik kallas det validering. Det kan man göra automatiskt med ett valideringsverktyg som hittar fel i koden åt en. Då man läser korrektur på själva texten kallas det för kollationering. Det ska helst göras av en annan person än den som skrivit in texten.
Det är i alla fall helt klart att för många forskningsändamål är dylikt berikande av text en stor hjälp och gör det möjligt att få fram strukturer och samband man annars kanske aldrig kunde ha fått syn på. Då texter är i digital form kan man göra omfattande sökningar i litteratur eller till exempel tidningsmaterial som av arbetsekonomiska skäl annars blivit helt outnyttjade som källor. Poängen här är fulltextsökning, det vill säga att användaren kan söka inne i texterna, i dokumenten och inte bara i metadata, alltså kataloger och register, som ibland kan dölja information mer än att hjälpa en rätt.
De stora textmassorna är förstås en guldgruva för lingvister, vare sig de är annoterade eller inte. Stora textmassor ger möjligheter att undersöka språk och utveckla språkteknologi och de kallas korpusar då man upprätthåller dem i detta syfte. Automatisk översättning är till exempel en utmaning som många arbetar med och som skulle avhjälpa den språkförbistring som många gånger finns på nätet och som i Europa mest syns som en dramatisk ökning av det anglosaxiska inflytandet på snart sagt alla områden. Forskningen går också mycket snabbt framåt och också Google har hållit sig väl framme.
Historiker är ofta intresserade av enskilda uppgifter i de stora textmassorna, varför de gärna uppskattar tjänster som bygger på databaslösningar, där texten ordnats enligt innehållets struktur, vilket gör sökandet mycket effektivare. Databaser med uppgifter ur kyrkböcker eller dylikt passar bra att göra till databaser eftersom de är väl strukturerade, men det skulle vara önskvärt att man parallellt med texten kunde studera bilden av originalet.
Litteraturvetare är ofta mer intresserade av intertextuella relationer eller litterära processer, som på ett mycket bra sätt kan återges genom annotering. Den digitala textens många nivåer fungerar på ett liknande sätt som texten ”på riktigt” gör då den blir till. Med hjälp av TEI är det till exempel lätt att jämföra olika varianter av en text, och dessa kan också behandlas som jämbördiga, då man slipper den tryckta bokens endimensionella eller betydligt klumpigare format.
Det finns alltså lika många behov och ansatser som det finns forskare och forskningsdiscipliner då det gäller annotering av text och det är knappast värt att annotera allt med tanke på alla eventuella framtida forskare. Det är ändå så, att man aldrig kan veta med säkerhet vad som anses relevant och viktigt för vetenskapen i framtiden. Som ett klassiskt exempel inom bokhistorien kan man nämna alla de skyddspapper och papperspärmar som tagits bort då man bundit in böcker, som i dag är mycket eftersökta och intressanta för forskare, eftersom de berättar väldigt mycket om bokmarknaden, ett område som tidigare inte uppfattades som särskilt kulturhistoriskt relevant. Och ändå är det ju så, att forskare läser, skriver och behandlar stora mängder text under sin forskning och att allt detta material också kunde göras till råmaterial för ny forskning. Det behövs mycket samarbete mellan arkiv och bibliotek och forskare för att digitalisering ska kunna göras på ett bra sätt. Med nära och integrerade samarbeten med forskare får också kulturarvsorganisationerna omedelbart mervärde för sina digitaliserade material. Material som bearbetats, strukturerats och berikats och som det finns forskning om kan också ge den mindre insatta användaren mycket mer än en massa bilder av dokument man inte kan gestalta betydelsen av på något sätt.
Läs också:
Fördjupning: Digitala textkritiska utgåvor
av Jenny Bergenmar
Fördjupning: Textkorpusar för historikerbruk – ett inifrånperspektiv
av Helena Holm-Cüzdan och Julia von Boguslawski
Pingback: Fördjupning: Digitala textkritiska utgåvor | Historia i en digital värld
Det skulle ju vara intressant om man från TEI (eller motsvarande) kunde referera tillbaks till ett område på (den skannade) sidan. Då blir det lätt kolla upp om ett ord är rätt tolkat, man kan länka in bilder och mycket annat som jag inte ens kommer att tänka på.
Och fast man idag inte kan tolka handskriven text med OCR så kommer man antagligen om typ 20 år att kunna göra det. För 25 år sedan var OCR-programmen i de flesta fall rätt usla.
Och kanske vi någon dag får en recaptcha för handskriven text? Men jag gissar problemet där blir att människor (i bemärkelsen vanliga dödliga) inte mera kan tolka gammal handstil, oberoende av hur prydlig den är.
Jag har för mig att motsvarande teknik finns i det Historiska tidningsbiblioteket som innehåller .pdf och har sk ALTO-xmlfiler till som används som index. Åtminstone markeras ju sökresultaten med färg på bilden. Tyvärr är ju den inlästa texten inte synlig eller möjlig att korrigera – kanske delvis av samma orsak?
Jag tror också på OCR av handskriven text i framtiden. Det borde det facto vara möjligt redan i dag, tycker man. På samma sätt som man nu lär en dator läsa sin egen handskrift via skärmen, torde man ju kunna lära den via bilder av ord, som man skriver ut åt programmet? Eller vad tror du?
/Jessica
Nu är jag ganska långt ute på hal is, men…
Jag har för mig OCR-program i början (för typ 25 år sedan) kände igen bilder. Då lärde man programmet skilt för varje font och resolution hur bokstäverna såg ut. Jag har för mig de nuförtiden känner igen mönster. Någon (tillverkaren åt privatpersoner) har lärt dem formen av bokstäverna. Lite sådär som barn ritar bilder genom att förbinda prickar. De klarar t.ex. ganska galant av roterade och enkelt transformerade (så som ihopklämda) bokstäver. De kör någon form av heuristik med vars hjälp de kan säga vilken bokstav det med största sannolikhet är. De klarar därför av olika fonter utan att man för varje font behöver öva upp dem. Men det är ändå i grund och botten samma mönster.
Med skrivstil är problemet att bokstäver kan se olika ut beroende på vilka bokstäver som kommer före och efter. Dessutom finns det en ziljon olika skrivstilar och framför allt handstilar. Problemet här blir antagligen att variansen mellan olika instanser av samma bokstav blir större än variansen mellan olika bokstäver.
Jag gissar det kommer att komma något system som försöker tolka handstil baserat på hur den tror man fört pennan/penseln/… och som kan tolka mera än en bokstav i taget.
Riktigt intressant blir det här sedan när det kommer (fast NSA har det säkert redan ;-)) program som kan känna igen handstilar. Jag gissar historiker kan vara intresserade av vilka texter någon skrivit/kopierat och/eller om flera personer skrivit på en text.
Men det här är bara mina vilda gissningar…
Jag tänker mig just att man åtminstone i början måste lära programmet varje handstil skilt. Nån forskare som håller på med Kekkonens brev kunde exivs ta 30 slumpmässiga brev och ”bokstavera” dem för softan, varefter programmet kanske skulle klara av att gissa resten av just hans material – och kanske lära av korrigeringar an efter? Det bästa vore om man sedan kunde samla all denna info i molnet (låter som just sånt som google kunde få för sig …) så kunde man småningom bygga upp en databas och en mjukvara som kan läsa olika handstilar. Tycker jag. Man borde göra. 🙂
Ang. TEI och bildmarkering förekommer det ett verkyg för att hänvisa till områden i (skannade) bilder.
http://wiki.tei-c.org/index.php/ImageMarkupTool
Intressant – tack Johan!
Pingback: Text: Digitalisering av text | Historia i en digital värld