Textkorpusar för historikerbruk – ett inifrånperspektiv

Av Helena Holm-Cüzdan och Julia von Boguslawski 

Denna fördjupningstext ingår i kapitel 3, Material och liksom Jenny Bergenmars fördjupning Digitala textkritiska utgåvor är den placerad mellan avsnitten Digitalisering av text och Digitalisering av bilder och bilder av föremål.


Under några år har det nu vid Svenska litteratursällskapet i Finland och Institutet för de inhemska språken (Helsingfors, Finland) pågått ett projekt där syftet har varit att skapa en finlandssvensk språkbank som en del av den svenska Språkbanken vid Göteborgs universitet. Tanken har varit att skapa en finlandssvensk textkorpus med både en modern och en äldre del, och på så vis göra ett större material tillgängligt för språkforskare och andra intresserade. I den finlandssvenska textkorpusens äldre del på adressen http://spraakbanken.gu.se/korp/?mode=fisk1800 finns en samling texter som spänner över en tidsperiod på ca 200 år, från mitten av 1700-talet till mitten av 1900-talet. Materialet är indelat i följande genrer: Brev och dagbokstexter (som motsvarighet till moderna bloggar), skönlitteratur, sakprosa, tidskrifter, tidningar och myndighetstexter.

Urval

En fördel med en textkorpus är att det blir möjligt att behandla stora mängder data och göra sökningar i ett stort material som tidigare enbart funnits tillgängligt i arkiv i form av till exempel handskrifter eller mikrofilmer. Att detta material nu finns digitaliserat är ett framsteg, men som användare av textkorpusen måste man minnas att digitaliseringen föregåtts av en urvalsprocess och endast en liten del av allt det som finns i arkiv och bibliotek finns digitaliserat. Urvalet har påverkats av bland annat tekniska och upphovsrättsliga begränsningar.

Genrevis har vi följt indelningen i den moderna finlandssvenska korpusen för att det skall vara möjligt att så enkelt som möjligt göra jämförelser mellan äldre och nyare material. Vår strävan har varit att försöka hitta texter från alla decennier mellan 1750 och 1960 och att få en så stor geografisk spridning som möjligt. Då det gäller den geografiska spridningen har vi koncentrerat oss på Finlands kustregioner där det bor flest svensktalande. Den geografiska täckningen är relativt bra vilket gör att både språkforskare och andra förhoppningsvis kan ha nytta av materialet. Könsfördelningen däremot är skev trots att vi strävat efter så många skribenter som möjligt av bägge könen. Dels deltog kvinnor inte i det offentliga livet i samma mån som män under 1700- och 1800-talen och dels finns färre texter av kvinnor bevarade över lag. Bland brevskrivarna och 1900-talsförfattarna är könsfördelningen jämnare. Också klassfördelningen är skev och de flesta skribenterna hör till de högre samhällsklasserna.

Materialet utgörs av många olika sorters texter och urvalet har gjorts efter lite olika principer beroende på genre. Digitalisering i allmänhet är en arbetsdryg process. Tryckt material behöver först skannas in innan man kan köra det igenom ett OCR-program (textigenkänning) och sedan måste dokumentet korrekturläsas. Korrekturläsningen kan vara mer eller mindre arbetsdryg beroende på hur bra OCR-programmet lyckats läsa texten. I synnerhet äldre tryck, dvs. allt fram till tidigt 1900-tal, är än så länge en utmaning för tekniken beroende på att papperskvaliteten och sättningen varierat mycket. På grund av detta har vi med en del av de äldre verken valt att göra stickprov och digitaliserat valda delar istället för hela verk. Eftersom arbetet är tidskrävande har tillgängligheten varit ett huvudkriterium när vi valt material.

För skönlitteraturens del har vi dels valt sådana verk som kan anses ingå i den finlandssvenska litteraturkanon, men också verk av mindre kända författare. Kategorin är speciell på så sätt att det tidigaste materialet är från år 1840, då den första svenskspråkiga romanen publicerades på östra sidan om Finska viken. Materialet från 1900-talet har valts ut delvis på upphovsrättsliga grunder, eftersom upphovsrätten i Finland är i kraft i 70 år efter författarens frånfälle. I fall då det varit lätt att nå innehavaren av upphovsrätten har vi gjort avtal med dem, men ofta har vi valt verk där upphovsrätten inte längre gäller.

För sakprosans del har vi använt oss av de texter som varit mest lättillgängliga. Största delen av texterna som ingår har givits ut i nytryck eller funnits färdigt digitaliserade.[1] I de fall då avtal varit nödvändiga har vi haft gott samarbete med utgivarna. Materialet från 1700- och 1800-talen består till största delen av resebeskrivningar och texter som gäller ekonomiska frågor. Texterna från 1900-talet behandlar mera varierande ämnen och består till största delen av tidigare digitaliserade artiklar.

Brev- och dagbokstexterna härstammar nästan uteslutande från Svenska litteratursällskapet i Finlands arkiv och förlag, men en liten del av materialet kommer från privata brevsamlingar. Vissa begränsningar finns också eftersom denna typ av texter är av en mer privat natur, och en del arkivsamlingar inte alls är öppna för allmänt bruk. Dessutom påverkas urvalet i allra högsta grad av handstil och läslighet eftersom det tar tid att digitalisera handskrivna dokument. I övrigt har vi i mån av möjlighet använt oss av brev och dagböcker som redan tidigare givits ut på Svenska litteratursällskapets förlag. Urvalet påverkas således även av vad man under tidigare år har ansett värt att publicera i bokform och av de olika redaktörernas språkliga linjedragningar, även om vi valt texter som ligger så nära originalet som möjligt.

Språket och ändringar som gjorts i texterna

En språkbank ger forskaren tillgång till ett betydligt större material än vad en enskild forskare skulle hinna samla ihop på egen hand. Lars Borin och Richard Johansson behandlar i sin artikel ”Kulturomik: Att spana efter språkliga och kulturella förändringar i digitala textarkiv” möjligheter som ett stort digitalt material ger och även problem som kan uppstå gällande sökbarheten. Vissa problem uppstår redan i digitaliseringsprocessen. Gamla stavningsformer och handstilar går inte alltid ihop med den teknik som används för digitalisering och kodning och själva överföringen av de gamla texterna till digital form kräver att texterna anpassas för det nya formatet.

Variationen i språk och stavning är större ju längre bakåt i tiden man går, men så länge man arbetar med tryckt text finns inga egentliga tolkningssvårigheter. I handskrifter däremot kan det bland annat vara svårt att avgöra ifall ett ord är skrivet med versaler eller gemener, ifall ord är särskrivna eller har skrivits ihop. Dels är det fråga om tidstypiska variationer men också skribentens utbildningsnivå. Då man transkriberar äldre text ingår alltid en viss grad av tolkning. De publicerade brev och dagböcker som vi använt är formade enligt olika redaktionella beslut och skiljer sig därför också ofta i någon mån från originalet.

För att man skall kunna koda texten så att den blir sökbar krävs att den som digitaliserar materialet gör vissa förändringar, som att inleda meningar med stor bokstav och avsluta dem med punkt. I större delen av de äldre texterna, i synnerhet brev och dagböcker från 1700- och 1800-talen, används både versaler och punkter varierande då en klar språkstandard saknades. Detsamma kan förekomma sporadiskt en bra bit in på 1900-talet, särskilt i privata texter, och i synnerhet om skribenten i fråga inte har gått särskilt mycket i skola.

Sammanfattning

Den finlandssvenska språkbanken, liksom språkbanker över lag är ett bra verktyg för snabba överblickar, men eftersom materialet genomgår vissa förändringar och en urvalsprocess kan det i många fall vara nödvändigt att också ta sig en titt på originalen. Åtminstone bör man vara medveten om att den digitaliserade versionen kanske inte stämmer överens med originalet till 100 procent och att materialet inte är fullständigt representativt för någon viss tidsperiod eller genre. Det här har beaktats i Språkbanken och den är uppbyggd så att det är lätt att se vilket originalet är och var det finns bevarat.

I och med det här projektet finns det nu en del historiskt material digitaliserat, men mycket återstår ännu att göra. Under projektets gång har det framkommit att det redan finns en hel del äldre material digitaliserat inom olika projekt och på olika forskares privata datorer. Tack vare gott samarbete har vi fått tillgång till en del och med bättre koordinering kunde allt större mängder material som digitaliserats på olika håll bli tillgängligt för fler användare i framtiden.

[Tillbaka till kapitel 3]


[1] De tidigare digitaliserade texterna härstammar bland annat från Projekt Runeberg (http://runeberg.org/), Litteraturbanken (http://litteraturbanken.se/), Zacharias Topelius skrifter (http://www.topelius.fi/) och från Svenska litteratursällskapet i Finlands förlag.

[Tillbaka upp]

Lämna en kommentar