Fördjupning: Transkribering av manuskript och förstaupplagor med talkokrafter

Sakari Katajamäki

Wikipedia kan knappast anses vara historieforskarens mest pålitliga källa, men i dag skrivs knappast en enda bok eller artikel inom historia, där denna encyklopedi som uppkommit genom crowdsourcing inte skulle ha utnyttjats. Till och med dess finansiering består till stora delar av små donationer som gjorts av de talrika användarna. Liknande gemensamma ansträngningar kan användas för att underlätta forskarnas arbete också på många andra sätt.

Ett av de mest geniala projekten är reCAPTCHA (http://www.google.com/recaptcha), som tjänar både som robotfälla (CAPTCHA, Completely Automated Public Turning test to tell Computers and Humans Apart) och som stöd för automatisk textigenkänning. Bildidentifieringen kan användas som en robotfälla på interaktiva webbplatser för att se till att det inte är ett datorprogram som försöker ändra innehållet på en sida. I reCAPTCHA-tjänsten används två inskannade bilder av ord, där det ena är känt av systemet och mot vilken den inmatade texten matchas, medan det andra ordet är hämtat från en automatiskt inläst digitaliserad text, vars noggrannhet man vill förbättra. re-CAPTCHA-tjänsten används varje dag över 100 miljoner gånger. Det innebär att de granskade ordens antal motsvarar en granskning av mer än tusen romaner av normal längd, ord för ord.

Begreppet crowdsourcing används ofta då man talar om att bygga upp stora system som Wikipedia eller reCAPTCHA. Dessa system används av enorma människomassor över hela världen, men liknande projekt kan också göras i betydligt mindre skala, som i ett litet gårdstalko. Vid Finska litteratursällskapet (SKS) provade vi på ett sådant mindre talko under åren 2011 och 2012, då vi behövde digitala transkriptioner för att kunna göra kritiska utgåvor av dem. Vårt lilla projekt visade att man med rätt litet besvär kan åstadkomma goda resultat till och med på kort tid. Och det bästa är att frukterna av detta arbete också i framtiden kan producera nya projekt som gynnar hela det vetenskapliga samfundet.

Från digitala bilder till transkriptioner

På hösten 2006 inledde den nya enheten Edith – kritiska utgåvor av finsk litteratur (http://www.edith.fi/svenska/ ) – sin verksamhet vid Finska litteratursällskapet. Enhetens uppgift är att ge ut textkritiska och rikligt kommenterade vetenskapliga utgåvor av den finska litteraturens klassiker. Editionerna ges ut både som tryckta böcker och som öppna utgåvor på webben. Hittills har vi gett ut Aleksis Kivis komedi Sockenskomakarna (Nummi et al 2010; Nummi et al. 2011) både som bok och digitalt, samt en tryckt utgåva av författarens brev (Niemi et al. 2012). Editionsarbetet fortsätter med Kivis pjäser och övriga produktion och kommer senare att gå över också till andra finska författares produktion.

På hösten 2011 gjorde Litteratursällskapet en enkät till sina medlemmar. Eftersom svararna i den förra enkäten hade hoppas på möjligheter att stöda sällskapets verksamhet, beslöt vi att denna gång som experiment erbjuda medlemmarna ett tillfälle att delta i några av sällskapets projekt. Som ett alternativ erbjöd vi medlemmarna ett Aleksis Kivi-talko, som  gick ut på att skriva in första upplagan av hans roman Sju bröder (1870) som digital text. Målsättningen var att en del av den omfångsrika romanen på över 300 sidor som tryckts i fraktur på detta sätt skulle bli transkriberad för fortsatt bearbetning. Intresset för talkot var så stort, över 30 personer anmälde sig och någon till och med från Afrika, att vi redan från början var tvungna att ta med också tidiga upplagor av Kivis andra verk.

Utgångspunkten var att vi inte kunde förvänta oss att medlemmarna kunde eller ville göra transkriptionerna direkt som en xml-fil i den TEI-standard vi använder (Text Encoding Initiative, http://www.tei-c.org) och att det inte inom detta projekt skulle vara ändamålsenligt att bygga ett separat webbaserat system för att transkribera materialet. Därför beslöt vi oss för att organisera arbetet så, att var och en som deltog fick använda sig av det textbehandlingsprogram hen vanligtvis använde och sedan sända oss materialet som en e-postbilaga.

Den andra målsättningen var att vi skulle framskrida med små steg, så att vi under processens gång kunde samla in erfarenheter för att utveckla talkoarbetet så att det blev smidigare. Därför har vi inte heller försökt värva en så stor mängd medhjälpare som möjligt och inte heller gjort reklam för projektet utanför sällskapets medlemskår.

Talkot möjliggjordes av att Finska litteratursällskapet redan 2007 hade publicerat en stor helhet Tiet lähteisiin – Aleksis Kivi SKS:ssa på webben (Vägar till källorna – Aleksis Kivi och Finska litteratursällskapet, http://www.finlit.fi/kivi), som innehåller bilder på merparten av Kivis förstaupplagor och ett separat digitalarkiv med allt bevarat arkivmaterial, från manuskript till brev och övriga arkivmaterial. Tack vare det digitala arkivet och biblioteket kunde de frivilliga skriva sina transkriptioner från bilderna på webben och vi behövde inte skicka något material separat till någon eller be någon att arbeta i våra utrymmen.

De olika sätten att utnyttja det digitala arkivet och biblioteket var inte påtänkta då de skapades, men de har betjänat arbetet med de kritiska utgåvorna redan under flera år och stöder fortsättningsvis förverkligandet av de textkritiska forskningsprojekten.

Från talkoarbete mot kritisk edition

Då Aleksis Kivi-talkot framskred snabbt och kvaliteten på texterna var god, beslöt vi oss för att använda oss av crowdsourcing också för att transkribera Kivis handskrifter. Processen förlöpte på liknande sätt som med de tryckta texterna, förutom gällande de inre varianterna, det vill säga de ändringar i texten som författaren själv gjort med penna. Eftersom den slutliga målsättningen var att skapa xml-filer som följer den internationella TEI-standarden, utformade vi ett enkelt sätt att markera struken eller tillagd text som xml-taggar. Vi bad deltagarna lägga till en klammer och bokstaven P (”[P”; på finska poisto) och samma beteckning spegelvänd (”P]”) i slutet för struken text. För tillägg och förändringar i ordföljden skapade vi liknande annotering. I slutskedet var det sedan enkelt att automatiskt ersätta dessa element med TEI-element.

Handskrift av Aleksis Kivi

Handskrift av Aleksis Kivi. SKS KIA (Finska litteratursällskapet, litteraturarkivet), Aleksis Kiven arkisto. Runoelmia 2. Tillgänglig: http://www.finlit.fi/kivi/index.php?pagename=kivendigiaineisto&set=02_runoelmia2&item=4 (2013-10-14).

Syyskuun tuuli, [P tuuli vinkka tunturien P][L vinkka tunturien tuuli L]
Pohjosesta liehtoo, alas [P kiiritellen P][L kiirittelee L]
Pilvivuorii, komeoita kaupunkeja,
Peikkoi sarvipäisiä ja sankareita
Keihäinensä, miekko[P i P]nensa, [P kiiritellen P][L kiirittelee L]

Exempel på transkription med annotering av talkoarbetare/frivilliga (ovan) och TEI-kodad XML (nedan) av några versrader ur början av föregående Aleksis Kivi-handskrift.

<l>Syyskuun tuuli, <subst>
      <del>tuuli vinkka tunturien</del>
      <add>vinkka tunturien tuuli</add>
</subst>
</l>
<l>Pohjosesta liehtoo, alas <subst>
      <del rend="strikethrough">kiiritellen</del>
      <add place="inline">kiirittelee</add>
</subst>
</l>
<l>Pilvivuorii, komeoita kaupunkeja,</l>
<l>Peikkoi sarvipäisiä ja sankareita</l>
<l>Keihäinensä, miekko<del rend="strikethrough">i</del>nensa, <subst>
      <del rend="strikethrough">kiiritellen</del>
      <add place="margin">kiirittelee</add>
</subst>
</l>

De allra svåraste manuskripten gav vi inte till talkoarbetarna, men de klarade av också rätt utmanande texter. I detta skede hade redan en del av de ursprungliga deltagarna hoppat av, men vi hade inte längre något behov att skaffa oss fler medarbetare. Många arbetade mycket dedikerat, som bäst skrev en person in 250 sidor av Kivis manuskript och förstaupplagor.

Genom talkot ville vi ha sådana transkriptioner som innehöll endast enstaka fel. Vi ville ändå inte be talkofolket granska texterna, eftersom vi upplevde att det aktiva producerandet av transkriptionerna var mer inspirerande och belönande. Därför beslöt vi oss för att beställa två eller flera transkriptioner av samma text av olika personer och sedan maskinellt jämföra dem genom maskinell kollationering (jämförelse tecken för tecken), som kunde visa oss på vilka ställen texterna skilde sig från varandra. Genom att kontrollera de ställen där texterna skiljer sig åt kan rätt felfria transkriptioner åstadkommas. Vid kollationering kan man som stöd också använda moderna nätbaserade versioner av Kivis verk, trots att de har fått en moderniserad språkdräkt. Samma metod har använts för bland andra Henrich Heine-portalens material (http://www.hhp.uni-trier.de).

Jämförelsen mellan transkriptionerna har vi gjort med ett gratis kollationeringsprogram som heter Juxta (http://www.juxtasoftware.org) och som kan laddas ner på webben. Alla filer måste konverteras till ren text (txt). I Juxta kan två textversioner studeras parallellt så att programmet målar de ställen där texterna avviker från varandra. Man kan också jämföra flera versioner samtidigt, men för att hitta felen visade sig kollationering av två versioner samtidigt vara mest effektivt.

Trots att de texter som producerades genom crowdsourcing redan motsvarade originalet nästan perfekt, bör de granskas ännu flera gånger i senare arbetsskeden, eftersom kollationeringen inte avslöjar sådana fel som människor gjort på samma ställe i texten. Särskilt då originalet innehåller stavfel eller fel satt text, korrigeras de lätt av misstag, trots att texten borde transkriberas som den är. Till exempel upptäckte vi först i ett senare skede att sättningsfelet Äapo (ska vara Aapo) av misstag hade korrigerats i alla transkriptioner.

Med hjälp av det snabbt framskridande talkoarbetet har vi fått transkriptioner av god kvalitet av författarens alla manuskript och tidiga upplagor, vilka vi kan använda som utgångspunkt för de kritiska utgåvorna och som material för att jämföra till exempel hur Kivis ortografi varierat eller leta efter förekomster av enskilda ord och motiv i hans produktion. Att ha texten i digital form redan i ett tidigit skede av redigeringsprojektet har dessutom underlättat möjligheterna att skapa en enhetlig xml-annotering eftersom olika typer av listor av xml-taggar kan göras med hjälp av Oxygen-editorn.

I slutskedet av Aleksis Kivi-talkot hade Finska litteratursällskapet en möjlighet att göra alla transkriptioner till en korpus i XML/TEI-format. Aleksis Kivi-korpusen är den första digitala korpusen av hela hans produktion och som följer den ursprungliga ortografin och informationen om de förändringar som gjorts i texten. Korpusen innehåller transkriptioner av 70 brev, 12 tryckta verk eller delar av sådana, 11 manuskript av pjäser eller prosaverk, drygt 70 diktmanuskript och över tio dikter som publicerats i tidningar.

Vi beslöt att donera Aleksis Kivi-korpusen som skapats med hjälp av talkoarbetet till FIN-CLARIN-projektet (https://kitwiki.csc.fi/twiki/bin/view/FinCLARIN/KielipankkiFramsida) för att publiceras i den finska språkbanken Kielipankki (http://www.csc.fi/english/research/sciences/linguistics/index_html).(Katajamäki et al. 2013) På så sätt kan även andra forskare få tillgång till materialet redan innan editionsarbetet är klart. Antagligen kan vi också  vid den kritiska editeringen använda det Aleksis Kivi-material som publicerats i Kielipankki.

Varför lyckades projektet?

Att det finns en tradition av frivilligarbete inom till exempel insamling av folkkultursmaterial bidrog sannolikt till att Finska litteratursällskapets Aleksis Kivi-projekt blev så framgångsrikt. Dessutom upplevs Aleksis Kivi som en betydelsefull och intressant författare, varför människor var beredda att sätta tid på att arbeta med hans texter. Vid sidan av dessa immanenta faktorer strävade vi också efter att upprätthålla motivationen på olika sätt.

I början av projektet bedömde vi på vilket sätt arbetet skulle fungera mest smidigt. Ur talkoarbetarnas perspektiv tyckte vi att ganska korta, ungefär 20 sidor långa avsnitt, var mer belönande än att bara skriva så långt man orkar av en längre text. Vi gav en klar deadline som var några månader senare för varje avsnitt. Eftersom alla hade samma deadline, kunde vi skicka påminnelser till samtliga medarbetare samtidigt och sända dem gemensamma mellanrapporter om hur projektet framskred. Vid sidan av dessa ”huvudvågor” kunde vi dessutom ge extra uppgifter till de snabbaste och ivrigaste. ”Om det ännu kliar i fingrarna, finns det nog mer jobb …” var en av våra återkommande fraser, då vi skrev till deltagarna och tackade för deras bidrag. Till dem som så önskade kunde vi också ge en mer flexibel deadline. Mellanetapperna gjorde att arbetet var mer motiverande både för oss som organiserade det och för dem som utförde det.

Utöver att projektet som helhet var betydelsefullt och att medarbetarna fick uppmuntrande brev, upplevdes arbetet i sig som belönande. Att noggrannt skriva om handskriven eller i fraktur tryckt text från 1800-talet tvingar en att koncentrera sig på författarens språk, på varje ord och bokstav, vilket leder djupare in i språket, och särskilt att transkribera handskrift är ofta utmanande på ett positivt sätt. Ibland var den iver och det engagemang som människor uttryckte i sina följebrev direkt rörande. Man skrev initierat om Kivis gripande språk, man återkom till hans minnen eller förundrade sig över någon detalj i något verk. Engagemanget kom till uttryck till exempel i ett brev, där skribenten bad om ursäkt för att denne inte kunde delta fullt ut på ett tag på grund av vård av barnbarnen, balkong- och fönsterrenovering och en större operation!

Aleksis Kivi-talkot visade att också en liten grupp kan ha styrka och att crowdsourcing inte nödvändigtvis kräver några speciella it-system. Kivi-talkots särdrag var att betona ett felfritt resultat framom mängd och snabbhet. Om avsikten är att åstadkomma transkriptioner av ett omfattande material så fort som möjligt, lönar det sig inte att göra kollationering, åtminstone inte i ett tidigt skede av processen. Det är möjligt att få med många frivilliga, om bara arbetet upplevs som meningsfullt.

Referenser

Katajamäki, Sakari – Ossi Kokko – Elina Kela (red.): Aleksis Kivi -korpus (SKS).  FIN-CLARIN: Finnish Language Resource Infrastructure / CSC – Tieteen tekniikan keskus: Kielipankki 2013. URL: http://www.edith.fi/kivikorpus/index.htm

Niemi, Juhani (huvudredaktör) – Sakari Katajamäki – Ossi Kokko – Petri Lauerma – Jyrki Nummi (red.): Kivi, Aleksis, Kirjeet. Kriittinen editio. Suomalaisen Kirjallisuuden Seuran Toimituksia 1386, Tiede. Helsinki: SKS 2012 (426 s.).

Nummi, Jyrki (huvudredaktör) – Sakari Katajamäki – Ossi Kokko – Petri Lauerma (red.): Kivi, Aleksis, Nummisuutarit. Komedia viidessä näytöksessä. Kriittinen editio. [On-line.] Helsinki: Suomalaisen Kirjallisuuden Seura, 2011. URL: http://elias.finlit.fi/nummisuutarit/. URN: NBN:fi:sks-201105261000

Nummi, Jyrki (huvudredaktör) – Sakari Katajamäki – Ossi Kokko – Petri Lauerma (toim.): Kivi, Aleksis, Nummisuutarit. Komedia viidessä näytöksessä. Kriittinen editio. Suomalaisen Kirjallisuuden Seuran Toimituksia 1284, Tiede. Helsinki: SKS 2010 (330 s.).

Tiet lähteisiin – Aleksis Kivi SKS:ssa. (Ilkka Välimäki, huvudredaktör; Eeva-Liisa Haanpää; Satu Heikkinen; Irma-Riitta Järvinen; Sakari Katajamäki; Klaus Krohn ja Tarja Soiniola). Helsinki: SKS 10.10.2007. URL: http://www.finlit.fi/kivi/.

Läs också:

Kollektivt arbete (crowdsourcing)

av Jessica Parland-von Essen

2 reaktioner på ”Fördjupning: Transkribering av manuskript och förstaupplagor med talkokrafter

  1. Pingback: Fördjupning: Digitala textkritiska utgåvor | Historia i en digital värld

  2. Pingback: Fördjupning: Transkribering av manuskript och förstaupplagor med talkokrafter | Historia i en digital värld

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s