Fördjupning: Digitala textarkiv och forskningsfrågor

Mats Malm

Digitaliserade och sökbara samlingar av texter har blivit en allt viktigare resurs för forskningen inom en lång rad discipliner. Tidigast byggdes sådana arkiv upp som textkorpusar för lingvistiska studier, men efter hand har både materialen som förs in i dem och teknikerna som gör dem sökbara utvidgats så att de blir användbara för allt fler frågeställningar. Ofta har man märkt upp materialet i korpusarna för att hjälpa analysen, men efter hand som arkiven blivit mer omfattande har behovet uppstått att utveckla metoder som gör det möjligt att utvinna så mycket information som möjligt ur materialet utan att behöva ägna alltför mycket tid åt att märka upp det.

Internationellt har man på senare tid kommit fram till hållningen att så stora mängder material faktiskt har blivit digitaliserade, att utmaningen nu är att utveckla metoder som gör materialen tillgängliga på effektivare sätt. Det är en formidabel uppgift att strukturera en stor samling texter så att den blir begriplig och navigerbar. Metoderna att utvinna information ur och om textmaterial som är större än en människa kan hinna läsa har kallats distant reading, fjärrläsning i stället för närläsning.[1] Den kommer aldrig att ersätta närläsning och textanalys, men den ger nya ingångar till både kultur och historia. Ett av de redskap som har diskuterats flitigt de senaste åren är topic modeling: metoder att urskilja teman på grundval av vilka ord som förekommer i närheten av varandra. På så vis kan man maskinellt fånga upp tematiska sammanhang inom texter och framför allt mellan texter i stora material.

Urval och representativitet

En av de grundläggande frågorna kring användningen av textkorpusar är vad materialet egentligen är representativt för, dvs. vilka slutsatser man faktiskt kan dra av det. I vissa projekt digitaliseras helt enkelt alla böcker i en samling eller ett bibliotek: man får då ett stort material av mycket olikartade texter. De resultat man får i en sökning kommer alltså ur mycket olika kontexter och behöver tolkas utifrån det, och frågan uppstår vilka material som inte är representerade i urvalet. Andra projekt kan fokusera på till exempel ett författarskap: det kan säga mycket om sin samtid, men det är knappast representativt för den. Flera projekt styrs implicit eller explicit av ett klassikertänkande: man samlar i första hand verk och författare som uppfattas som viktiga av en eller annan anledning. Sådana korpusar kan vara mycket givande, men de ger inte en representativ bild av vilka frågor som faktiskt gestaltades i litteraturen vid en bestämd tidpunkt eller i ett bestämt sammanhang. Snarare riskerar de att vidareföra den kulturella självbild som har etablerats över tid. Kulturarvet består ju till sin kärna av sådant som äldre tider velat befästa sin identitet med, och därmed också velat vidareföra till senare tider. I den meningen är kulturarvet avsett att forma vår identitet. Men till vårt litterära kulturarv hör ju också det ’ofrivilliga’ arvet: de texter och röster som har glömts bort eller rent av marginaliserats. Kan vi få fram dem, kan vi nå en mer representativ bild av historien och dessutom få bättre överblick över hur kulturarv och kanon fungerar.

Alla slags texter är av potentiellt intresse för humanistiska och samhällsvetenskapliga studier, men fokuserar man på kulturarv och kanon blir skönlitteraturen ett ovärderligt källmaterial i sin egenskap av spegel för samhället. Det är inte en okomplicerad spegling: ibland är litteraturen före sin tid, ibland efter, ibland styrs den av maktens intressen och ofta påverkas den av ekonomiska hänsyn. Men också dessa förhållanden gör att den säger något väsentligt om samhället, så länge den behandlas källkritiskt. Särskilt romanen och novellen tydliggör inte bara kulturen i snäv bemärkelse, utan kan visa vad som rör sig i samhällets inre. Det kan gälla vilka samhällsfrågor som problematiseras, hur frågor kring världsbild, kön, nationell identitet eller det främmande bearbetas, vilka konsumtionsvanor som kommer till uttryck, hur ord och begrepp förändrar sina innebörder eller vilka estetiska föreställningar som utprovas i teori och praktik. I skönlitteraturen pågår ständiga förhandlingar mellan gamla och nya värderingar, mellan gamla och nya teknologier, mellan gamla och nya möjligheter. Men skönlitteraturen inte bara speglar samhället utan sätter också sitt avtryck på det. Konsumtionsvanor kan etableras i litteraturen på ett sätt som skapar nya levnadsmönster.[2]

Prosafiktionen kan användas som källmaterial inom en mängd olika humanistiska och samhällsvetenskapliga discipliner, men den har det problemet att den är svårtillgänglig för historiskt inriktade studier. Den sociolog, etnolog eller idéhistoriker som vill veta hur rasbiologiska, nationalistiska, politiska etc. föreställningar kom till uttryck kring år 1900 kan inte nöja sig med de romaner som levt kvar i kanon. Det kan finnas många viktiga yttringar hos kända författare som August Strindberg, Selma Lagerlöf eller Hjalmar Bergman, men ofta är de ändå undantag som inte säger mer än en del om vad människor i allmänhet läste och vilka frågor som gestaltades i litteraturen vid en viss tidpunkt. Yttringarna hos mindre kända författare kan vara mer representativa men är betydligt svårare att hitta.

På svenskt område har man tillgång till digitaliserad och sökbar skönlitteratur främst hos Projekt Runeberg och Litteraturbanken: de arbetar efter helt olika principer både beträffande urval och textetablering, men gemensamt för båda är att de har en rad olika slags material där inte allt, men en stor del, är sådant som brukar betecknas som klassiker. Som ett försök att i stället etablera ett representativt urval finns nu också pilotprojektet Svensk prosafiktion 1800–1900, där man i stället får tillgång till all svenskskriven prosafiktion som utgavs för första gången åren 1800, 1820, 1840, 1860, 1880 och 1900. Det handlar om sammantaget 300 verk, och tanken är att man där skall kunna få en mer representativ bild av vilka olika frågor som faktiskt gestaltades och problematiserades i prosafiktionen – enligt dessa kriterier ­– ett visst år, och kunna göra jämförelser över tid. Får man tillgång till motsvarande material från andra språkområden kan man också göra jämförelser internationellt. Webbplatsen är öppen för alla och skall göra det möjligt att pröva tekniker och metoder att se kulturarvet och historien från nya aspekter, genom de bortglömda och marginaliserade författarna i stället för att följa den etablerade kanon.

Metoder

Så är frågan vilka metoder man kan använda för att strukturera materialet. I regel kan man göra basala sökningar i sådana textarkiv, men det går också att tillämpa en uppsättning mycket mer sofistikerade verktyg på Svensk prosafiktion 1800–1900 och Litteraturbanken genom att studera dem som självständiga korpusar i Språkbankens portal för korpusar: Korp. De verktygen är under kontinuerlig utveckling, och därtill arbetar vi med att utveckla metoder för topic modeling som ger möjlighet att kartlägga samband i stora material.

De potentiella felkällorna i detta digitaliserade textflöde är förstås många, men de potentiella möjligheterna är också stora. Två amerikanska skandinavister, Peter Leonard och Timothy Tangherlini, har utvecklat en särskilt fruktbar form av topic modeling som låter dem definiera ”teman” utifrån ett välkänt verk och sedan identifiera sammanhang och påverkan på större material. På så vis kan de till exempel visa hur Darwins teorier spred sig från den första översättningen av On the Origin of Species till skönlitterära klassiker som vi redan kände till men också till skönlitteratur som blivit marginaliserad, hur de spred sig till exempelvis kriminalvården och, inte minst, hur de spred sig till historieskrivningen och alltså gav upphov till nya sätt att förstå och tolka den danska historien.[3] På så vis kan man kontrollera äldre föreställningar, nyansera dem och ibland göra betydelsefulla korrigeringar som preciserar vårt vetande och ger en fullständigare bild av ett historiskt skede.

På så vis kan textarkiven effektivisera traditionella typer av undersökningar och ge upphov till helt nya frågeställningar, gärna på ett sätt som inbegriper tvärvetenskapligt utbyte av perspektiv och metoder. Än mer tankeretande, och svårförutsägbar, är möjligheten att låta maskinerna identifiera tematiska sammanhang som inte ingår i vår förförståelse av historien. Det gör det möjligt för oss att låta ordens nya flyktiga natur föreslå helt nya sammanhang för oss, sammanhang som vi inte alls har varit uppmärksamma på. Sådana ansatser kan i bästa fall ge oss möjligheten att komma förbi en del av våra egna begränsningar och blinda fläckar.

De digitala materialen i sig själva erbjuder förstås problem, inte minst genom brister i ocr-läsningen och metadata: går de inte att rätta till, måste de räknas in i metodiken som felkällor. De kvantitativa metoderna kan aldrig ersätta traditionella kvalitativa metoder, och de innebär hela tiden en risk att perspektivet blir för snävt. Men just anläggandet av perspektiv är en av vetenskapens grunder och riskerna är till för att hanteras. Det finns goda skäl att tro på möjligheten till nya fruktbara kombinationer av kvantitativ och kvalitativ analys.

Läs också:

Big data

av Kenneth Nyberg

Fördjupning: Kulturomik: Att spana efter språkliga och kulturella förändringar i digitala textarkiv

av Lars Borin och Richard Johansson

Fördjupning: Open research methods in computational social sciences and humanities: introducing R

av Markus Kainu


[1] Termen myntades av Franco Moretti: se hans Graphs, Maps, Trees. Abstract Models for Literary History (London: Verso 2005) och The Novel. History, Geography, and Culture 1–2 (Princeton: Princeton UP 2006).

[2] Se Historier. Arton- och nittonhundratalens skönlitteratur som historisk källa, utg. Christer Ahlberger et al. (Göteborg: Institutionen för historiska studier, Göteborgs universitet 2009) och Moderna historier. Skönlitteratur i det moderna samhällets framväxt, utg. Henric Bagerius och Ulrika Lagerlöf Nilsson (Lund: Nordic Academic Press 2011).

[3] Peter Leonard och Timothy Tangherlini, ”Trawling in the Sea of the Great Unread:
 Sub-Corpus Topic Modeling and Humanities Research”, under publicering i Poetics.

4 reaktioner på ”Fördjupning: Digitala textarkiv och forskningsfrågor

  1. Pingback: DEN DIGITALA KLYFTAN | this is not a blog

  2. Pingback: KULTURARV GENOM DIGITALISERING | This is not a blog

  3. Pingback: Digital Humaniora – Debatter, definitioner och tankar där kring | Sunegård

  4. Pingback: Fördjupning: Digitala textarkiv och forskningsfrågor | Historia i en digital värld

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com-logga

Du kommenterar med ditt WordPress.com-konto. Logga ut /  Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut /  Ändra )

Ansluter till %s