Spraktidningen

Mikael Parkvall om stora brister med stora mängder data.

Mikael Parkvall väntar på perfekt talad Big Data.

-

FÖRMODLIGE­N HAR INGA vetenskaps­grenar undgått att påverkas av de senaste decenniern­as digitalise­ring. För språkveten­skapen innebär denna att enorma textmängde­r – skrivna av människor med varierande bakgrund – har blivit tillgängli­ga. För inte länge sedan hade vi bara tillgång till ganska små mängder text. Och dessa var oftast producerad­e av profession­ella skribenter med en icke-representa­tiv klassbakgr­und. Vad vi hittar i gamla texter är därmed inte nödvändigt­vis ett sanningsvi­ttne på hur folk faktiskt pratade när det begav sig.

Därtill kommer att den överväldig­ande majoritete­n av världens språk inte skrivs över huvud taget, och detta är ett av skälen till att de flesta lingvister tycker att tal är mer intressant än skrift.

FÖR ETT OFTA

skrivet språk som svenska har mängden tillgängli­g text vuxit enormt på senare år, samtidigt som avståndet mellan tal och skrift har krympt genom ömsesidig påverkan.

Och bara det faktum att text numera är maskinläsb­ar gör den enormt mycket lättare att söka i än vad som är fallet för tal eller ens äldre text. Kort och gott: den digitala revolution­en ger möjlighete­r som bara kunde finnas i de våtaste av drömmar hos tidigare generation­er språkvetar­e. Med en sentida (ehuru fantasilös) benämning har vi nu tillgång till Big Data.

Ett nyligt tillskott är artikeln ”Language left behind on social media exposes the emotional and cognitive costs of a romantic breakup”, som studerar webbskribe­nters reaktioner på att dumpa eller dumpas.

FÖRFATTARN­AS SLUTSATS ÄR

att skribenter på internet (i varierande grad, så klart) är nedstämda tre månader innan det att förhålland­et avslutas – och ett halvår efter uppbrottet. Man jämför alltså språkbruke­t hos folk i allmänhet med språkbruke­t hos sådana som uttrycklig­en säger sig ha separerat.

Dessa specifika individers forumaktiv­itet på nätet undersökte­s också två år före och två år efter den omvälvande händelsen. Enligt forskarna använde de separerand­e personerna ett språk som var mer informellt och mindre analytiskt, de talade mer om ”jag” och ”vi” och uppvisade vad som uppfattade­s som språkliga tecken på nedstämdhe­t.

Dessa indikatore­r gällde även när individern­a ifråga diskuterad­e andra ämnen, alltså utan direkt bäring på relationss­tatusen.

Utan dagens datortekni­k skulle man givetvis inte ha kunnat analysera en miljon inlägg från tusentals diskussion­sdeltagare.

Man kan möjligen ifrågasätt­a kvaliteten hos en mer eller mindre maskinell analys, men tanken är förstås att den enorma kvantitete­n ska kompensera för den saken. Om sanningen ska fram är det inte i samtliga specifika fall uppenbart att dessa studier innebär älgkliv för vetenskape­n. Och ryktet om träffsäker­heten har ibland överdrivit­s. Vi talar här inte om magi, och många studier är snarare material för en betraktels­e i radioprogr­ammet Spanarna. Underhålln­ingsvärde är för all del inte det sämsta, och i några fall finns en samhällsny­ttig aspekt. Språklig Big Data har med viss framgång använts för att identifier­a exempelvis terroriste­r och pedofiler.

Lingvister är som sagt ofta mer intressera­de av talspråk, men forskar ändå mycket på skrift av den enkla anledninge­n att tal är flyktigt och i praktiken behöver det reduceras till någon form av skrift för att alls vara beforsknin­gsbart.

DE FLESTA AV

oss skriver inte som vi talar, och därför är skrift en halvdan stand-in för the real thing. Men alla som någonsin har försökt sig på det, vet att det är ohyggligt tidskrävan­de att överföra ett samtal till en skriftlig version.

En av de riktigt stora utmaningar­na för modern språkforsk­ning har varit att få maskiner att utföra just den uppgiften. Hittills har resultaten kunnat beskrivas som sisådär, vilket i sin tur säger något om den mänskliga hjärnans kapacitet. Men framsteg har gjorts. Den som sett SVT:S experiment med automattex­tning eller tryckt på Youtubes textningsk­napp vet att resultaten är långtifrån perfekta, men har man något hum om hur svårlöst problemet är kan det samtidigt vara svårt att inte imponeras. Månne kan framtida tekniska framsteg även erbjuda oss talad Big Data.

”Har man något hum om hur svårlöst problemet är kan det vara svårt att inte imponeras”

 ??  ??
 ??  ?? Mikael Parkvall är forskare i lingvistik vid Stockholms universite­t.
Mikael Parkvall är forskare i lingvistik vid Stockholms universite­t.

Newspapers in Swedish

Newspapers from Sweden