För­fat­tar­jakt. Snart kan da­torn av­slö­ja vem som har skri­vit en text.

Tex­ter har för­fals­kats i al­la ti­der. Men ny tek­nik gör det lät­ta­re att iden­ti­fi­e­ra den verk­li­ga av­sän­da­ren.

Språktidningen - - Intro - Av NIKLAS ZE­CH­NER Il­lust­ra­tion JENS MAGNUSSON

ISLUTET AV 1430-TA­LET be­fann sig kung Al­fons den fem­te av Ara­go­ni­en i kon­flikt med på­ven över vem som skul­le sty­ra över Ne­a­pel. Som ar­gu­ment för sin auk­to­ri­tet ha­de på­ven den så kal­la­de Kon­stan­tis­ka do­na­tio­nen, en kun­gö­rel­se skri­ven av den ro­mers­ke kej­sa­ren Kon­stan­tin år 324. I den­na läm­nar kej­sa­ren över mak­ten över Väst­ro­mers­ka ri­ket till på­ven, som tack för att på­ven har bo­tat ho­nom från spet‍ äls­ka och döpt ho­nom.

Men kung­en vän­der sig till den ita­li­ens­ka pro­fes­sorn Lo­ren­zo Val­la, och ber ho­nom un­der­sö­ka do­ku­men­tet. Och år 1440 skri­ver Val­la sitt mest kän­da verk: De fal­so cre­di­ta et emen­ti­ta Con­stan­ti­ni Do­na­tio­ne decla­ma­tio, fritt över­satt ’Om den för­fals­ka­de Kon­stan­tis­ka do­na­tio­nen’, ef­ter att no­ga ha ana­ly­se­rat kun­gö­rel­sen. Han kom­mer fram till att den omöj‍ ligt kan ha skri­vits på 300ta­let, och där­för mås­te va­ra en för­falsk­ning. Ett av be­vi­sen är att tex­ten om­näm­ner kej­sa­ren och hans satra­per, en ti­tel som in­te an­vän­des i Ro­mar­ri­ket vid den ti­den.

Lo­ren­zo Val­las kri­tik mot den okän­de för­fat­ta­ren är hård: ”Vad! Hur har du tänkt få in satra­per­na här? Ditt dum­hu­vud, din träskal­le! Ta­la­de Cae­sar så? Bru­ka­de de ro­mers­ka kun­gö­rel­ser­na ut‍ for­mas så? Vem har hört ta­las om satra­per i ro­mar­nas råd?”

DEN­NA HISTO­RIA ÄR det förs­ta kän­da ex­emp­let på att det går att lä­sa en text och sä­ga nå­got om vem som har skri­vit den. Ett mo­der­na­re ex­em­pel är från 1995, då en man vid namn Da­vid Kaczyn­ski fick sig en obe­hag­lig över­rask­ning när han läs­te da­gens tid­ning. Un­der‍många år ha­de FBI ja­gat den så kal­la­de una-bom­ba­ren i USA. Den­ne spred skräck och död ge­nom en rad bomb‍ at­ten­tat, främst mot per­so­ner in­om uni­ver­si­tet och flyg­bo­lag.

Till slut med­de­la­de una­bom­ba­ren att han skul­le slu­ta med si­na dåd, om tid­ning­ar­na ba­ra pub­li­ce­ra­de hans ma­ni‍ fest, vil­ket de gjor­de. Da­vid Kaczyn­ski läs­te ma­ni­festet i tid­ning­en, och in­såg ef­ter hand att han kän­de igen sti­len. Det vi­sa­de sig va­ra hans bror Ted Kaczyn­ski som ha­de skri‍ vit tex­ten. Och så fick ett av histo­ri­ens mest upp­märk­sam‍ ma­de brotts­fall sin lös­ning.

MED INTERNET HAR vi fått nya möj­lig­he­ter, och nya be­hov av, att ana­ly­se­ra och klas­si­fi­ce­ra text, med av‍se­en­de på vem el­ler vil­ka som har skri­vit den. En da­tor kan ana­ly­se­ra sto­ra mäng­der text, många mil­jo­ner ord, för att byg­ga upp sta­tis­tis­ka mo­del­ler av hur oli­ka grup­per skri­ver. Man kan till ex­em­pel räk­na hur of­ta vis­sa ord el­ler gram­ma­tis­ka kon­struk­tio­ner an­vänds. Des­sa mo­del­ler kan se­dan an­vän­das för att au­to‍ ma­tiskt sä­ga nå­got om en text med ano­nym skri­bent.

En del har sto­ra pla­ner på vad man ska kun­na ut­rät­ta med den här sor­tens tek­nik, till ex­em­pel för att be­käm­pa brott. Om vi med da­torns hjälp kan av­gö­ra vem som har skri­vit en text, så skul­le vi kun­na lö­sa tvis­ter om pla­gi­at och upp­hovs­rätt, och av­slö­ja för­falsk­ning­ar i stil med Kon­stan­tis­ka do­na­tio­nen. Man skul­le ock­så kun­na ana­ly­se­ra på­ståd­da själv­mords­brev, för att se om de är äk­ta el­ler skriv­na för att döl­ja ett mord.

Vis­sa häv­dar att tek­ni­ken för text­klas­si­fi­ce­ring ock­så skul­le kun­na an­vän­das för att

”Man skul­le kun­na ana­ly­se­ra själv­mords­brev, för att se om de är skriv­na för att döl­ja ett mord”

fö­re­byg­ga ter­ro­rism, och i ett ti­di­ga­re ske­de kun­na hind­ra så­da­na som Ted Kaczyn­ski. In­nan An­ders Be­hring Brei­vik ge­nom­för­de at­tac­ken på Utøya skrev han till ex­em­pel om si­na åsik­ter och pla­ner på internet‍ fo­rum.

En sak som va­ra myc­ket an­vänd­bart för po­li­sen är

att kun­na av­gö­ra om två oli­ka an­vän­da­ri­den­ti­te­ter på oli­ka fo­rum egent­li­gen är en och sam­ma per­son. Då skul­le man till ex­em­pel kun­na av­gö­ra om en per­son som skri­ver ha­tis­ka kom­men­ta­rer om en folk­grupp på en si­da är sam­ma per­son som vi­sar stort in­tres­se för ex­plo­si­va ke­mi­ka­li­er på en an­nan.

DET FINNS REDAN nu en hel del fö­re­tag och and­ra or­ga­ni­sa­tio­ner som stu­de­rar det vi skri­ver om oss själ­va på internet och drar slut­sat­ser av det, bland an­nat för att kun­na rik­ta re­klam till oss. Men att au­to­ma­tiskt iden­ti­fi­e­ra en ano­nym skri­bent – som ing­en‍ stans skyl­tar med sin iden­ti­tet – är en helt an­nan och mer kom­plex upp­gift.

En del forsk­ning har gett ovän­tat po­si­ti­va re­sul­tat, och fors­ka­re har häv­dat att man med stor sä­ker­het kan iden­ti­fi­e­ra en per­son även bland tu­sen­tals möj­li­ga för­fat‍ ta­re. Man be­hö­ver in­te hel­ler an­vän­da sär­skilt avan­ce­ra­de me­to­der – en del har in­te ens tit­tat på ord, ut­an helt en­kelt gått ef­ter hur of­ta en för­fat­ta­re an­vän­der oli­ka bok­stä­ver. Det ser allt­så ut att va­ra möj­ligt

”Runt tio tu­sen ord be­hövs för att ha en rim­lig chans

att iden­ti­fi­e­ra nå­gon”

att kän­na igen en för­fat­ta­re en­bart på att den an­vän­der ovan­ligt många g el­ler vad det nu kan va­ra.

Vis­sa har där­för haft stor till­tro till de sta­tis­tis­ka me­to‍ der­na och de har redan an‍ vänts i rätts­fall för att av­gö­ra vem som har skri­vit en text. Men det finns an­led­ning att va­ra för­sik­tig. För det förs­ta vi­sar myc­ket av forsk­ning­en att det krävs sto­ra mäng­der text. Man räk­nar of­ta med att runt tio tu­sen ord be­hövs för att ha en rim­lig chans att iden‍ ti­fi­e­ra nå­gon, och för att kun­na va­ra på den säk­ra si­dan vill man gär­na ha hund­ra tu­sen, allt­så mot­sva­ran­de un­ge­fär en ge­nom­snitt­lig ro­man. Så den som skri­ver ett ano­nymt brev be­hö­ver knap­past va­ra sär­skilt oro­lig för att bli av­slö­jad, om den in­te for­mu­le­rar sig all­de­les oer­hört långran­digt.

För det and­ra ba­se­ras tes­ter­na‍av me­to­der­na of­tast på tex­ter ur ett och sam­ma sam­man­hang. Om man till ex­em­pel har an­vänt text ur en bok för att byg­ga upp en sta­tis­tisk mo­dell av hur en för­fat­ta­re‍skri­ver, då kan det fun­ge­ra bra att iden­ti­fi­e­ra and­ra text‍styc­ken ur sam­ma bok. Men redan i and­ra böc­ker av sam­ma för­fat­ta­re blir den­nes text svå­ra­re att kän­na igen. Om man skul­le för­sö­ka sig på att iden­ti­fi­e­ra till ex­em­pel ett brev el­ler en in‍ ter­net­ba­se­rad text av sam­ma för­fat­ta­re, skul­le det kun­na bli än­nu svå­ra­re.

I EN STU­DIE 2017 un­der‍ sök­te vi eng­els­ka blogg­tex­ter för att se hur väl en da­tor kan iden­ti­fi­e­ra en per­sons ål­der, kön, yr­ke och stjärn­tec­ken. En me­tod vi tes­ta­de var att räk­na hur of­ta per­so­nen an­vän­der någ­ra av de van­li­gas­te or­den, som the, of, and och så vi­da­re.

Det vi­sar sig att ål­der är klart lät­tast att av­gö­ra. Om skri­ben­ter­na de­las in i två ål­ders­grup­per, kan vi med da­torns hjälp gis­sa rätt på 80 procent av fal­len. Kön är li­te svå­ra­re, och vi får rätt svar i runt 65 procent av fal­len. Yr­ke är li­te av ett gräns­fall – det ser ut som da­torn kan träf­fa‍ rätt li­te of­ta­re än ge­nom ren giss­ning, men skill­na­den är så li­ten att det än­då kan va­ra en slump att sva­ret blir rätt. Att av­gö­ra per­so­ners stjärn­tec­ken ut­i­från de­ras sätt att skri­va vi­sar sig där­e­mot, in­te helt ovän­tat, va­ra helt omöj­ligt.

Be­ro­en­de på vil­ka stil‍ drag man ana­ly­se­rar, vil­ka ma­te­ma­tis­ka me­to­der man an‍ vän­der, och vil­ka tex­ter man ar­be­tar med, kan re­sul­ta­ten va­ri­e­ra, men över­lag över­ens‍ stäm­mer de: bå­de kön och ål­der kan ma­ski­nen av­gö­ra bätt­re än slum­pen, även om den lig­ger gans­ka långt ifrån 100 procent rätt.

MEN OM DET nu går att se skillnad på hur till ex­em­pel män och kvin­nor skri­ver, vad är det då som skil­jer dem åt?

Vi kan se någ­ra ge­ne­rel­la möns­ter: Kvin­nor an­vän­der fler pro­no­men – som jag och du – och hjälp­verb – som mås­te, ‍ kan och vill. Män an­vän­der fler kon­junk­tio­ner – som och och men. Dess­utom skri­ver män­nen‍läng­re me­ning­ar.

Mer spe­ci­fi­ka re­sul­tat be­ror på från vil­ket sam­man­hang vi häm­tar tex­ten. När vi un­der‍ sök­te eng­els­ka blogg­tex­ter såg vi att de tre mest över­re­p­re‍ sen­te­ra­de or­den bland kvin­nor är I, my och me (’jag’, ’min’ och ’mig’). Är kvin­nor mer själv‍ cen­tre­ra­de? Nja, in­te nöd­vän‍ digt­vis. Det skul­le kun­na va­ra så att kvin­nor of­ta­re an­vän­der‍ blog­gar för att skri­va om si­na per­son­li­ga er­fa­ren­he­ter, me­dan män skri­ver om and­ra sa­ker. Det skul­le ock­så kun­na va­ra så att kvin­nor ut­tryc­ker si­na åsik­ter med fra­ser som jag tyc­ker att det är så här …, me­dan män­nen är mind­re blyg­sam­ma och ut­tryc­ker si­na åsik­ter som fak­ta: det är så här.

Vi kan ock­så ta till­fäl­let i akt att tes­ta någ­ra and­ra för­do­mar om hur män och kvin­nor ta­lar och skri­ver. En van­lig tan­ke är att kvin­nor ta­lar mer om käns­lor. Kan det stäm­ma? Om vi pro­var att lis­ta de van­li­gas­te or­den som har med tan­kar och käns­lor att gö­ra, som tän­ka,

”Att av­gö­ra per­so­ners stjärn­tec­ken ut­i­från de­ras sätt att skri­va vi­sar sig

va­ra helt omöj­ligt”

äls­ka, bra och in­tres­sant, ser vi att de fles­ta av dem an­vänds be­tyd­ligt of­ta­re av kvin­nor.

En an­nan för­dom är att kvin­nor ta­lar mer om fa­milj och re­la­tio­ner, så vi tit­tar på ord som barn, kvin­na och fa­milj. ‍Även här får vi vat­ten på vår för­doms­ful­la kvarn – al­la or­den an­vänds be­tyd­ligt mer av kvin­nor. Vi ser ock­så en in­te helt ovän­tad trend: Kvin­nor an­vän­der ord för kvin­nor (som hon, kvin­na, mam­ma) of­ta­re än de mot‍ sva­ran­de man­li­ga or­den (som han, man, pap­pa), och det om­vän­da gäl­ler för män. Men i all­män­het är al­la de här or­den, även de man­li­ga, van‍ li­ga­re i tex­ter av kvin­nor än i tex­ter av män. Det kan ver­ka li­te för­vå­nan­de att or­det fru an­vänds mer av kvin­nor, ef­ter‍ som de mer säl­lan har en fru att ta­la om. Men även om vi tit­tar på ut­tryc­ket min fru vi­sar‍ fle­ra text­da­ta­ba­ser att det är mer van­ligt fö­re­kom­man­de hos kvin­nor. Up­pen­bar­li­gen är det så att om en man i en bok pra­tar om sin fru, då är det tro­li­gen en fik­tiv man – i en bok av en kvin­na.

HUR ÄR DET då med skill‍ na­der mel­lan ål­ders­grup­per? Här kan vi se än­nu tyd­li­ga­re skill­na­der. Yng­re per­so­ner an­vän­der i stör­re ut­sträck­ning pro­no­men, och äld­re per­so­ner skri­ver läng­re me­ning­ar med fler bi­sat­ser. Uppre­par vi ex­pe­ri­men­tet med ord för käns­lor ser vi att yng­re an­vän‍ der dem myc­ket mer än äld­re. I själ­va ver­ket är det till stor del sam­ma ord som är över‍ re­pre­sen­te­ra­de hos kvin­nor och hos yng­re, men med en än­nu stör­re skillnad mel­lan ål­ders­grup­per än mel­lan kön.

Så vad ska vi dra för slut‍ sat­ser av det? Att kvin­nor in­te ba­ra är själv­cen­tre­ra­de, ut­an ock­så barns­li­ga? Nej, sna­ra­re är det så att kvin­nor och yng­re of­ta­re an­vän­der sig av ett in­for­mellt, le­digt, och kanske mer mo­dernt språk. And­ra stu­di­er har ock­så vi­sat att skill­na­der­na mel­lan fak­ta och fik­tion lik­nar dem mel­lan man­li­ga‍och kvinn­li­ga för‍ fat­ta­re.

I slutän­den är det in­te så lätt att iden­ti­fi­e­ra en för­fat­ta­res kön trots allt. En me­tod som ba­ra går ef­ter den här sta­tis‍ ti­ken skul­le kanske ta fel om en kvin­na skri­ver en for­mell text, el­ler om en man skri­ver ett per­son­ligt brev. På sam­ma sätt skul­le man ju kun­na gis­sa en per­sons kön ut­i­från dess yr­ke, men det vo­re ba­ra en frå­ga om sta­tistik, knap­past någ­ra dju­pa­re in­sik­ter än så.

Det finns allt­så en hel del kvar att gö­ra i ar­be­tet med att au­to­ma­tiskt klas­si­fi­ce­ra tex­ter. I dag är det fram­för allt enkla­re syss­lor som kan skö­tas med tek­ni­ken – så­dant som män­ni‍ skor en­kelt skul­le kun­na gö­ra, men som än­då är prak­tiskt att över­lå­ta till da­torn.‍det kan va­ra att fil­tre­ra skräp­post el­ler oväl­kom­na in­lägg på internet‍ fo­rum, el­ler att iden­ti­fi­e­ra vil­ket‍språk en text är skri­ven på. Det finns även sy­stem för att ka­te­go­ri­se­ra tex­ter ef­ter äm­ne el­ler gen­re, till ex­em­pel i en da­ta­bas över tid­nings‍ ar­tik­lar el­ler böc­ker.

I vis­sa fall är det en gans­ka lätt upp­gift – det är in­te svårt att hit­ta nyc­kelord för att skil­ja ar­tik­lar om sport från ar­tik­lar om ut­ri­kes­po­li­tik. And­ra fall är fort­fa­ran­de un­der ut­veck­ling, till ex­em­pel att au­to­ma­tiskt klas­si­fi­ce­ra en re­cen­sion som po­si­tiv el­ler ne­ga­tiv, el­ler att av­gö­ra hur lätt­läst en text är.

”Det kan ver­ka li­te för­vå­nan­de

att or­det fru an­vänds mer av kvin­nor, ef­tersom de mer säl­lan

har en fru att ta­la om ”

NÅ­GON GÅNG I fram­ti­den kanske vi ock­så har ut­veck­lat enk­la och ef­fek­ti­va pro­gram för att iden­ti­fi­e­ra en ano­nym för­fat­ta­re. Men det in­ne­bär ock­så att den som vill va­ra ano­nym kan an­vän­da pro­gram­met,‍och änd­ra sitt sätt att skri­va, tills den in­te blir iden­ti­fi­e­rad – el­ler tills den iden­ti­fie­ras som nå­gon an­nan.så även i fram­ti­den kom­mer vi sä­kert att be­hö­va bil­da­de per­so­ner som, pre­cis som Lo­ren­zo Val­la, kan ana­ly­se­ra tex­ter och upp­täc­ka för‍falsk‍ning­ar.

Niklas Ze­ch­ner ar­be­tar som ex­pert på Språk­ban­ken vid Gö­te­borgs uni­ver­si­tet.

Newspapers in Swedish

Newspapers from Sweden

© PressReader. All rights reserved.