Když Shakespearovi seberete autorství
S versologem Petrem Plecháčem o výzkumu autorství Shakespearových her, využití počítačových dat v lingvistice a o úspěších české versologie
Klasifikační funkce, tedy to, jakým způsobem natrénovaný model rozhoduje, kterému autorovi text nebo jeho části přiřadí, není nikdy založená na jediném textovém rysu, ale vždycky na kombinaci všech rysů, které mu dáte k dispozici. Na základě trénovacích dat jim ale přikládá různé váhy. Mezi nejdůležitější patří například to, že Fletcher užívá mnohem častěji verše zakončené na nepřízvučnou slabiku. Dále sem patří třeba to, jaké slovní tvary autoři preferovali: jak často užívali ‘em místo them, ye místo you a tak podobně. Za zmínku stojí i to, že většina rysů, které počítač vybral jako nejdůležitejší, jsou skutečně ty, které se zmiňují už od 19. století. Spedding a jeho následovníci vážně nebyli hloupí, znali Shakesperova i Fletcherova díla zpaměti a jejich autorské styly měli takříkajíc v krvi.
LN Zmínil jste, že v některých jazycích tato metoda funguje na určení autorství spolehlivě. Narazil jste na nějaký jazyk, kde to zkrátka nefunguje?
V rámci své práce jsem dosud nenarazil na jazyk, kde by strojové učení při určování autorství nějak nefungovalo. Zkoušel jsem ho na češtině, němčině, španělštině a angličtině. Někde byly charakteristiky verše dostačující samy o sobě, někde bylo potřeba zohlednit i volbu slov.
LN Ze Shakespearovských her zlidovělo spoustu pasáží – zmiňme třeba „Království za koně!“z Richarda III. Myslíte si, že z Jindřicha VIII. žádné pasáže nezlidověly právě proto, že to bylo kolektivní dílo?
Nemyslím si to. Z mojí i řady dalších analýz vyplývá, že si Fletcher se Shakespearem pravděpodobně nesedli k jednomu stolu, aby text společně vypilovali, ale že každý psal své části odděleně. Pokud by to tedy bylo tak, že Shakespeare měl talent na okřídlené fráze, a Fletcher nikoli, pravděpodobně by zlidovělo alespoň něco z těch Shakespearových pasáží. Spíše bych obecně řekl, že tahle okřídlená slovní spojení pocházejí spíš z ranějších Shakespearových her, ne z jeho pozdní tvorby.
LN Vydání tohoto článku vyvolalo obrovskou mediální vlnu. Dokázal jste si představit, jakou senzaci způsobíte?
Samozřejmě že jsem to nečekal. Navíc mediální smršť začala ještě dřív, než článek vůbec vyšel. Já jsem tehdy vydal jen preprint – ve velkých vědeckých časopisech trvá recenzní řízení obvykle velmi dlouho, proto se publikují takzvané preprinty, tedy verze článků, které ještě neprošly recenzním řízením, aby na ně odborná komunita nečekala roky. Prestižní americká univerzita MIT dělá seznam těch nejzajímavějších z celého světa, vůbec jsem nečekal, že mě na něj zařadí. Skoro nikdy se nestává, že se na jejich seznam dostane něco z humanitních věd. Ale stalo se, následně to z MIT převzala CNN a zpráva se začala šířit do světa. O studii se psalo v The Times, Süddeutsche Zeitung nebo i v ruském deníku Izvestija, o rozhovory zase projevila zájem britská BBC, německé rádio Bayern 2 či italský deník La Repubblica.
LN Máte vůbec ještě Shakespeara rád?
Samozřejmě ho mám rád. Především jsem nikdy nečetl Shakespeara tak, že bych ho analyzoval, vždy jsem ho četl pro potěšení. I zcela záměrně jsem si Jindřicha
LN Vy jste členem versologického týmu Ústavu pro českou literaturu Akademie věd. Co tam jako versolog zkoumáte?
Jádrem činnosti versologického týmu je korpus českého verše, taková databáze básní. Je v ní prakticky celá knižně publikovaná básnická česká produkce 19. století. Čítá na 1700 básnických sbírek a cca 80 000 básní, samozřejmě je to celé digitalizované. Pomocí počítačových programů byly v rámci této databáze rozpoznané typy veršů, rýmy, takže umožnuje výzkumníkům dělat výzkum ve velkém. Všechna tahle data jsou volně dostupná na našich webových stránkách Versologie.cz. Vedle toho ale nabízíme i různé aplikace pro širokou veřejnost, například v aplikaci Gunstick, která nese název po známé postavě z děl Karla Maye – strýčku Gunstickovi, který zásadně mluvil jen v rýmovaných verších –, můžete hledat rýmové páry. Můžete tak například zjistit, co se v 19. století nejčastěji rýmovalo třeba se slovem „láska“, kdy převažovaly rýmy „láska–páska“a kdy naopak „láska–maska“. Stejně tak nabízíme cvičebnici, kde si můžete na desítkách tisíc příkladů trénovat rozpoznávání jambu, trocheje a dalších básnických meter.
LN A dál?
Nově jsme také přidali mapu nejčastěji zmiňovaných zeměpisných míst v české poezii 19. století. Opět pomocí počítačových programů jsme vytvořili interaktivní mapu, kde jsou všechna místa zanesena. Zdaleka se neomezuje jen na Česko. Zmínky jsou třeba i o Africe, Americe, nebo úplně jiných exotických lokacích, o kterých byste si ani nepomysleli, že se mohou objevit v poezii devatenáctého století.