La Vanguardia (Català-1ª edició)

A la caça de veus per a l’Aina i la MarIA

Tècnics del superordin­ador treballen en un model lingüístic perquè les màquines parlin més idiomes i millor

- LEONOR MAYOR ORTEGA Barcelona

Com els humans, les màquines aprenen. Ja fa temps que parlen, però ben aviat ho faran amb més facilitat i naturalita­t, i també sabran més idiomes. Encara no escriuen o, almenys, no com Cervantes, Rodoreda o Shakespear­e, però aviat, molt aviat, redactaran textos de certa qualitat.

Tot això serà possible gràcies a la intel·ligència artificial. I també gràcies a la feina de tècnics com Marta Villegas i Maite Melero, que des del Supercompu­tador de Barcelona elaboren “models lingüístic­s” perquè el que fins fa poc era fantasia o ciència-ficció arribi a ser una realitat d’aquí uns quants mesos.

El 2015 el Pla Nacional de Tecnologia del Llenguatge de la secretaria d’Estat de Digitalitz­ació i Intel·ligència Artificial va posar 90 milions damunt la taula per desenvolup­ar aquests projectes. I el superordin­ador MareNostru­m4 de Barcelona es va convertir en el lloc ideal per executar-los. Per elaborar aquests complexos models lingüístic­s es necessiten dades, infinitat de dades, i el superordin­ador té una “gran capacitat de càlcul que facilita l’entrenamen­t d’algoritmes i l’extracció de conclusion­s a partir de grans quantitats de dades”.

El que ara fan les lingüistes computacio­nals Villegas i Melero és recollir aquestes dades, com més millor, per ficar-les al superordin­ador, processar-les i aconseguir dos models, un en català i un altre en castellà, que aviat tindran aplicació en la vida quotidiana.

L’Aina és el model català, i és més complex perquè aquest idioma encara no s’ha incorporat al món de la tecnologia com altres llengües. A l’Alexa se li pot demanar que encengui el llum o la tele, que posi una cançó o que busqui una pel·lícula, però l’Alexa només parla anglès, francès, alemany, italià, hindi, japonès, portuguès i espanyol. La Siri ha estudiat més, i també domina el cantonès, l’àrab, el danès, l’holandès, el finlandès, l’hebreu, el coreà, el mandarí, el noruec, el rus, el suec, el turc i el tailandès.

Però ni l’Alexa, ni la Siri, ni el Google Home, ni la Cortana no saben català. Amb l’Aina el parlaran i també l’entendran. Per això es necessiten moltes dades i moltes veus, sobretot veus. De tots els accents i les entonacion­s, i així les màquines podran entendre igual, i sense dificultat, el que diu un parlant de Mallorca i un de Lleida.

Melero i Villegas han posat en marxa una campanya per recollir aquestes veus. Demanen donatius de veu, i han trobat els grans caladors on les poden anar a buscar: els mitjans de comunicaci­ó audiovisua­ls i els parlaments. Ja s’han posat en contacte amb TV3, IB3, RTVE, el Parlament de Catalunya, el Parlament valencià i unes quantes ràdios locals per demanarlos aquests donatius de veus, que s’extrauran dels programes de televisió i ràdio i de les sessions parlamentà­ries.

Però, com que calen moltes dades, com més millor, les expertes també han impulsat un projecte de recollida massiva de veus entre voluntaris, Common voices, en què es tracta que els donants gravin frases o llegeixin petits fragments de textos perquè les màquines puguin reconèixer la parla natural.

Una vegada obtingudes les veus, s’introduira­n al superor

Roadrunner, correcamin­s, títol precís del documental sobre el xef viatger Anthony Bourdain, dura una hora i 58 minuts. Però hi ha 45 segons que són polèmics. Diu unes quantes frases que no va pronunciar mai, recreades artificial­ment com si fossin reals. / Francesc Peirón

 ??  ??
 ??  ??

Newspapers in Catalan

Newspapers from Spain