Societat

La normalització del català en l’àmbit digital pren cos

El projecte Aina enllesteix el corpus lingüístic per preparar la intel·ligència artificial que faran servir els assistents de veu

El Barcelona Supercomputing Center participa en el disseny científic i el càlcul

L’estratègia de la Generalitat de garantir la supervivència i competitivitat del català en un entorn cada cop més globalitzat i digital comença a prendre forma. El conseller de Polítiques Digitals i Administració Pública, Jordi Puigneró, en va oferir ahir els primers resultats en la presentació del projecte Aina, un programa amb un pressupost de 13,5 milions d’euros per a quatre anys que vol dotar la llengua pròpia del país dels recursos digitals i lingüístics per tal que les empreses que creen aplicacions basades en intel·ligència artificial, com ara assistents de veu i traductors automàtics, puguin fer-ho fàcilment en català.

El Barcelona Supercomputing Center (BSC) serà un agent cabdal en aquesta adaptació a l’entorn virtual, ja que hi aporta el coneixement científic i la capacitat de càlcul per aixecar el projecte. De moment, ja s’ha elaborat el corpus lingüístic textual, el més gran que s’ha fet mai de la llengua catalana, consistent en 1.770 milions de paraules reunides en 95 milions de frases. Per construir-lo s’han descarregat i processat textos del Diari Oficial de la Generalitat de Catalunya i els seus webs, l’Agència Catalana de Notícies, els 500 dominis .cat amb més trànsit, la Viquipèdia i altres corpus i bases de dades ja existents.

Tot plegat va generar un volum d’informació que el superordinador MareNostrum va polir i netejar de duplicats amb 2.000 hores de processadors. Ara es crearan nous corpus per incorporar les diferents variants dialectals del català, diferents registres lingüístics (col·loquial, literari, administratiu, etc.) i arxius de veu i imatge, que es nodriran del repositori documental de la Corporació Catalana de Mitjans Audiovisuals.

Amb tota aquesta informació, el següent pas serà entrenar xarxes neuronals multicapa perquè “aprenguin el català” i generin models de la llengua, models de la parla i models per a la traducció. Es tracta d’eines molt costoses de crear, perquè necessiten gran capacitat de càlcul, però que es posaran a disposició dels desenvolupadors per crear assistents de veu, predictors i correctors lingüístics, xatbots, aplicacions de resum automàtic, cerques intel·ligents, aplicacions per a l’anàlisi de sentiments o motors de traducció i subtitulació automàtica, entre altres.

Batejat en honor d’Aina Moll, filòloga menorquina que des de la direcció general de Política Lingüística de la Generalitat va ser figura central de la normalització del català, aquest projecte arrenca amb una inversió inicial de 250.000 euros del govern al BSC i espera rebre finançament dels fons europeus NextGenerationEU.

El català no té un estat que el protegeixi, tot i que la constitució ho estableix. Ho hem de fer nosaltres
Jordi Puigneró
conseller de Polítiques Digitals
Si la dictadura no va eliminar el català, tampoc no ho farà la digitalització. Alexa parlarà català abans que es pugui fer al Congrés o al Suprem


Identificar-me. Si ja sou usuari verificat, us heu d'identificar. Vull ser usuari verificat. Per escriure un comentari cal ser usuari verificat.
Nota: Per aportar comentaris al web és indispensable ser usuari verificat i acceptar les Normes de Participació.
[X]

Aquest és el primer article gratuït d'aquest mes

Ja ets subscriptor?

Fes-te subscriptor per només 48€ per un any (4 €/mes)

Compra un passi per només 1€ al dia

canvi climàtic

Onades de calor extrem arreu del món

barcelona
Infraestructures

L’ACA soterrarà el torrent dels Vinyals a Cabrera per controlar les inundacions

Cabrera de Mar
SOCIETAT

Un festival neonazi a Santa Susanna fa que el Maresme es declari antifeixista

SANTA SUSANNA
Estat espanyol

García Castellón proposa jutjar l’expresident del BBVA Francisco González

Barcelona

Figueres obre la piscina exterior aquest dissabte amb més vigilància

FIGUERES
Societat

Aboquen 50.000 m³ de sorra a les platges de la demarcació de Tarragona

Dues amigues de La Salle, millors notes de les PAU a la demarcació

girona
estat espanyol

El TS rebutja una denúncia contra Ayuso per les morts a les residències

barcelona
Medi Ambient

Els ajuntaments del Baix Ebre i el Montsià s’hauran d’implicar més en la gestió de residus

Amposta