Ciència

Jordi Mas Hernàndez

Cofundador de Softcatalà

“Softcatalà entén que la IA canvia el llindar de la perfecció”

“El sistema de doblatge de vídeos al català és imperfecte, però està bé per mostrar què podem fer amb eines obertes”

“Un percentatge de gent ho veu amb recel, de perdre la feina, sobretot els actors de veu. Al final ens tocarà a tots”

La intel·ligència artificial tindrà un impacte important en el món laboral. Serà un canvi dur
D’aquí a pocs mesos, ja no programaràs. Canviarà molt la professió tal com l’hem coneguda
El català té bona presència a internet i aquestes IA xuclen les dades d’internet. De retruc, estàs bé

Jordi Mas Hernàndez (Barcelona, 1972) és enginyer informàtic i un dels tres fundadors de Softcatalà, entitat que acaba de posar a l’abast dels usuaris una eina gratuïta amb intel·ligència artificial per doblar vídeos de l’anglès o el castellà al català.

Què els va moure a fundar Softcatalà fa 26 anys?
L’absoluta nova presència del català a les noves tecnologies. Nosaltres érem un grup de persones que teníem experiència en el món de la traducció i vam dir: “Amb el català no s’està fent res, posem-nos-hi!” Molt inspirat en el que estava passant al món de Linux, abans de la Viquipèdia. Un grup de gent que a través d’internet es posava d’acord per fer coses conjuntament. Sempre ens va sorprendre que per una cosa complicada com un sistema operatiu gent d’arreu del món es posés d’acord. Després ja van sorgir referents com la Viquipèdia, que van demostrar que aquest tipus de models escalaven, però això ja va ser posteriorment.
Com es van conèixer?
Molts ens vam conèixer en una història prèvia que es deia BBS, els Bulletin Board Systems, que ja fa de gran recordar-ho. Molta de la gent que vam fundar Softcatalà ens coneixíem d’aquella època i teníem un cert interès pel món de la tecnologia.
Eren previs a la Viquipèdia i als diaris digitals en català?
Crec que Vilaweb ja havia nascut, però, en canvi, Google va sortir el mateix any que nosaltres. Al principi, el boca-orella va popularitzar Google.
Van ser els primers a defensar el català a la xarxa?
Qualsevol parlant del català el defensa en tots els àmbits que té al seu abast. Potser sí que vam ser els primers que des del món associatiu el vam defensar.
L’èxit és que 26 anys després Softcatalà segueix existint.
El repte més gran és donar continuïtat a una cosa basada en el voluntariat i els canvis tecnològics que hem viscut en aquests 26 anys. Quan vam començar no hi havia mòbils. Tampoc existien les xarxes socials ni la intel·ligència artificial. Cada vegada que hi ha un gran canvi tecnològic, que nosaltres considerem que passa cada 7 anys, has de buscar la manera de poder aportar en positiu al nou escenari que s’obre. Potser hi ha coses que feies abans que han deixat de tenir sentit. El dubte és si podrem continuar ajudant en el següent canvi tecnològic que hi hagi. Tant de bo!
El canvi de la intel·ligència artificial és un d’aquests cíclics de cada 7 anys o aquest és gros?
És un canvi molt important, amb dues característiques que el fan molt especial. La primera, que és molt ràpid. Jo havia viscut el canvi del mòbil, del núvol, d’agile, però d’aquest en concret el que m’ha sorprès molt és la velocitat a què estan succeint els canvis. Normalment la gent té més temps d’adaptar-se als canvis tecnològics. Per a moltes empreses la seva proposta de valor queda obsoleta molt ràpidament. Per una altra banda, tindrà un impacte important en el món laboral. Ja ha començat pels informàtics, en programació. Això té dues lectures.
Quines són?
Que sent menys podem fer més o que acabarem fent el mateix amb menys persones.
De quina és vostè? De l’optimista o de la pessimista?
Nosaltres ja vam crear els primers models neuronals de traducció automàtica el 2018 i ja es va veure l’impacte que tenia la tecnologia en la indústria. De cop i volta el rol de l’humà va canviar. Tu, en comptes de traduir, et passen un fitxer traduït i et dediques a fer postedició. El rol canvia completament, i això ha estat molt frustrant per a la generació que li ha tocat viure aquest canvi. Ja no tradueixo, sinó que em toca revisar el que ha fet una màquina. El preu que es paga és diferent, i la relació i el context en què es treballa, també. Aquest canvi ara ens tocarà fer-lo amb la intel·ligència artificial en informàtica i en molts altres àmbits. Al final, el motor d’aquests canvis és empresarial. Crec que serà un canvi dur.
L’humà ja no programarà?
Els informàtics, d’aquí a pocs mesos, ja no escriuran software. El que faràs serà donar ordres a la màquina i revisar. Canviarà molt la professió tal com l’hem coneguda.
Això, a una persona de 53 anys com vostè, com la pot afectar?
Els enginyers que ens hem definit com gent que ajuda a resoldre problemes seguirem sent necessaris. Si em pot afectar i deixar-me sense feina, doncs m’hauré de reinventar. Hi ha altres opcions a la vida. Aquestes coses són imparables. La qüestió és com tu pots continuar sent rellevant o ajudant en aquestes transformacions.
Softcatalà com afronta el ‘boom’ de la IA?
Nosaltres vam començar fa molts anys, el 2018, amb els primers motors de traducció neuronal. El que ha passat ara amb la IA és que han canviat les expectatives dels usuaris. Havíem fet moltes coses amb IA i no les havíem posat en mans dels usuaris perquè pensàvem que la qualitat no era adequada. Teníem la mentalitat de “No em pots donar un text per corregir si de cada 100 paraules te’n corregeixo 98 i 2 te les trenco”. I ara el que s’ha vist és que els usuaris, en el fons, tenen més màniga ampla. Vas a ChatGPT i s’estan redefinint les expectatives del que espera la gent d’aquest tipus d’eines. La gent ja està molt contenta amb el 98%. Nosaltres hem estat molt perfeccionistes i comencem a veure que el llindar de perfecció està canviant, sobretot en les noves generacions. Per tant, si les coses s’expliquen bé, hi ha la possibilitat de fer eines que siguin útils.
Què més han detectat?
La intel·ligència artificial està molt bé per a tasques generatives, sobretot per idioma, en què vols crear contingut nou, i ho fan molt bé. Però quan li demanes revisar coses ja és més delicat. La gent accepta un fals positiu en una traducció perquè l’objectiu és entendre-la, però un fals positiu en alguna cosa que requereixi molta precisió la gent ja no l’accepta tant.
Vostès acaben de presentar un servei de doblatge de vídeos amb IA.
És un servei bastant imperfecte en alguns aspectes, però està bé mostrar el que podem fer amb tecnologies obertes. Amb tecnologies professionals, tant de bo surtin coses millors que ajudin.
És un sistema de doblatge de l’anglès i el castellà al català?
Sí, de l’anglès o el castellà cap al català. Hi havia un munt de tecnologies obertes damunt la taula que feien diferents peces i vam dir: “Anem a intentar unir totes les peces, a veure què surt.” I ha sortit una cosa que funciona, que està molt lluny de qualsevol feina que pugui fer un professional, però un dels objectius que teníem era posar una eina a l’abast de l’usuari perquè pogués experimentar i que la gent entengui que això acabarà succeint. És un primer pas.
I els passos següents?
A mesura que totes aquestes tecnologies, que són pràcticament deu, vagin madurant, nosaltres ho anirem incorporant i millorant. Per a nosaltres, el que hauria de succeir és que dins del món professional sortissin empreses que proporcionessin aquest tipus d’eines amb una qualitat professional que no és la nostra. Hi ha una empresa americana que es diu ElevenLabs que té un nivell de qualitat molt alt per a doblatges tant de pòdcasts com de pel·lícules. Ara fa poc han incorporat el català, a la versió 3.0. Està bé.
Han incorporat 41 idiomes, entre els quals hi ha el català. En total, ja tenen 71 idiomes.
El nivell del català no és com el de l’anglès, òbviament, però quan aquesta gent s’hi posa ho fa per tenir-ho a nivell professional. Jo penso que tenir més eines sempre és més positiu.
Qui no tingui temps de buscar ElevenLabs o similars i hagi confiat tota la vida en Softcatalà com un referent, anant al seu sistema de doblatge quins casos d’ús pot tenir?
Nosaltres el que recomanem són vídeos curts, de 10 o 15 minuts. I normalment vídeos educatius. Ara tenim 6 o 7 doblatges al dia, de vídeos sobretot del món de l’ensenyament que estan en anglès i que per als alumnes prefereixen doblar-los al català. El nostre sistema no funciona per fer una pel·lícula, però sí per a petits vídeos. De fet, quan tenim el vídeo identifiquem el parlant, assignem un gènere, i després fem la síntesi de veu en català perquè quan hi hagi diàlegs hi hagi una certa coherència. Suportem veus d’homes i dones, diferents variants dialectals, però no coses massa sofisticades. ElevenLabs, per exemple, fa la sincronització labial, que és una passada. El nostre cas són vídeos curts que la gent pugui compartir-los i que siguin entenedors.
Requereix alguna intervenció humana per part de vostès?
No, és automàtic. Tu envies un vídeo de 60 minuts com a màxim, entra en una cua, tens un límit de 5 vídeos, es fa el doblatge i el que nosaltres proporcionem és un editor al final del procés per si vols canviar alguna cosa. És molt simple.
El govern els ha ajudat?
No. Hem fet servir peces d’OpenAI (Whisper per al reconeixement de la parla), la síntesi de veu d’Aina, de Meta i d’una universitat francesa, però no demanem subvencions. Hi tenim una relació cordial.
El govern no els paga les eines?
No, són eines lliures i gratuïtes.
És un projecte complex, oi?
Sí, però és divertit [riu].
Quant temps els ha suposat?
Tres mesos a temps complet. A mi em va coincidir amb un canvi de feina i tenia temps. Va ser molt experimental.
L’acollida com ha estat?
Positiva. Diria que el 95% de la gent ho veu bé i entén la qualitat d’una demostració tecnològica de fins a on es podia arribar. Hi ha un percentatge de gent que ho veu amb recel des del punt de vista de perdre la feina, sobretot els actors de veu. Al final ens tocarà a tots, sí.
Pot ser que sigui la primera vegada que una eina de Softcatalà algú la vegi amb recel?
No. Un poder que tenim nosaltres és el corrector i la gent també ens critica per la línia editorial. Hem de fer uns equilibris, i amb les variants dialectals. Tot això genera tensions perquè hi ha gent que té la seva agenda política i li agradaria veure-la reflectida a Softcatalà. Ja hi estem acostumats. “Parla amb el DIEC, però nosaltres no som autoritat lingüística.” Si hem d’escollir entre tenir tensió i que la llengua avanci, ja sabem on hem de ser.
Els vídeos del doblatge amb IA quin català parlen? Estàndard?
Permetem quatre variants. Es basa en el sistema d’Aina que es diu Matxa. La central és la que està millor. La valenciana l’estan refent. És un inici. El que importa és anar avançant.
El català de la seva eina és millor que el que acaba d’implementar ElevenLabs?
No diria tant com això. Els nous models de síntesi de veu tenen molt control de la tonalitat, de l’emoció... No sé si has tingut l’oportunitat de veure el NotebookLM de Google, la part d’àudio. L’emoció que té allò està molt ben fet. I no sé si has provat mai l’assistent de veu de ChatGPT quan li demanes que et digui una cosa en valencià, o com si vingués de córrer una marató. Hi ha un control sobre la veu que nosaltres no tenim.
L’última actualització de l’opció de veu de ChatGPT té una calidesa i una humanitat que com a assistent personal realment et conquereix. És espectacular.
Sí.
Aquestes millores les podran integrar fàcilment?
A diferència d’altres àmbits tecnològics, en intel·ligència artificial el món comercial va un any i mig o dos al davant de les tecnologies lliures, que és de les que nosaltres bevem. Amb la importància geopolítica que té, al final hi ha cinc laboratoris importants d’IA al món.
Com a català creu que la IA és una gran oportunitat?
Crec que acabarà tenint èxit i si no puges al carro acabaràs perdent oportunitats. Això segur. Si mirem les llengües que hi ha al món, que són 7.000 i moltes no estan ni digitalitzades ni tenen gramàtica, és impossible disposar de tot en totes les llengües, impossible. Jo crec que aquestes tecnologies, com la traducció i el doblatge automàtics, fan que disposem de més eines a l’abast.
Com a català, seria millor viure en una regulació laxa com l’estatunidenca o amb l’europea que fa perdre competitivitat?
La IA està tan avançada als Estats Units i la Xina que el primer que ens interessa és ser-hi. OpenAI té des de fa dos anys una pàgina dient que si ets un govern o associació i vols cedir un conjunt de dades de la teva llengua les incorporaran. El 99% de les empreses acaben anant al núvol, i allà quines IA tens? Google, Anthropic, etcètera. T’interessa ser-hi perquè si no hi haurà una desconnexió molt gran. Ser-hi a les grans ho trobo innegociable. Són les més avançades i ja d’origen són multilingües, i com que el català té bona presència a internet i aquestes IA xuclen les dades d’internet, doncs, de retruc, estàs bé. D’altra banda, t’interessa fer recerca i des de fa anys el BSC i Aina ja ho estan fent.
És utòpic una Mistral catalana?
Cal saber per a què. Només veig factible una IA d’àmbit europeu.


Identificar-me. Si ja sou usuari verificat, us heu d'identificar. Vull ser usuari verificat. Per escriure un comentari cal ser usuari verificat.
Nota: Per aportar comentaris al web és indispensable ser usuari verificat i acceptar les Normes de Participació.

Has superat el límit de 5 articles gratuïts d'aquest mes.

Continua llegint-nos per només

1

Passi d'un dia

48

Subscripció anual

Ja ets subscriptor?

Inicia sessió

[X]