Societat

Ciència

El sexe dels textos

Un sistema automàtic d'un professor de la UPF prediu, en el 84% dels casos, si un text ha estat escrit per un home o per una dona

L'autor del mètode es planteja identificar paràmetres com ara l'edat i l'orientació sexual

Els homes i les dones són diferents en moltes coses. També en la manera com escriuen els textos, segons un estudi de Juan Soler-Company, membre del Grup de Recerca en Tractament Automàtic del Llenguatge Natural (TALN) del Departament de Tecnologies de la Informació i les Comunicacions (DTIC) de la Universitat Pompeu Fabra (UPF), que ha aconseguit predir, de manera automàtica, en el 84% dels casos, el gènere dels autors d'articles d'opinió en anglès publicats en línia en els diaris The Sun, The Times i New York Daily. El sistema, premiat en la darrera edició del Congrés Europeu d'Intel·ligència Artificial de l'Haia, va analitzar un total de 7.148 textos, d'unes 350 paraules de mitjana, escrits per 51 autors diferents i de temes diversos.

El mètode “funciona bastant bé en diferents tipus de discurs” perquè es basa en l'estructura sintàctica i discursiva en lloc del contingut, segons explica Soler. L'investigador ha identificat fins a 200 característiques diferents, com ara la freqüència de comes i punts, el nombre de caràcters per paraula, la riquesa del lèxic, el nombre de paraules per frase, les connotacions positives o negatives dels mots (insults inclosos) i aspectes sintàctics com l'ús de subordinades. Aquestes característiques combinades ajuden a identificar patrons d'escriptura masculins i femenins.

El programa d'intel·ligència artificial amb el qual s'analitzen els textos, a més, “n'aprèn” a mesura que n'explora de nous –hi afegeix Soler, que assegura que, tot i que l'experiment s'ha fet en textos en anglès, “pot funcionar amb qualsevol idioma”.

Més enllà de la curiositat de constatar les diferències de gènere en l'escriptura, la troballa del professor de la UPF pot resultar útil en dues grans branques, segons explica ell mateix. La primera, el màrqueting digital. “Per exemple, si Amazon detecta que el 80% de les crítiques d'un producte les fan homes adaptarà el seu discurs a aquesta audiència. L'altra branca és la lingüística forense, per a la qual s'hi haurien d'afegir altres variables a banda del gènere. Una mostra d'aquesta utilitat –diu l'investigador– podria ser establir un sistema per detectar potencials pedòfils en xats per a menors per l'edat en els quals es podria identificar el sexe i l'edat de l'agressor, o bé per comprovar qui és l'autor d'una obra.

De fet, Soler ja està pensant a obrir noves vies d'investigació que incloguin patrons d'escriptura segons l'edat, l'orientació sexual, la professió, la llengua materna, la procedència geogràfica i altres característiques. Les xarxes socials com Twitter també són una font de la qual es pot extreure informació valuosa, diu l'investigador, que recorda que en aquesta xarxa es poden prevenir brots de la grip, ja que, en funció de la procedència de missatges, es veu en quines zones hi ha més incidència de la malaltia.

Per Soler, el fet que, precisament, les noves tecnologies comportin una simplificació i escurçament dels textos no és cap impediment per avançar en la identificació de patrons d'escriptura. L'investigador posa com a exemple els estudis recents sobre emoticones de WhatsApp, que revelen les diferents preferències en funció del territori. Així, mentre a Catalunya el més utilitzat és el d'aplaudir, a Madrid ho és la cara espantada.

7.148
textos
d'unes 350 paraules ha analitzat el mètode automàtic de Juan Soler-Company.


Identificar-me. Si ja sou usuari verificat, us heu d'identificar. Vull ser usuari verificat. Per escriure un comentari cal ser usuari verificat.
Nota: Per aportar comentaris al web és indispensable ser usuari verificat i acceptar les Normes de Participació.
[X]

Aquest és el primer article gratuït d'aquest mes

Ja ets subscriptor?

Fes-te subscriptor per només 48€ per un any (4 €/mes)

Compra un passi per només 1€ al dia

Iniciativa pionera de gestió de boscos per tal d’adaptar-los al canvi climàtic

la vall de bianya
PATRIMONI

El festival de recreació històrica Tàrraco Viva es dedicarà enguany al Mediterrani

Tarragona

Roses i Castelló celebren les dessalinitzadores

roses / castelló d’empúries
economia

L’Agència Tributària de Catalunya destapa 286 milions de frau fiscal

barcelona
societat

Avancen dos setmanes la precampanya contra incendis a Collserola

BARCELONA
sequera

El govern recorre a les dessalinitzadores flotants i descarta portar aigua amb vaixell

barcelona

Desallotgen els habitants d’una barraca a l’avinguda Massana

RUBÍ

Comiat multitudinari a Terricabras

girona
patrimoni

Denuncien penalment una persona per espoli arqueològic a Gandesa

GANDESA