Dimecres 13

Una llei prediu la freqüència d’ús d’una paraula en un text

Publicado el 13/04/2016

Gràfic de la llei de Zipf. Font: UAB

Post d’Álvaro Corral, investigador del Centre de Recerca Matemàtica (CRM) i coordinador de l’estudi sobre la llei de Zipf.

En el marc del projecte «Recerca en matemàtica col·laborativa», impulsat per l’Obra Social “la Caixa”, investigadors del Centre de Recerca Matemàtica (CRM), adscrits al Departament de Matemàtiques de la Universitat Autònoma de Barcelona (UAB), hem analitzat per primer cop, amb tot el rigor matemàtic i estadístic necessari, la validesa de la llei de Zipf. Aquesta recerca ha estat publicada el gener de 2016 a PLOS ONE.

En aquest estudi hem trobat que la llei de Zipf, una relació matemàtica que determina la freqüència d’ús de les paraules, es compleix amb precisió en la major part dels textos, si s’exclouen de l’anàlisi les paraules extremadament rares.

La llei de Zipf, en la seva versió més senzilla, formulada a la dècada de 1930 pel lingüista estatunidenc George Kingsley Zipf, determina que, de manera sorprenent, la paraula més freqüent d’un text apareix el doble de vegades que la següent més freqüent, tres cops més que la tercera més freqüent, i així successivament.

Aquesta llei, que es pot aplicar en molts altres camps a banda de la literatura, s’havia comprovat amb més o menys rigor en petites quantitats de dades, però mancava d’una comprovació amb tot el rigor matemàtic i sobre una base de dades prou gran per donar-li validesa estadística.

Per demostrar la llei, els investigadors vam analitzar tota la col·lecció de textos en llengua anglesa del projecte Gutenberg, una base de dades pública i gratuïta amb més de 30.000 obres en aquesta llengua. És una tasca sense precedents: en l’àmbit de la lingüística la llei mai havia estat comprovada en conjunts de més d’una dotzena de textos diferents.

Segons l’anàlisi, si s’ignoren les paraules més rares, aquelles que només surten un o dos cops en tot un llibre, el 55% dels textos s’ajusten perfectament a la llei de Zipf (en la seva formulació més general). Si es tenen en compte totes les paraules, també les més rares, aquest percentatge és del 40%.

Freqüència d’aparició de cada paraula segons la seva posició en el rang de major a menor freqüència. Primers deu milions de paraules per a trenta vikipèdies. Font: Sergio Jiménez, Wikimedia Commons.

És molt sorprenent que la freqüència d’aparició de les paraules estigui determinada per una fórmula amb un sol paràmetre lliure. La famosa campana de Gauss, per exemple, ja en necessita dos, posició i amplada, per ajustar-se a dades reals d’altres fenòmens. Si descartéssim paraules que apareixen tres, quatre o cinc vegades en tota una obra, la proporció de llibres que segueixen la llei de Zipf podria arribar a percentatges encara més alts.

En termes matemàtics, la llei afirma que si s’ordenen totes les paraules per freqüència d’ús, la segona més freqüent apareix la meitat de vegades que apareix la més freqüent; la tercera, un terç de vegades i, en general, la que ocupa la posició n apareix 1/n vegades la més freqüent.

Hem estudiat la validesa de les tres formulacions més utilitzades de la llei de Zipf en tots els textos en llengua anglesa de la base de dades del projecte Gutenberg (que inclou més de 31.000 llibres) i hem observat que una d’aquestes formulacions s’ajusta, amb resultats estadísticament significatius, a la freqüència d’aparició de totes les paraules de més del 40% dels llibres de la col·lecció, uns textos que contenen entre cent paraules i més d’un milió.

Sembla evident que, en l’actual era de les dades massives i de les computadores d’altes prestacions, s’hauran d’enfocar els esforços en l’anàlisi de la llei a gran escala, i aquests resultats són un primer pas en aquesta direcció.

Encara que la literatura es considera una de les expressions per antonomàsia de la llibertat creadora, segons els resultats d’aquests investigadors, ni els més grans autors com Shakespeare o Dickens s’escapen de la tirania de la llei de Zipf.

Més informació

Article científic publicat a PLOS ONE

Compartir

0

Categoría:

Investigació