NIM és un buscador d'estímuls experimentals per la recerca en psicolingüística. La seva intenció és facilitar la tasca de l'investigador a l'hora de recopilar materials controlats pel disseny d'experiments.

Les llengües disponibles són l'anglès, el castellà i el català.


Enllaços relacionats:

Logo Grup de Recerca en Psicolingüística Logo Departament de Psicologia Logo Universitat Rovira i Virgili

Crèdits:
Marc Guasch E-mail
Antonio Masip
Enric Sunyer
Roger Boada

Sobre el NIM

NIM és una aplicació Web pensada per facilitar la tasca de recopilar materials per a experiments que involucren estímuls lèxics. Disposa de tres corpus de freqüència lèxica que són la base de les principals funcionalitats que ofereix. Els corpus es poden descriure de la manera següent:

 

Castellà:

Es tracta del corpus LEXESP (Sebastián-Gallés, Martí, Carreiras, & Cuetos, 2000). El corpus està basat en 5.629.279 paraules. La versió usada aquí conté 135.725 paraules entre 1 i 26 lletres, amb una freqüència relativa per milió entre 0'18 i 47.025.

Les fonts emprades per tal de construir els corpus estaven composades per:

• 40% de textos narratius (ex., novel•la).
• 40% de premsa (incloent diaris, revistes esportives i revistes d'informació general).
• 10% de divulgació científica.
• 10% d'assaig.

La finestra temporal de les fonts anava des de 1978 fins 1995.

 

Català:

S'ha utilitzat el Corpus Textual Informatitzat de la Llengua Catalana (CTILC; Rafel, 1998). Està basat en 51.253.669 paraules. Aquesta adaptació conté 408.815 paraules entre 1 i 25 lletres, amb una freqüència relativa per milió entre 0'02 i 48.581.

Les fonts emprades per tal de construir els corpus estaven composades per:

• 49% de textos informatius (ex., ciències, arts, religió, filosofia...).
• 44% de textos literaris (ex., principalment textos narratius, però també teatre, assaig i poesia).
• 7% de textos no literaris (ex., premsa o cartes personals).

La finestra temporal de les fonts anava des de 1833 fins 1988, tot i que la gran majoria de textos era posterior a 1914.

 

Anglès:

En aquest cas s'han emprat les dades del British National Corpus (BNC; The British National Corpus; 2007). Està basat en 98.119.624 paraules. El corpus usat conté 257.504 paraules entre 1 i 26 lletres, amb una freqüència relativa per milió entre 0'02 i 61.702.

Les fonts emprades per tal de construir els corpus estaven composades per:

• 60% de llibres.
• 25% de publicacions periòdiques.
• entre un 5 i un 10% d'una mostra variada de materials publicats (ex., fulletons, textos publicitaris, etc.).
• entre un 5 i un 10% de material escrit no publicat (ex., cartes personals, assaigs, etc.).
• menys del 5% de discursos escrits, guions...

De tot això, el 75% dels materials va ser obtingut de textos informatius (ciència, art, notícies del món...) i el 25% restant pertanyia a obres literàries i creatives.

La finestra temporal de les fonts anava des de 1964 fins 1993.

 

En la preparació dels corpus per al seu ús a NIM, s'ha parat especial atenció a la comparabilitat entre els diferents corpus. Així, les freqüències lèxiques s'ofereixen en freqüències per milió per facilitar les comparacions entre llengües, i les diferents codificacions de les categories lèxiques de les paraules s'han adaptat a una sola classificació.

 

Per a qualsevol qüestió relacionada amb NIM, es pot emprar la següent adreça de contacte: marc.guasch@urv.cat.

 

Les persones que hem treballat a NIM volem agrair la seva ajuda a les següents persones i institucions:

• A Núria Sebastián-Gallés per facilitar-nos l'ús de LEXESP.

• A l'Institut d'Estudis Catalans pels permisos per a l'ús del seu diccionari de freqüències.

• A Adam Kilgarriff per la seva inestimable ajuda amb les dades del BNC.