NIM

Acerca de NIM

NIM es una aplicación Web pensada para facilitar la tarea de recopilar materiales para experimentos que involucran estímulos léxicos. Dispone de tres corpus de frecuencia léxica que son la base de las principales funcionalidades que ofrece. Los corpus se pueden describir como sigue:

Castellano:

Se trata del corpus LEXESP (Sebastián-Gallés, Martí, Carreiras, & Cuetos, 2000). El corpus está basado en 5.629.279 palabras. La versión usada aquí contiene 135.725 palabras entre 1 y 26 letras, con una frecuencia relativa por millón entre 0'18 y 47.025.

Las fuentes de las que se extrajeron los materiales para construir el corpus fueron:

• 40% de textos narrativos (ej., novela).
• 40% de prensa (incluyendo periódicos, revistas deportivas y revistas de información general).
• 10% de revistas de divulgación científica.
• 10% de ensayos.

La ventana temporal de las fuentes abarca desde 1978 a 1995.

Catalán:

Se ha utilizado el Corpus Textual Informatitzat de la Llengua Catalana (CTILC; Rafel, 1998). Está basado en 51.253.669 palabras. La presente adaptación contiene 408.815 palabras entre 1 y 25 letras, con una frecuencia relativa por millón entre 0'02 y 48.581.

Las fuentes de las que se extrajeron los materiales para construir el corpus fueron:

• 49% de textos informativos (ej., ciencias, arte, religión, filosofía...).
• 44% de textos literarios (ej., principalmente textos narrativos, pero también teatro, ensayo y poesía).
• 7% de otros textos no literarios (ej., prensa o cartas personales).

La ventana temporal de las fuentes abarca desde 1833 a 1988, aunque la gran mayoría de textos eran posteriores a 1914.

Inglés:

En este caso se han empleado los datos del British National Corpus (BNC; The British National Corpus; 2007). Está basado en 98.119.624 palabras. El corpus usado contiene 257.504 palabras entre 1 y 26 letras, con una frecuencia relativa por millón entre 0'02 y 61.702.

Las fuentes de las que se extrajeron los materiales para construir el corpus fueron:

• 60% de libros.
• 25% de publicaciones periódicas.
• entre un 5 y un 10% de una variedad de materiales publicados (ej., folletos, textos publicitarios, etc.).
• entre un 5 y un 10% de material escrito no publicado (ej., cartas personales, ensayos, etc.).
• menos de un 5% de discursos escritos, guiones...

De todo ello, un 75% de los materiales fueron obtenidos de textos informativos (ciencia, arte, noticias del mundo…) y el 25% restante pertenecía a literatura y obras creativas.

La ventana temporal de las fuentes abarca desde 1964 a 1993.

En la preparación de los corpus para su uso en NIM se ha prestado especial atención a la comparabilidad entre los distintos corpus. Así, las frecuencias léxicas se ofrecen en frecuencias por millón para facilitar las comparaciones entre lenguas, y las distintas codificaciones de las categorías léxicas de las palabras se han adaptado a una sola clasificación.

Para cualquier cuestión relacionada con NIM, puede emplearse la siguiente dirección de contacto: marc.guasch@urv.cat.

Las personas que hemos trabajado en NIM queremos agradecer su ayuda a las siguientes personas e instituciones:

• A Núria Sebastián-Gallés por facilitarnos el uso de LEXESP.

• Al Institut d'Estudis Catalans por los permisos para el uso de su diccionario de frecuencias.

• A Adam Kilgarriff por su inestimable ayuda con los datos del BNC.