EL MAYOR VOCABULARIO

DEL HIP HOP ESPAÑOL

Después de descubrir esta maravillosa visualización de Matt Daniels, donde compara el vocabulario de Shakespeare con el de raperos estadounidenses, decidí intentar hacer lo mismo, pero con los de esta gran piel de toro llamada España y con ese gran maestro llamado Cervantes.

Ya que no todos los raperos tienen el mismo recorrido, para poder compararlos he empleado varias métricas: palabras únicas en las primeras 5.000 palabras, palabras únicas en toda su obra (accesible), y ratio de palabras únicas versus totales.

Antes de presentar los resultados, es necesario especificar que los datos obtenidos son solo una aproximación, ya que se dan muchas circustancias donde pueden producirse incorrecciones. Por ejemplo, las palabras MC y emcee se contabilizan como dos palabras distintas, y de igual manera ocurre con expresiones como ajá y ahá o abreviaciones (pa por para). Además, las fuentes de donde se han sacado las letras no son del todo fiables, ya que son compartidas por diversas personas que, por ejemplo, usan a su antojo las reglas de puntuación. Para minimizar estos últimos problemas, se han eliminado todos los signos de puntuación, así como acentos, apóstrofes, y otros signos ortotipográficos.

Se han eliminado también los estribillos de las canciones, ya que distorsionaban mucho la métrica y realmente no aportaban información sobre la complejidad de las letras de cada autor.

Las herramientas empleadas han sido Python, para la recolección y análisis de datos, y D3.js para su representación.

PALABRAS ÚNICAS EN LAS PRIMERAS 5.000 PALABRAS

En este gráfico se ponderan todos los raperos bajo el mismo ratio de palabras contadas (5.000) Es un número bajo, pero permite incluir raperos cuyas letras no son del todo accesibles en internet. Destacan especialmente Sicario, Capaz y Rayka, de Hablando en plata, que se adelantan al resto con bastante diferencia, siendo superados solo por Nega, de Los Chikos del Maíz. También hay que destacar que los raperos más prolíficos, como Nach o Porta (ver gráfico siguiente) obtienen muy malos resultados al ser ponderados con el mismo número de palabras.

La gran mayoría de raperos supera ampliamente el vocabulario de El Quijote (1.488 palabras únicas en las primeras 5.000 palabras), si bien este número se reduce si se compara con Zalacaín el Aventurero, de Pío Bajora (con 1.653 palabras en esta escala). Otras obras que he usado para la comparación arrojaban datos similares (1745 para Trafalgar o 1474 para El lazarillo de Tormes) y cuando se ha aumentado la base de palabras totales a 15.000 (en vez de las 5.000 que se muestran) la proporción de raperos que lo superaba era parecida.

Como curiosidad, se puede observar perfectamente cómo la cabeza del "pelotón" está gobernada por Andalucía, mientras que en la cola únicamente encontramos raperos procedentes de la Comunidad de Madrid. Y aunque no debería sorprender a nadie, agrada verlo constatado.

PALABRAS ÚNICAS / TOTALES

Teniendo en cuenta toda la obra producida (y accesible) se ha generado este gráfico, en el que se puede observar una perfecta correlación entre el número de palabras totales y el número de palabras únicas. De media, los raperos emplean unas 200 palabras nuevas por cada 1000 palabras en sus canciones.

Nach se lleva el gran premio, con más de 80.000 palabras generadas (sin estribillos), aunque solo unas 12.000 únicas. Los andaluces, a excepción de Zatu, tienen una obra más pequeña que el resto de raperos. Igual pasa con los aragoneses, donde únicamente Rapsus supera las 30.000 palabras.

Es importante remarcar que el número de palabras totales no depende tanto de cuán prolífico es el rapero, si no de cuantos groupies tiene que hayan gastado su tiempo escribiendo sus letras en alguna página de internet. De ahí que Porta y Nach sean los que aparezcan con más palabras totales, cuando muy posiblemente haya otros con más obras publicadas.

PORCENTAJE PALABRAS ÚNICAS / TOTALES

Esta gráfica nos muestra de manera relativa a cada autor el número de palabras únicas entre el total de su obra. Si bien es cierto que esto perjudica a los autores con más obra analizada, se dan casos curiosos como la caida del Nega hasta el 6º lugar o el sorprendente ratio de Sicario, que comprobado una y otra vez, arroja casi un 50% de palabras únicas.

Hablando en plata

Ha sido el grupo revelación en estos gráficos, ocupando en conjunto tres de los cuatro primeros puestos. Aunque son bastante conocidos dentro del género por sus letras oscuras, seguramente pocos hubiesen esperado tener posiciones tan altas en cuanto a variedad de vocabulario, pero lo cierto es que en sus canciones abundan palabras poco comunes en otros autores (como entrar en los paritorios y convertirlos en cementerios, estrangulando bebés en sus cordones umbilicales, y después tatuarles tribales triturarles i love canibales)

Total % Total Únicas % Únicas
Capaz 6109 37,08% 2410 39,45%
Rayka 5022 30,48% 1922 38,27%
Sicario 5344 32,43% 2316 43,34%

Contando los datos relativos del grupo, Capaz hace la mayor aportación con un 37,08%, pero con un ratio propio de palabras únicas inferior al de Sicario, que aunque aporta un 32,43% obtiene casi tantas palabras únicas como Capaz. Respecto a las palabras más usadas, llama la atención veneno, la cual no aparece en posiciones altas ningún otro grupo o cantante.

Palabras más repetidas: rap (43), somos (39), bien (37), tengo (26), siempre (25), todo (25), plata (24), hace (23), veneno (23), tiempo (23).

Los chikos del maíz

Soy el rap que escucharia Hồ Chí Minh en la jungla. Era de esperar que con una cantidad tan amplia de referencias en sus canciones iban a quedar en posiciones altas, y así ha sido el caso de Nega.

Total % Total Únicas % Únicas
Nega 12869 55,60% 4570 35,51%
Tony 10277 44,40% 3190 31,04%

Nega, además de hacer una mayor contribución a las letras del grupo, también tiene un ratio más alto de palabras únicas. No obstante, en conjunto las palabras más usadas no destacan en especial frente a otros grupos.

Palabras más repetidas: rap (57), tengo (50), ser (48), somos (45), vida (39), aunque (34), siempre (32), otro (29), sigo (28), eres (28).

Violadores del verso

Pese a ser el grupo más aclamado, ninguno de sus miembros consigue ninguna posición destacable, pero ya sabemos que el rap no es solo vocabulario.

Total % Total Únicas % Únicas
Lirico 15861 24,66% 3913 24,67%
Kase O 27414 42,63% 5943 21,68%
Hate 21034 32,70% 5455 24,93%

Kase O realiza una aportación bastante mayor, aunque también es cierto que tiene más canciones en solitario, lo que desvirtua los datos ampliamente. Lo que si es comparable es el porcentaje de palabras únicas, en el cual Javat cae al tercer puesto en el grupo. Pero le seguimos queriendo, ¿no?

Respecto a las palabras más usadas, lo he alargado un poco para incluir co, que aunque es previsible, no se da en otros grupos con sus respectivos illos, chacho o similares.

Palabras más repetidas: rap (241), tengo (159), todo (158), ser (147), nada (144), vida (144), mierda (133), siempre (119), hoy (117), bien (96), micro (93), co (93).

Ya por finalizar, aunque han sido bastantes horas preparando esta visualización, han sido momentos muy agradables, no solo por el tema del diseño y la programación, si no también por haber reescuchado canciones conocidas y descubierto algunas nuevas. Y porque al final, con los datos en la mano, Andalucía manda.

Fuentes:
The Largest Vocabulary in HipHop para la idea y el estilo de la visualización.
Jsfiddle de Amelia Bellamy-Royds para parte del código de D3.js.
Local Wisdom para sacar la regresión lineal en javascript
Proyecto Gutenberg para la obtención de los libros en texto de plano de El Quijote y demás.
Musica.com, Letramania.com y HHGroups para las letras de las canciones.