ccsuehara / peruvian-presidents-speeches Goto Github PK

Repository for the final project of Uchicago's SOCI 40133

License: MIT License

Jupyter Notebook 99.96% Python 0.04% Shell 0.01%

peruvian-presidents-speeches's Issues

Eje X en longitud

El eje X en el gráfico de longitud no puede contener años que no respeten la distancia numérica entre ellos. O se eliminan los años o se establecen como números para que se vea la distancia

Revisar y actualizar lista de stop words

Mejorar topic modeling

Topic modeling debe estar a nivel de parrafo y las visualizaciones deberian indicar los topicos que mas se hablan en cada discurso

Correcciones eje X en palabra clave:

eliminar decimales
definir ancho mínimo
añadir grid (por discutir)

Elegir versión de wordcount total en Counting words.ipnby

Las dos versiones (lent_total y len_unique) dan la misma información (no cambia ninguna posición, digamos). Así que podríamos mantener solo uno y mencionar en el post que el resultado no cambia al seleccionar la siguiente variable. Yo propongo quedarnos con len_total.

Limpiar encabezados de mensajes

Confirmen si ya lo hicieron @luisesanmartin @ccsuehara pero cuando veo los speechs aparecen las introducciones y eso podría sesgar los resultados: Me parece que todos comienzan diciendo "mensaje presidencial del arquitecto Fernando Belaunde Terrry, Congreso de la República....." Eso no podría malograr la correlación?

Versión cuadrada
Versión rectangular

Elaborar un tema para las visualizaciones de Altair

El tema tendria que ir de acuerdo al manual de marca de la org

Incluir mas discursos

Incluir:

Toma de mando de Paniagua
Toma de mando de Sagasti
Discurso de Vizcarra de 2018
~~Discurso de Vizcarra de 2020~~ (no incluido porque no es inaugural.
Discurso de Castillo de 2021 (cuando este disponible)

Eliminar:

Discursos anteriores a 1963, primer gobierno de Belaunde

Tambien:

Convertir notebook en un script de Python y pasar nb a carpeta Archive
Hacer un pkl de solo mensajes inaugurales.

Los discursos se descargan con este nb, ahi es donde hay que hacer los cambios

Mejorar data prep

Revisar:

Es posible usar un modelo en Espanol de SpaCy mas completo?
Mejorar stop words
Chequear si stemming y lemmatization estan funcionando bien
Chequear que mas es posible agregar para refinar data prep
~~Construir in dataframe a nivel de parrafo para mejorar topic modeling~~ I think this one should go in a different issue about refining topic modeling
Usar un word tokenizer distinto a lucem_illud_2020

ccsuehara / peruvian-presidents-speeches Goto Github PK

peruvian-presidents-speeches's People

Contributors

Stargazers

Watchers

peruvian-presidents-speeches's Issues

Recommend Projects

Recommend Topics

Recommend Org