Giter Site home page Giter Site logo

benjavalero / replacer Goto Github PK

View Code? Open in Web Editor NEW
6.0 6.0 0.0 15.54 MB

Straightforward tool to help fixing the most common errors in Spanish Wikipedia

License: GNU General Public License v3.0

CSS 0.11% HTML 1.79% Java 87.75% Shell 0.09% TypeScript 9.40% Python 0.81% R 0.04%

replacer's People

Contributors

benjavalero avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar

replacer's Issues

Externalizar propiedades que dependen del sistema

Existen propiedades que dependen del sistema y que no se pueden subir al repositorio por su confidencialidad, como la contraseña de la base de datos.

En Producción, estas propiedades deberían existir en un fichero aparte del repositorio Git.

Ampliar número de resultados personalizados

Al buscar reemplazos personalizados para «se anuncio», no se encuentran más para corregir. En cambio, haciendo una búsqueda rápida en la Wikipedia, aparecen más de 600.

Quizá se puede (v. https://www.mediawiki.org/wiki/API:Search):

  • Ampliar a 500 el número de resultados con srlimit
  • Comprobar si hay más resultados con sroffset
  • Tener en cuenta el número total de resultados en la respuesta con totalhits

Mejorar diseño visual

Adaptar las distintas secciones a un diseño sencillo, basado p. ej. en el de la propia https://tools.wmflabs.org/

  • Cabecera que redirija a la página de inicio
  • Enlaces (o lista de enlaces) a las secciones más importantes
  • Pie que incluya el número de versión y alguna otra cosa más
    Al utilizarse en un móvil, la cabecera debería seguir presente con el clásico botón de "sándwich" que muestra la lista de secciones.

Editar solo la sección con reemplazos

Wikipedia permite editar solo una sección e indicarla al guardar.

Si la herramienta lo implementa, se puede mejorar enormemente la cantidad de datos enviados al editar, especialmente en textos largos donde quizá solo basta editar un párrafo.

Crear propiedades para las tareas periódicas

Actualmente la frecuencia en la que se ejecutan ciertas tareas, como la indexación de dumps, está a fuego en el código fuente.

La configuración de estas frecuencias debería leerse del fichero de propiedades.

Captura de fechas comenzando por 0

Las fechas cuyos días comienzan por 0, por ejemplo, «07 de Julio de 2019» son capturadas por los reemplazos de tipo Fecha. Debe mejorarse la expresión regular.

Análisis de artículo muy pesado

El análisis del artículo Anexo:Primera temporada de Reto 4 Elementos tarda varios minutos. Es un artículo muy largo con muchas repeticiones. Hay que analizar por qué tarda tanto.

Referencias a errores ortográficos

Generalizar textos en los que solo se hace referencias a los errores ortográficos para nombrar también los errores de estilo.

Por ejemplo, en: «La siguiente tabla muestra una lista de los potenciales errores ortográficos (obtenida de la propia Wikipedia) así como el número de apariciones sin revisar».

Indexación truncada

La indexación se ha truncado aproximadamente al 62 %.

Caused by: org.xml.sax.SAXParseException: JAXP00010004: The accumulated size of entities is "50,000,001" that exceeded the "50,000,000" limit set by "FEATURE_SECURE_PROCESSING"

Buscar excepciones para los errores más comunes

  1. Ortografía | sólo | 149934
  2. Ortografía | records | 89022
  3. Ortografía | aún | 80603
  4. Ortografía | nº | 67713
  5. Ortografía | éste | 57939
  6. Ortografía | maria | 47674
  7. Ortografía | sky | 39728
  8. Ortografía | simon | 36127
  9. Ortografía | Alex | 35665
  10. Ortografía | Domingo | 35236
  11. Ortografía | ésta | 33821
  12. Ortografía | junior | 29480
  13. Ortografía | Paris | 26560
  14. Ortografía | round | 24795
  15. Ortografía | Mayo | 23628
  16. Ortografía | Julio | 23109
  17. Ortografía | angeles | 22440
  18. Ortografía | Victor | 22123
  19. Ortografía | rio | 21598
  20. Ortografía | america | 21136

Resetear página al filtrar

Al filtrar se mantiene el número de página.

Esto puede hacer que, si por ejemplo estamos en la página 3, no se muestren resultados tras filtrar si solo hay 10 y por tanto se muestran todos en la página 1.

Estimar final de la indexación

Mostrar en el resumen del estado de la indexación (solo para administradores) una estimación de cuándo va a terminar la indexación en caso de que ésta se esté ejecutando.

Ignorar líneas comenzando por espacio

Las líneas que comienzan por un espacio en blanco son utilizadas para preservar el formato. Deben ignorarse del mismo modo que se ignora el contenido de la etiqueta pre.

Mayúsculas en reemplazo personalizado

Para los reemplazos personalizados se busca con el API de la Wikipedia el texto entrecomillado. Pero éste no distingue mayúsculas. Esta distinción debería hacerse por parte de la herramienta.

Extraer número de versión del POM

El número de versión que se muestra en el pie de página está a fuego en el archivo app.component.html.

Debería extraerse del archivo pom.xml del frontend durante el empaquetado con Maven.

Error generando el reemplazo

Si en uno de los reemplazos, sustityo un término por otro más largo, el resto de los reemplazos posteriores no se insertan correctamente.

Ejemplo: "Archaea", reemplazando las apariciones de "Setiembre" por "Septiembre".

El subrayado no separa palabras

El subrayado (o barra baja) no se está teniendo en cuenta como separador de palabras. Por ejemplo, en {{Twitter|Clasica_Almeria}} el término Almeria es detectado.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.