Giter Site home page Giter Site logo

dadosjusbr / coletores Goto Github PK

View Code? Open in Web Editor NEW
19.0 9.0 7.0 49.49 MB

Coletores de dados sobre remunerações do sistema de justiça brasileiro

License: MIT License

Go 14.97% Dockerfile 1.49% Makefile 0.05% Shell 0.16% Python 58.56% HTML 24.76%
dados-abertos open-data opendata dadosabertos coleta-de-dados data-collection

coletores's Introduction

⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️

Este repositório está depreciado e serve apenas para consulta histórica. Os coletores atuais podem ser encontrados aqui.

⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️ ⚠️


Coletores

Coletores de dados sobre remunerações do sistema de justiça brasileiro

Tutorial

Quer contribuir com a libertação de dados do sistema de justiça do seu estado? Temos um tutorial para ajudar nessa tarefa.

Contribuição

Na nomenclatura do DadosJusBR, um coletor (crawler) de remunerações é responsável por duas tarefas: baixar os dados do site oficial do órgão e convertê-los para o formato padronizado de resultado de coleta Crawling Result. Para facilitar o processo de contruibuição, por favor ler nossas regras e código de conduta.

Status

Coletados e disponibilizados no site

Em progresso ou ainda não são coletados frequentemente

Nome do Coletor Coleta Tradução
MPBA X X
MPPE X X
MPBA X X
TJBA X

Transparência do Sistema de Justiça na Mídia

Agradecimentos

Esse projeto é fruto da colaboração de muitas pessoas . Entre elas, destacamos (em ordem alfabética):

coletores's People

Contributors

abuarque avatar anapaulagomes avatar danielfireman avatar dependabot[bot] avatar diegooalmeida avatar jeffersonrpn avatar joaolgm avatar joeberth avatar lorenaps avatar marcos-inja avatar marcosbmf avatar matheusfls-ccc avatar nazareno avatar samarasss avatar thyagopereira avatar viniagostini avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

coletores's Issues

Coleta TRT13 mar 2020

Realizar coleta usando o container docker.

Caso seja necessário mudar algo, atualizar documentação.

COLETOR - TRE/AM

Tem interesse em aumentar a transparência do estado de AM com relação a folha de pagamento do sistema de justiça??? 💪

Analisamos o portal da transparência do TRE-AM parece uma ótima forma de começar a colaborar com o dadosjusbr, pois eles disponibilizam os dados em formato CSV ou PDF.

Recomendamos que dê uma boa olhada no Tutorial. Pode ficar a vontade para utilizar Python, mas se quiser usar/aprender Go, pode usar também.

Atividades Recomendadas:

  • Desenvolvimento e testes automáticos da parte de coleta dos arquivos necessários
  • Dockerfile modelo
  • Desenvolver e testes automáticos da parte de tradução dos dados para o formato comum do dadosjus

Estaremos a disposição para tirar dúvidas e ajudar no que for necessário

COLETOR - TRE/BA

Tem interesse em aumentar a transparência do estado da BA com relação a folha de pagamento do sistema de justiça??? 💪

Analisamos o portal da transparência do TRE/BA parece uma ótima forma de colaborar com o dadosjusbr, eles disponibilizam os dados em html table, é necessário ainda fazer um login prévio antes de acessar aos dados.

Recomendamos que dê uma boa olhada no Tutorial. Pode ficar a vontade para utilizar Python, mas se quiser usar/aprender Go, pode se inspirar no coletor do TREPB.

Atividades Recomendadas:

  • Desenvolvimento e testes automáticos da parte de coleta dos arquivos necessários
  • Dockerfile modelo
  • Desenvolver e testes automáticos da parte de tradução dos dados para o formato comum do dadosjus

Estaremos a disposição para tirar dúvidas e ajudar no que for necessário.

Bug no empacotamento

Worksplace sendo splitado para as outras colunas, prejudicando a qualidade dos dados.

Criar esquema de dados para armazenar erros

  • Lembrar que erros podem ocorrer em diversas etapas (não apenas na coleta), logo, precisamos saber qual etapa foi
  • Guardar o comando executado
  • Guardar a saída padrão e de erro
  • Guardar código de saída do processo (lembrando que isso é parte da API)

Por fim, essas informações devem ser plugadas nas chamadas existentes da UIAPI

Quer nos contar alguma coisa?

Aproveite esse espaço e nos fale o que você encontrou no nosso projeto, se quiser nos falar alguma coisa, sinta-se à vontade!

Parsear dos arquivos gerados pelo Crawler.

Após conseguir fazer o fluxo completo baseado em um arquivo exemplo.
Fazer o parser rodar em cima dos arquivos baixados pelo crawler, lembrando que um caminho é fazer o crawler entregar para o parser um array com os path's de cada arquivo gerado.

Simplificar coletor mppb usando gocsv

Creio que podemos simplificar o coletor do MPPB criando implementações de CSVReader (talvez uma para cada um dos três arquivos ou uma que sirva para os três) que se baseia em [][]string (o invés de os.File ou []byte ou string). Com isso, podemos deixar a lib cuidar da tradução para struct.

cc/ @marcosbmf

COLETOR - TJ/AM

Tem interesse em aumentar a transparência do estado de AM com relação a folha de pagamento do sistema de justiça??? 💪

Analisamos o portal da transparência do TJAM parece uma ótima forma de começar a colaborar com o dadosjusbr, pois eles disponibilizam os dados em formato PDF.

Recomendamos que dê uma boa olhada no Tutorial. Pode ficar a vontade para utilizar Python, mas se quiser usar/aprender Go, pode se inspirar no coletor do TJPB.

Atividades Recomendadas:

  • Desenvolvimento e testes automáticos da parte de coleta dos arquivos necessários
  • Dockerfile modelo
  • Desenvolver e testes automáticos da parte de tradução dos dados para o formato comum do dadosjus

Estaremos a disposição para tirar dúvidas e ajudar no que for necessário

COLETOR - MPSP

Tem interesse em aumentar a transparência do estado de SP com relação a folha de pagamento do sistema de justiça??? 💪

Analisamos o portal da transparência do MPSP parece uma ótima forma de começar a colaborar com o dadosjusbr, pois eles disponibilizam os dados em formato ODS, que é aberto.

Recomendamos que dê uma boa olhada no Tutorial. Pode ficar a vontade para utilizar Python, mas se quiser usar/aprender Go, pode se inspirar no coletor do MPPB.

Atividades Recomendadas:

  • Desenvolvimento e testes automáticos da parte de coleta dos arquivos necessários
  • Dockerfile modelo
  • Desenvolver e testes automáticos da parte de tradução dos dados para o formato comum do dadosjus

Estaremos a disposição para tirar dúvidas e ajudar no que for necessário

Printar o resultado na saída padrao.

Após conseguir realizar unificação dos dados para uma estrutura com nosso esquema padrão, printar esses dados no formato JSON para os funcionários do arquivo exemplo.

Colocar dados do TREPB no storage.

Criar programa que executar o coletor baseado em um string de entrada, mês e ano e executa um método que realiza a coleta para depois armazenar no storage.

Essa issue diz respeito apenas para o trepb, mas a ideia é a gente usar esse programinha para popular os dados dos demais tribunais. Essa issue depende de dadosjusbr/storage#4

Aspas indesejadas nas strings dos csvs

Ao menos no MPPB, e nos dados dos meses 1 e 6 de 2020. Exemplo de uma linha dos dados:

"""mppb"""," 2020"," 1","""508276"""," ""ADEMAR LOPES NETO"""," ""PROMOTOR DE JUSTICA DE 1ª ENTRÂNCIA - APOSENTADO(A) """," ""membro"""," ""PBPREV"""," false",33689.11,33689.11,0.00,0.00,,,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,,,,0.00,9863.14,3034.68,0.00,6828.46,0.00
Há aspas extra em totdas as strings.

Fiquei na dúvida, mas parece que há também um espaço no 2020, e tinha a impressão que o ano e o mês deveriam ser números, e não strings.

COLETOR - MPRO

Tem interesse em aumentar a transparência do estado de RO com relação a folha de pagamento do sistema de justiça??? 💪

Analisamos o portal da transparência do MPRO parece uma ótima forma de começar a colaborar com o dadosjusbr, pois eles disponibilizam os dados em formato CSV.

Recomendamos que dê uma boa olhada no Tutorial. Pode ficar a vontade para utilizar Python, mas se quiser usar/aprender Go, pode se inspirar no coletor do MPPB.

Atividades Recomendadas:

  • Desenvolvimento e testes automáticos da parte de coleta dos arquivos necessários
  • Dockerfile modelo
  • Desenvolver e testes automáticos da parte de tradução dos dados para o formato comum do dadosjus

Estaremos a disposição para tirar dúvidas e ajudar no que for necessário
Possivel caminho:

  • Verificar que ao exportar os dados, é possível usar um método POST com o form sendo as colunas e as queries string com o mes e o ano. =D

Criar tradutor do coletor do TJPB

Atualmente esse coletor só faz download dos arquivos. É necessário extrair as informações desses arquivos e colocar num formato comum. Ao final, uma versão JSON desse resultado deverá ser escrita na saída padrão.

COLETOR - MPMT

Tem interesse em aumentar a transparência do estado do MT com relação a folha de pagamento do sistema de justiça??? 💪

Analisamos o portal da transparência do MPMT parece uma ótima forma de começar a colaborar com o dadosjusbr, pois eles disponibilizam os dados em formato CSV.

Recomendamos que dê uma boa olhada no Tutorial. Pode ficar a vontade para utilizar Python, mas se quiser usar/aprender Go, pode se inspirar no coletor do MPPB.

Atividades Recomendadas:

  • Desenvolvimento e testes automáticos da parte de coleta dos arquivos necessários
  • Dockerfile modelo
  • Desenvolver e testes automáticos da parte de tradução dos dados para o formato comum do dadosjus

Estaremos a disposição para tirar dúvidas e ajudar no que for necessário

COLETOR - MPES

Tem interesse em aumentar a transparência do estado de ES com relação a folha de pagamento do sistema de justiça??? 💪

Analisamos o portal da transparência do MPES parece uma ótima forma de começar a colaborar com o dadosjusbr, pois eles disponibilizam os dados em formato XLS.

Recomendamos que dê uma boa olhada no Tutorial. Pode ficar a vontade para utilizar Python, mas se quiser usar/aprender Go, pode se inspirar no coletor do MPPB.

Atividades Recomendadas:

  • Desenvolvimento e testes automáticos da parte de coleta dos arquivos necessários
  • Dockerfile modelo
  • Desenvolver e testes automáticos da parte de tradução dos dados para o formato comum do dadosjus

Estaremos a disposição para tirar dúvidas e ajudar no que for necessário

Criar estágio de store

Assim como a etapa de empacotamento, o store vai ser uma peça do pipeline de execução de coletas. Ele deve ser o responsável por salvar os elementos no banco de dados e na cloud.

Coleta TREPB jan-mar 2020

Realizar coleta usando o container docker.

Caso seja necessário mudar algo, atualizar documentação.

COLETOR - MPGO

Tem interesse em aumentar a transparência do estado de GO com relação a folha de pagamento do sistema de justiça??? 💪

Analisamos o portal da transparência do MPGO parece uma ótima forma de começar a colaborar com o dadosjusbr, pois eles disponibilizam os dados em formato XLS.

Recomendamos que dê uma boa olhada no Tutorial. Pode ficar a vontade para utilizar Python, mas se quiser usar/aprender Go, pode se inspirar no coletor do MPPB.

Atividades Recomendadas:

  • Desenvolvimento e testes automáticos da parte de coleta dos arquivos necessários
  • Dockerfile modelo
  • Desenvolver e testes automáticos da parte de tradução dos dados para o formato comum do dadosjus

Estaremos a disposição para tirar dúvidas e ajudar no que for necessário

COLETOR - TRE/RO

Tem interesse em aumentar a transparência do estado de RO com relação a folha de pagamento do sistema de justiça??? 💪

Analisamos o portal da transparência do TRE/RO parece uma ótima forma de colaborar com o dadosjusbr, eles disponibilizam os dados em html table, é necessário ainda fazer um login prévio antes de acessar aos dados.

Recomendamos que dê uma boa olhada no Tutorial. Pode ficar a vontade para utilizar Python, mas se quiser usar/aprender Go, pode se inspirar no coletor do TREPB.

Atividades Recomendadas:

  • Desenvolvimento e testes automáticos da parte de coleta dos arquivos necessários
  • Dockerfile modelo
  • Desenvolver e testes automáticos da parte de tradução dos dados para o formato comum do dadosjus

Estaremos a disposição para tirar dúvidas e ajudar no que for necessário

CI para coletores

Seria uma boa adicionarmos um CI ao projeto, com travis, por exemplo

Coleta MPPB Mar 2020

Realizar coleta usando o container docker.

Caso seja necessário mudar algo, atualizar documentação.

Criar tradutor do coletor do TRT13

Atualmente esse coletor só faz download dos arquivos. É necessário extrair as informações desses arquivos e colocar num formato comum. Ao final, uma versão JSON desse resultado deverá ser escrita na saída padrão.

COLETOR - TRE/PE

Tem interesse em aumentar a transparência do estado da PE com relação a folha de pagamento do sistema de justiça??? 💪

Analisamos o portal da transparência do TRE/PE parece uma ótima forma de colaborar com o dadosjusbr, eles disponibilizam os dados em html table, é necessário ainda fazer um login prévio antes de acessar aos dados.

Recomendamos que dê uma boa olhada no Tutorial. Pode ficar a vontade para utilizar Python, mas se quiser usar/aprender Go, pode se inspirar no coletor do TREPB.

Atividades Recomendadas:

  • Desenvolvimento e testes automáticos da parte de coleta dos arquivos necessários
  • Dockerfile modelo
  • Desenvolver e testes automáticos da parte de tradução dos dados para o formato comum do dadosjus

Estaremos a disposição para tirar dúvidas e ajudar no que for necessário.

COLETOR - MPRS

Tem interesse em aumentar a transparência do estado de RS com relação a folha de pagamento do sistema de justiça??? 💪

Analisamos o portal da transparência do MPRS parece uma ótima forma de começar a colaborar com o dadosjusbr, pois eles disponibilizam os dados em formato CSV.

Recomendamos que dê uma boa olhada no Tutorial. Pode ficar a vontade para utilizar Python, mas se quiser usar/aprender Go, pode se inspirar no coletor do MPPB.

Atividades Recomendadas:

  • Desenvolvimento e testes automáticos da parte de coleta dos arquivos necessários
  • Dockerfile modelo
  • Desenvolver e testes automáticos da parte de tradução dos dados para o formato comum do dadosjus

Estaremos a disposição para tirar dúvidas e ajudar no que for necessário.

-Possível caminho é analisar as url's de download e mudar os parâmetros. Exemplo de download do csv de servidores para o mês Ago/2020: https://transparencia.mprs.mp.br/contracheque/download/S/2020/08/NORMAL/

Criar tradutor do coletor MPPB

Atualmente esse coletor só faz download dos arquivos. É necessário extrair as informações desses arquivos e colocar num formato comum. Ao final, uma versão JSON desse resultado deverá ser escrita na saída padrão.

Criar empacotador

Assim como a etapa de salvamento, o empacotador vai ser uma peça do pipeline de execução de coletas. Ele deve converter o JSON de um OMA em um data package.

Também deve deixar pré-computado e guardado uma versão CSV dos dados,

Especificar melhor api de saida dos coletores

Ja pensando em quando o módulo executor e novos coletores forem criados, precisamos pensar numa API um pouco mais rica para o coletor. Além da impressão do resultado json quando o término for sucesso (exit code 0), penso que podemos ter alguns casos erro especificados pelo exit code:

  • fatal: um erro que não deve ser tentado novamente e alguém deve ser avisado. Temos que pensar com cuidado quando a execução será disparada novamente, mas acho que isso é papel do executor
  • transient: a coleta deve deve ser executado novamente depois de algum tempo
  • not found: o dado não foi encontrado. Alguém deve ser avisado e, mais uma vez, temos que ter uma política clara de quando coletar novamente o dado

Cc/ @marcosbmf @Irio @viniagostini

Criar tradutor do coletor TREPB

Atualmente esse coletor só faz download dos arquivos. É necessário extrair as informações desses arquivos e colocar num formato comum. Ao final, uma versão JSON desse resultado deverá ser escrita na saída padrão.

COLETOR - MPRJ

Tem interesse em aumentar a transparência do estado de RJ com relação a folha de pagamento do sistema de justiça??? 💪

Analisamos o portal da transparência do MPRJ.parece uma ótima forma de começar a colaborar com o dadosjusbr, pois eles disponibilizam os dados em formato ODS, que é um formato livre.

image

Recomendamos que dê uma boa olhada no Tutorial. Pode ficar a vontade para utilizar Python, mas se quiser usar/aprender Go, pode se inspirar no coletor do MPPB.

Atividades Recomendadas:

  • Desenvolvimento e testes automáticos da parte de coleta dos arquivos necessários
  • Dockerfile modelo
  • Desenvolver e testes automáticos da parte de tradução dos dados para o formato comum do dadosjus

Estaremos a disposição para tirar dúvidas e ajudar no que for necessário.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.