Giter Site home page Giter Site logo

coda2019's Introduction

Repositório do curso "Como revelar o que está escondido à vista de todos"

A Associação Brasileira de Jornalismo Investigativo (Abraji) vai lançar no começo de 2020 a fase 2 do Publique-se. O banco de dados para pesquisas de processos judiciais nos quais políticos brasileiros aparecem como partes vai passar a incluir tribunais de todos os Estados brasileiros, incluindo os de primeira instância. Com base nessa experiência, será oferecido um workshop introdutório sobre a raspagem de dados no Judiciário brasileiro, com o uso de Python 3.

Vamos mostrar as limitações e possibilidades para automatizar pesquisas em tribunais e a coleta de informações processuais. Iremos também usar bibliotecas e módulos como requests, beautifulsoup, soupsieve e selenium webdriver para acessar a busca processual nos tribunais e a posterior geração de CSV com os resultados estruturados.

Por Juliana Fonteles e Reinaldo Chaves

O que é necessário instalar primeiro?

Python!

Python

Atenção: existe Python 2 e Python 3, usamos a versão 3 mais recente
Mas no Windows 10 descobri que a versão 3.7.5 é mais estável com selenium e instala as bibliotecas sem erro, recomendo esta versão no Windows

Link de Instalação do Python3

Lembre do PATH
 Ao instalar o Python sempre lembre de marcar a opção PATH: algo como, "Add Python 3 to PATH"
Repositório da aula
 O mais indicado depois a fazer é clicar no botão "Clone or download" e fazer o "Download ZIP" de todo material da aula
 Você pode descompactar o zip em uma pasta de sua preferência
 Abra o cmd ou terminal e entre nesta pasta, onde está o arquivo requirements.txt

Demais bibliotecas a serem utilizadas:

No cmd ou terminal digite
pip3 install -U -r requirements.txt

Também lembre

Lembre que, se você usar MacOS e Linux, terá ao mesmo tempo Python2 e Python3. Então deverá instalar com o pip3
Para instalar o pip3 no Ubuntu ou Debian Linux sudo apt-get install python3-pip
Para instalar no Fedora sudo yum install python3-pip

Chromedriver

O Chromedriver é o driver que vai permitir o selenium controlar o navegador Google Chrome
Baixe a versão correspondente ao seu sistema operacional e a sua versão do Chrome
Depois descompacte o arquivo chromedriver e salve numa pasta de sua escolha
Anote o local que salvou este arquivo - você vai usar isso nos programas com selenium

Você pode baixar aqui

Geckodriver

O geckodriver é o driver que vai permitir o selenium controlar o navegador Mozilla
Baixe a versão correspondente ao seu sistema operacional e a sua versão do Mozilla
Depois descompacte o arquivo geckodriver.exe e salve numa pasta de sua escolha
Anote o local que salvou este arquivo - você vai usar isso nos programas com selenium
O selenium funciona melhor em algumas ocasiões com o geckodriver

Você pode baixar aqui

Local de instalação do Chrome

Você também vai precisar saber onde está instalado seu navegador Chrome em sua máquina
No Windows devem estar em (C:\Program Files (x86)\Google\Chrome\Application\) ou (C:\Users\UserName\AppData\Local\Google\Chrome\Application)
No Mac deve estar em Users/<username>/Library/Application Support/Google/Chrome/Default
No Linux basta digitar no Terminal para saber: whereis google-chrome

Materiais de apoio

Você também está recebendo na camaradagem:

A apresentação da aula
Um guia jurídico rápido
Material sobre boas práticas de raspagem de dados
Material sobre o uso do Postman para entender o tráfego de um site
Aprenda mais com curso da Abraji

Avisos importantes

Situação em novembro de 2019: o raspador do STJ ainda está em melhorias, os dados precisam ser bem checados antes de publicar (como tudo no jornalismo...)

Situação em novembro de 2019: e o raspador do TJ-SP parou de funcionar porque o tribunal colocou um Recaptcha V3 - fica mais para didatismo esse exemplo

Mas antes disso a Abraji conseguiu atualizar a base do Ctrl+x para o TJ-SP. Veja mais

No time Toulouse!

Você já pode começar a estudar os códigos!
No cmd ou terminal vá onde está o arquivo requirements.txt e digiter: jupyter lab
Será aberto o Jupyter Lab, ambiente para você ver e executar scripts
Abra ou crie os arquivos que desejar e namastê!

Python

Dúvidas de raspagem?

Escreva no Fórum brasileiro de jornalismo de dados - ambiente para troca de informações da comunidade brasileira

Acesse aqui

Fun fact: as imagens são por causa do Monty Python’s Flying Circus, inspiração do Guido van Rossum

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.