Giter Site home page Giter Site logo

rarants / web-scraping-em-python-pet-redacao Goto Github PK

View Code? Open in Web Editor NEW
3.0 1.0 2.0 5.99 MB

Realizando web scraping utilizando Python e as bibliotecas Requests, Pandas e Beautiful Soup para auxílio.

Python 100.00%
python beautifulsoup pandas pandas-python requests-library-python web scraping web-scraping

web-scraping-em-python-pet-redacao's Introduction

img

Web Scraping em Python

Desenvolvido para o PET-Redação do Programa de Educação Tutorial (PET) da UFSM, que se encontra aqui. Este arquivo usa os sites iniciais da UFSM, encontrados aqui e aqui e tem por objetivo um estudo básico de Web Scraping em Python. ✨

📋 Requerimentos

Ter instalado o Python 3 e as bibliotecas Requests, BeautifulSoup e Pandas e a ferramenta Selenium.

🔧 Instalando no Windows

  1. Python 3: baixe o instalador e siga as instruções;
  2. Bibliotecas:
    • Requests: $ python -m pip install requests
    • BeautifulSoup 4: $ python -m pip install beautifulsoup4
    • Pandas: $ python -m pip install pandas
  3. Selenium: $ python -m pip install selenium

🔧 Instalando no Linux

  1. Python 3: $ sudo apt-get install python3
  2. Bibliotecas:
    • Requests: $ sudo pip3 install requests
    • BeautifulSoup 4: $ sudo pip3 install beautifulsoup4
    • Pandas: $ sudo pip3 install pandas
  3. Selenium: $ sudo pip3 install selenium

Observação: note que você vai precisar do gerenciador de pacotes pip.
Se você não tiver, use o comando $ sudo apt-get install python3-pip

✔️ Como Executar

No cmd/terminal, abra o diretório onde o arquivo se encontra e use o comando: $ python nome_arquivo.py.

Os arquivos a serem executados podem ser:

📝 Composição

Este repositório é composto pelos seguintes arquivos:

Arquivo Descrição
WebScraper-EventsUFSM.py Arquivo principal que para buscar os eventos
WebScraper-BusSchedule.py Arquivo principal que busca os horários dos ônibus
ExampleClick.py Exemplo de uma simulação de click.
GetSoup.py Arquivo com função auxiliar para buscar o soup.
SearchEvent.py Arquivo com função auxiliar para buscar os eventos.
Horarios.json Arquivo gerado através do código executado.

📌 ExampleClick.py e o Driver

Para executar o arquivo ExampleClick.py você deve ter o driver do navegador que for utilizar. Por padrão, está definido o do Chrome, na linha 13 (driver = webdriver.Chrome(options=option)), com a sua importação sendo feita na linha 3 (from selenium.webdriver.chrome.options import Options). Pode-se substituir pelos drivers do Firefox, Edge, etc., devendo ser alteradas essas linhas de acordo, mas ainda será necessário o driver.

🔎 Funcionamento do Código

Acesse a redação para mais detalhes. Bons estudos! ✨

web-scraping-em-python-pet-redacao's People

Contributors

rarants avatar

Stargazers

 avatar  avatar  avatar

Watchers

 avatar

web-scraping-em-python-pet-redacao's Issues

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.