Giter Site home page Giter Site logo

dia_31_16abril's Introduction

Web scraping:

Tips para hacer Scraping:

  • Comprueba siempre los términos y condiciones del sitio web antes de hacer scraping. Suelen tener condiciones que limitan la frecuencia con la que se puede hacer scraping o lo que se puede hacer.

  • Dado que tu script se ejecutará mucho más rápido de lo que un humano puede navegar, asegúrate de no martillear su sitio web con muchas peticiones. Esto puede incluso estar contemplado en los términos y condiciones del sitio web.

  • Puedes tener problemas legales si sobrecargas un sitio web con tus peticiones o intentas usarlo de una manera que viola los términos y condiciones que aceptaste.

  • Los sitios web cambian todo el tiempo, así que tu Scraping se romperá algún día. Sepa esto: Tendrás que mantener tu scraper si quieres que siga funcionando.

-> Nota:


1. Importación de las bibliotecas necesarias:

Importemos algunas bibliotecas importantes como Requests y BeautifulSoup .

import requests
from bs4 import BeautifulSoup

2. Usar la biblioteca Beautiful Soup para obtener los datos HTML (sin procesar) del sitio web:

Aquí usamos BeautifulSoup pasando el texto de la página como parámetro y usando el analizador HTML. Puede intentar imprimir la sopa, pero imprimir soup no le da la resultado, sino que contiene grandes cantidades de datos HTML, así que decidí no mostrarla aquí.

Una cosa realmente buena de la biblioteca BeautifulSoup es que está construida en la parte superior de las bibliotecas de análisis HTML como html5lib, lxml, html.parser, etc. Así que el objeto BeautifulSoup y especificar la biblioteca del analizador se pueden crear al mismo tiempo.

'line 20'
soup = BeautifulSoup(página de texto, "html.parser")

3. Eliminando todas las etiquetas HTML y convirtiéndolo en un formato de texto plano:

Aquí eliminamos todas las etiquetas HTML y lo convertimos a un formato de texto, esto se puede hacer con la ayuda del método .get_text() colocado dentro de un bucle for. Esto convierte el HTML en el formato de texto.

Nota: Solo es un ejemplo para dejar las cosas claras nada más

for i in puntos:
    print(i.get_text())

OutPut:

['67', '66', '65', '61', '47', '47', '46', '39', '38', '37', '37', '35', '34', '34', '30', '27', '27', '26', '24', '23']

dia_31_16abril's People

Watchers

DVILLA avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.