Парсер книг с сайта

Программа позволяет скачивать книги и обложки к ним с сайта tululu.org из раздела научной фаетастики либо из указанного диапазона ID книг.

Обложки книг записываются в папку images. Сами книги записываются в папку books. Информация о книгах записывается в books.json.

Из скачанных данных можно сгенерировать веб-страницы, работающие локально, либо для последующего размещения на хостинге в сети Интернет.

Пример такого сайта

Установка

Для запуска скрипта необходим Python3.10+ версии и библиотеки из файла requirements.txt.

Установить зависимости можно командой:

pip install -r requirements.txt

Запуск

Парсинг в нужном диапазоне ID

Запускается командой:

python parsing.py [-h] [--start_id START_ID] [--end_id END_ID]

Программа имеет следующие доступные аргумента:

--start_id - необязательный аргумент, определяет, с какой страницы начинать скачивание книг (по умолчанию 1). --end_id - необязательный аргумент, определяет, до какой страницы (включительно) будут скачиваться книги (по умолчанию 10). --dest_folder - необязательный аргумент, путь к каталогу с результатами парсинга: картинкам, книгам, JSON --skip_imgs - необязательный аргумент, не скачивать картинки --skip_txt - необязательный аргумент, не скачивать книги

Парсинг раздела научной фантастики

Запускается командой:

python parse_tululu_category.py [-h] [--start_id START_ID] [--end_id END_ID]

Программа имеет следующие доступные аргумента:

--start_id - необязательный аргумент, определяет, с какой страницы начинать скачивание книг (по умолчанию 1). --end_id - необязательный аргумент, определяет, до какой страницы (не включая ее) будут скачиваться книги (по умолчанию 702). --dest_folder - необязательный аргумент, путь к каталогу с результатами парсинга: картинкам, книгам, JSON --skip_imgs - необязательный аргумент, не скачивать картинки --skip_txt - необязательный аргумент, не скачивать книги

Рендер скачанных данных

Скрипт может быть запущен без параметров либо с указаниемJSON-файла источника данных о книгах (по умочанию данные берутся из файла ./data/books.json).

python render_website.py [JSON datafile]

В результате работы скрипта из шаблона template.html и данных о книгах из JSON-файла генерируются статические страницы в папке ./docs/pages/. Локальную версию сайта можно открыть в браузере после запуска скрипта по адресу http://localhost:8000/ либо открыть файл index.html из папки docs.

Цель проекта

Код написан в образовательных целях на онлайн-курсе для веб-разработчиков.

alexwoif / parsing Goto Github PK

parsing's Introduction

Парсер книг с сайта

Установка

Запуск

Парсинг в нужном диапазоне ID

Парсинг раздела научной фантастики

Рендер скачанных данных

Цель проекта

parsing's People

Contributors

Watchers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent