Сайт онлайн-библиотеки

В репозитории представлен проект сайта онлайн-библиотеки, с использованием скрипта для парсинга сайта.

Сайт размещен на Github Pages, заполнение контентом произошло с помощью парсинга и формированием на этой основе базы данных в формате json. В качестве объекта для парсинга данных выступает сайт https://tululu.org/. Репозиторий можно скачать и работать с веб-версией проекта оффлайн.

Парсер сайта tululu.org

Скрипт parser.py парсит и скачивает книги и их обложки с сайта https://tululu.org/.

Как установить

На компьютере должен быть уже установлен Python3. Для запуска скрипта установите виртуальное окружение:

python3 -m venv venv

Затем активируйте виртуальное окружение (вариант для Windows):

venv\Scripts\activate

Затем активируйте виртуальное окружение (вариант для Mac OS):

source venv/bin/activate

Используйте pip (или pip3, есть конфликт с Python2) для установки зависимостей:

pip install -r requirements.txt

Запуск скрипта

Для запуска скрипта необходимо задать необязательные аргументы (есть значения по умолчанию):

start_page — номер страницы, с которой начать парсить сайт;

last_page — номер страницы, на которой закончить парсинг;

dest_folder — папка, в которую положить результаты парсинга;

json_path — папка, в которую положить json файл парсинга;

skip_imgs — параметр, с помощью которого можно не скачивать картинки;

skip_txt — параметр, с помощью которого можно не скачивать текстовые файлы;

Запуск парсера осуществляется в командной строке:

python parser.py start_id end_id

Цель проекта

Код написан в образовательных целях на онлайн-курсе для веб-разработчиков Devman.

rtmlsh / online_library Goto Github PK

online_library's Introduction

Сайт онлайн-библиотеки

Парсер сайта tululu.org

Как установить

Запуск скрипта

Цель проекта

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent