В репозитории представлен проект сайта онлайн-библиотеки, с использованием скрипта для парсинга сайта.
Сайт размещен на Github Pages, заполнение контентом произошло с помощью парсинга и формированием на этой основе базы данных в формате json. В качестве объекта для парсинга данных выступает сайт https://tululu.org/. Репозиторий можно скачать и работать с веб-версией проекта оффлайн.
Скрипт parser.py парсит и скачивает книги и их обложки с сайта https://tululu.org/.
На компьютере должен быть уже установлен Python3. Для запуска скрипта установите виртуальное окружение:
python3 -m venv venv
Затем активируйте виртуальное окружение (вариант для Windows):
venv\Scripts\activate
Затем активируйте виртуальное окружение (вариант для Mac OS):
source venv/bin/activate
Используйте pip (или pip3, есть конфликт с Python2) для установки зависимостей:
pip install -r requirements.txt
Для запуска скрипта необходимо задать необязательные аргументы (есть значения по умолчанию):
start_page — номер страницы, с которой начать парсить сайт;
last_page — номер страницы, на которой закончить парсинг;
dest_folder — папка, в которую положить результаты парсинга;
json_path — папка, в которую положить json файл парсинга;
skip_imgs — параметр, с помощью которого можно не скачивать картинки;
skip_txt — параметр, с помощью которого можно не скачивать текстовые файлы;
Запуск парсера осуществляется в командной строке:
python parser.py start_id end_id
Код написан в образовательных целях на онлайн-курсе для веб-разработчиков Devman.