Парсер книг с сайта tululu.org
Скрипт для парсинга книг с сайта tululu.org. Позволяет скачивать книги и информацию о них.
Для запуска скрипта у вас уже должен быть установлен Python 3.
- Скачайте код
- Установите зависимости командой:
pip install -r requirements.txt
Пример запуска:
python3 parse_tululu.py --start_id 10 --end_id 15
Результат:
В корне проекта появляться папки books
c книгами в формате txt и images
c картинками книг.
Пример вывода в консоль:
INFO:root:Загружена книга: Административные рынки СССР и России. Автор: Кордонский Симон.
ERROR:root:HTTP Error from page https://tululu.org/b2: Page was redirected to https://tululu.org/
INFO:root:Загружена книга: Азбука экономики. Автор: Строуп Р.
Доступны следующие аргументы:
--start_id
— по-умолчанию это'1'
. ID книги с которой начать скачивание.--end_id
— по-умолчанию это'10'
. ID книги по которую скачать.
ID книги можно взять из ссылки. Пример: ID книги с https://tululu.org/b5/ будет 5.
Код написан в образовательных целях на онлайн-курсе для веб-разработчиков dvmn.org.