Краткопост: как дед интернеты качал
Забыл выпить таблетки и понеслось - это пост о лени и душении питона.
О чем же пост? О том как я выкачал страничку из интернета, нашел в ней необходимые данные и сохранил их.
Чтобы администрации не прилетело - инструкции по обходу блокировок я тут постить не буду, ведь для кого-то сайт вполне себе доступен и без всяких фокусов.
Приступим!
Интернет бывает медленным, страницы тяжелыми, а мне лень ждать, я сразу хочу знать все данные доступные мне и не ждать пока загрузится эта страница, потом перейти на другую.

Мне бы сразу получить список тем форума, без входа на сайт, загрузки страницы поиска. Мне бы узнать - есть ли доступный мне проект?
Надо бы автоматизировать поиск необходимых данных!
Приступаем с поиска "последней" страницы в теме.
Возможно вы случайно тыкали кнопку "исследовать" или открывали инструменты разработчика, где много буков и есть какие-то "Инспектор", "Консоль" и другие пункты.
Вот сейчас нам нужно "исследовать" кнопки страниц.

После чего откроется страшное окно странных букв и цифр. Где мы можем поглядеть внутрь HMTL странички.

Что же мы видим? Все эти "кнопки" класса pg, и последняя страница заканчивается на start=5350.
А теперь к раздумью, по моей логике:

Ну с цифрами разобрались и получили, теперь осталось подготовить данные.

Как же сие чудо работает? Есть такая волшебная штука lxml которая умеет работать с html и позволит нам брать данные по XPATH или CSSSELECT. Мы просто говорим скрипту что нам нужно собрать.
Половина дела сделано, имеем список страниц и "категорию" (Это разделы)
Так а что дальше делать? Нам же нужен список "Тем" на странице.

А всё идентично, только теперь мы будем искать кнопку класса с другим именем.

Собираем все данные и сохраняем куда хотим. Текстовый файл, json файл база данных sqlite.
Это действительно всё, что мне нужно было, теперь у меня есть список всех интересующих меня тем из определенных категорий на форуме.
Разница в описанном варианте и тем который я использую:

Спасибо за то, что прочитали.