0
0 комментариев

Задача такая, чтобы парсер сам выдергивал ссылки на статьи, новости и т.д. с сайта. То есть без указания ему регулярок, xpath и т.д. То есть определенный алгоритм, который самостоятельно распознает именно ссылки на новости. Чтобы пропускал мимо ссылки на рубрики, категории и т.д. У newspaper нашел такое, но ему удается это проделать не с каждым сайтом. То есть где то он находит 200 линков, а где то всего лишь 1. Буду благодарен за любую наводку, может какие то библиотеки, хотя мне кажется я все пересмотрел


Добавить комментарий