Web-scraping множества сайтов

199 просмотра
0
0 Комментариев

Добрый день, немного знаком с парсингом сайтов, но в основном требовалось всегда вытащить данные с 1-2 сайтов для чего использовал python c BeautifulSoup и Requests. Однако столкнулся с задачей, когда есть множество сайтов>20 (причем список может дополняться). У всех сайтов разная разметка естественно, что заводит в тупик. Можете подсказать в какую сторону капать, чтобы вытащить все новости с сайтов?


Добавить комментарий

1 Ответы

Python Опубликовано 12.12.2018
0

Я нашел такой вариант, не знаю эффективный он или не очень.
Словарь {url:ReGex,function}
url — ccылка на страницу с новостями
ReGex — отбор только интересующих ссылок
function — пишет в файл новость либо скачивает документ.
У меня получилось 50 сайтов, время работы правда большое, поскольку делал тайм-ауты после каждого запроса, чуть меньше 20 минут.

Добавить комментарий
Напишите свой ответ на данный вопрос.
Scroll Up