0
0 Комментариев

Учусь парсить фото с сайта 35photo.pro на Python 3.7. Использую последние версии библиотек requests и BeautifulSoup для парсинга в образовательных целях естественно. Первые 30 фото загружаются сразу со страницей, а последующие загружаются когда долистываешь до конца страницы вниз. Я нашел запрос и то что он возвращает, это очень похоже на Json, но BeautifulSoup с библиотекой html5lib подставляет тэги html страницы и потом при поиске тэгов в этом всем естественно ничего не видет. Вот возникает вопрос как правильно все это нужно организовать и обработать. Я начинающий программист и много не знаю.

Это возвращается с сайта в браузере
{«lastId»:3821612,»data»:»<div style=\»border-top:1px dashed #777;margin-top:40px;\»></div><div class=\»row profileTape\»><div class=\»col-md-4\»><……..}

А так читает BeautifulSoup
<html><head></head><body>{«lastId»:3829985,»data»:»<div #777;margin-top:40px;\»=»» dashed=»» style=’\»border-top:1px’></div><div class=’\»row’ profiletape\»……….}</body></html>


Добавить комментарий