0
0 комментариев

Приветствую. При попытке распарсить страницу с кодировкой windows-1251, получаю текст вот в такой кодировке (Â ñîòåéíèêå èëè êàñòðþëå)

htmlString = get(url).text
html = BeautifulSoup(htmlString, 'html5lib')
tags = html.find_all('div', {'class': 'story'})
text = [t.get_text() for t in tags]
print text[0]

Загуглил решение:

a.text = text[0].encode('latin1').decode('cp1251')

Однако на некоторых символах страницах валится:
UnicodeEncodeError: ‘latin-1′ codec can’t encode character u’\u25cf’ in position 25: ordinal not in range(256)

Менял latin1 на utf8, но не помогло.


Добавить комментарий