fbpx

Захват текста с сайта с помощью python

514 просмотра
0
0 Комментариев

Здравствуйте.

Пишу программу для семантического анализа на основе python. Хочу брать статьи с сайта fontanka.ru и анализировать их. Написал вот такой код:

# coding: utf-8
import requests
import bs4
 
url = requests.get('http://www.fontanka.ru/2018/04/12/086/') #подставляем url
 
b = bs4.BeautifulSoup(url.text, "html.parser")
 
url1 = b.select('article')
url_print = url1[0].getText()
 
print(url_print)

Он просто выхватывает текст из скопированного в код url, с помощью beautiful soup.
Далее пробую сделать окно для ввода URL, чтобы можно было парсить текст, с помощью модуля Tkinter, и никак не получается заставить программу копировать URL из поля для ввода текста, и подставлять её в модуль который написал выше. Сталкивались ли вы с таким и как это можно побороть?


Добавить комментарий

1 Ответы

Python Опубликовано 25.06.2019
0

Код:

import requests
from bs4 import BeautifulSoup
 
 
def get_text(url):
    rs = requests.get(url)
    root = BeautifulSoup(rs.content, 'html.parser')
    article = root.select_one('article')
 
    return article.text
 
 
url = 'http://www.fontanka.ru/2018/04/12/086/'
text = get_text(url)
# print(text)
print(text[:100])  # Первые 100 символов из строки

Результат:

‘\nГора пришла к Улюкаеву\n\nИгорь Сечин впервые явился в суд по делу
бывшего министра финансов Алексея ‘

Добавить комментарий
Напишите свой ответ на данный вопрос.
Scroll Up