0
0 комментариев

Имеется файл с поисковыми запросами. Ссылка на файл — https://yadi.sk/d/A-98NjcA3TktXp.

Моя задача состоит в следующем:
1. Мне необходимо выбрать все запросы (в столбце «request»), которые связаны с темой телевидения (с этим я справился с помощью pandas):

import pandas as pd
 
frame = pd.read_csv('Log', header=0, sep = '\t')
 
frame.request[frame.request.str.contains('телевидение')]

  1. Полученные данные необходимо сгруппировать по темам и посчитать доли основных групп в объеме запросов, связанных с телевидением.

Мои вопросы:

  1. Для решения второго пункта я хочу получить слова, которые встречаются в запросах, связанных с телевидением и их частотность. Затем отсортировать их в порядке убывания частотности (Таким образом, я смогу понять какие слова, встречающиеся в этих запросах самые популярные и на основе этого пойму какие у меня основные группы). Подскажите каким образом это можно сделать?

  2. Каким образом можно будет посчитать доли выявленных групп запросов? К примеру я захочу посчитать долю запросов связанных с телевидением, включающие слова «онлайн», «online» в объеме запросов, связанных с телевидением. Как это можно сделать?


Добавить комментарий