0
0 комментариев

Застопорилась в задании на курсе Python. Основная задача — сравнение предложений. Я остановилась на этапе 3 задачи:

  1. Каждая строка в файле соответствует одному предложению. Считайте их, приведите каждую к нижнему регистру с помощью строковой функции lower().
  2. Произведите токенизацию, то есть разбиение текстов на слова. Для этого можно воспользоваться регулярным выражением, которое считает разделителем любой символ, не являющийся буквой: re.split('[^a-z]', t). Не забудьте удалить пустые слова после разделения.
  3. Составьте список всех слов, встречающихся в предложениях. Сопоставьте каждому слову индекс от нуля до (d - 1), где d — число различных слов в предложениях. Для этого удобно воспользоваться структурой dict.

Проблема в том, что я не могу в упор сделать вот это: «Составьте список всех слов, встречающихся в предложениях. Сопоставьте каждому слову индекс от нуля до (d - 1), где d — число различных слов в предложениях. Для этого удобно воспользоваться структурой dict.» Я остановилась на коде ниже, и да, он выдает мне списки со всеми словами, пустые строки убраны, но как перейти к dict, я не могу осознать.

Код:

import re
for line in open("sentences.txt"):
 s = line
 y = s.lower()
 text = re.split('[^a-z]',y)
 lines = list(filter(bool, map(str.rstrip, text)))


Добавить комментарий