0
0 комментариев

Мне нужно разбить текст по словам, при этом, чтобы исключились все слова, кроме русских, и все знаки препинания. wordpunct_tokenize этого сделать не позволяет. Кажется, это можно сделать с помощью RegexpTokenizer, задав ему регулярное выражение.
Подскажите, с помощью какого регулярного выражения можно это сделать или посоветуйте другие токенайзеры, которые могут дать то, что мне нужно.


Добавить комментарий