0
0 комментариев

Например, есть строка на японском, китайском, русском и вообще каком-нибудь языке. Я пытаюсь удалить оттуда все символы пунктуации, заменив их пробелами при помощи регулярного выражения. Но пунктуация не заменяется. Как это сделать?

Пробую так:

#!/usr/bin/python
# -*- coding: utf-8 -*-
 
import re
 
delete = re.compile(ur'\p{P}', re.UNICODE)
test = u"Пунктуация: ,.!?"
 
print delete.sub(' ', test)

Получаю

$ python test.py
Пунктуация: ,.!?

\p{P} — это, по идее, любой символ пунктуации.


Добавить комментарий