Pytho2.7 как очистить Unicode строку от левых символов?

308 просмотра
0
0 Комментариев

например у меня вот такая строка

desc=u"привет 123123123 🙆🏼🙆🏼🙆🏼 тут какой то текст 12349! abcde 123"

частично решение я нашел:

re.sub(r'[^\x00-\x7F]+',' ', desc)

или

"".join(filter(lambda x: ord(x)<128,desc.decode('utf-8')))

но проблема в том что удаляются все кириллические символы и получается:

 123123123      12349! abcde 123

а еще в строке может быть м², это же тоже получается спецсимвол. его я бы хотел оставить.


Добавить комментарий

2 Answers

Python Опубликовано 12.12.2018
0

Самый простой вариант — решение в лоб, создайте список «правых» символов и убивайте удаляйте неверных!

Добавить комментарий
0

Отключите спецсимволы — перед кавычками поставить r.
Или создайте список «левых» символов

Добавить комментарий
Напишите свой ответ на данный вопрос.
Scroll Up