0
0 комментариев

Пытаюсь конвертировать кирилицу из pdf в txt c помощью PyPDF2 в Python:

import PyPDF2
pdf_file = open('mail_cir.pdf', 'rb')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(0)
page_content = page.extractText()
print (page_content.encode('utf-8'))

Ошибки не выдает, но и текст не видит.

Пыталась изменить:

 pdf_file = codecs.open('mail_cir.pdf', 'rb', encoding='utf-8')

Тогда выдается ошибка:

TypeError: Can’t convert ‘bytes’ object to str implicitly

И другой вопрос:

Если конвертировать стих, то после окончания строки на пустом месте выводится \n \n. Как избавиться от этих символов?

Изменен статус публикации
Добавить комментарий