fbpx

Анализ текста в соответствии с шаблоном

144 просмотра
0

Задача — определять соответствие текста заданной структуре\требованиям.
Структура документов (студенческие работы) бывает разной для своего типа.
Обобщенная структура выглядит следующим образом: Титульный лист, Оглавление\Содержание, Введение, Основная часть, Заключение, Список литературы, Приложения.

Так вот мне нужно понимать :

  1. Присутствует ли структурная единица в документе (тит.лист, основная часть и и т.д)

  2. Иметь возможность выделять ее из текста , для подсчета ее объема и др. параметров.

  3. Плюс доп операции например подсчет кол-ва источников в списке литературы.

Скрипт грубо говоря должен решать вопрос валидации документа .

Возможно стоит использовать nltk. Но вопрос как кластеризировать параграфы?
И если получится кластеризировать параграфы , можно ли будет находить индекс (темы\лабла (Буквально — Введение и т.д)) ?

Или же я все сильно усложняю и есть более простой подход для реализации такой идеи ?
Какой подход или алгоритм вы бы посоветовали ?


Добавить комментарий

0 Answers

Python Опубликовано 19.01.2019
Напишите свой ответ на данный вопрос.
Scroll Up