Кафедра ИУ3
8 октября 2015, 12:00

Метод статистического анализа в задаче автоматизированного распознавания автора текста, написанного на естественном языке

Докладчик: Елизавета Алексеевна Тихомирова

Организация: МГТУ им. Н. Э. Баумана

Аннотация
Проблема идентификации автора по написанному им на естественном языке тексту имеет вековую историю. Решение данной проблемы остро необходимо при создании информационных систем для обработки больших объемов текстовой информации, как в сети Интернет, так и в хранилищах учреждений и организаций. Актуальными являются также задачи определение автора анонимного текста при судебно-криминалистической экспертизе.

С развитием автоматизированных технологий выросли возможности для применения статистических методов при решении задачи не только идентификации авторства художественных произведений, мемуаров, переписок, исторических документов, но и времени написания таковых.

Приведен обзор методов, направленных на определение автора: от простых статистических до систем принятия решений. А также обзор методик автоматизированного морфологического анализа.

Приведен подробный анализ точности идентификации существующих методов автоматизированного морфологического анализа текстов, написанных на естественном языке. На основе проведенных исследований разработана новая методика автоматизированного морфологического анализа. Приведен сравнительный анализ точности идентификации разработанной методики с известными методиками Яндекс и АОТ. На базе разработанной методики проведен анализ выборок текстов авторов, на основе которого, в свою очередь, разработан алгоритм системы автоматизированной идентификации автора неизвестного текста и оценена точность идентификации.

Представлен программный комплекс, реализующий разработанные методики.
212
5