Т. В. Батура "ФОРМАЛЬНЫЕ МЕТОДЫ ОПРЕДЕЛЕНИЯ АВТОРСТВА ТЕКСТОВ"

ФОРМАЛЬНЫЕ МЕТОДЫ ОПРЕДЕЛЕНИЯ АВТОРСТВА ТЕКСТОВ

Представлен обзор формальных методов установления авторства (атрибуции) текстов. В статье приведено описание наиболее известных программных систем для определения авторского стиля, ориентированных на русский язык, предпринята попытка произвести их сравнительный анализ, выявить особенности и недостатки рассмотренных подходов. При решении задачи определения авторства текстов наибольший интерес и наибольшую сложность представляет анализ синтаксического, лексико-фразеологического и стилистического уровней текста. Экспертный анализ авторского стиля является трудоемким процессом, поэтому в работе уделяется внимание именно формальным методам идентификации автора текста. В настоящее время для атрибуции текстов применяются подходы из теории распознавания образов, математической статистики и теории вероятностей, алгоритмы нейронных сетей, кластерного анализа и др. Среди проблем, затрудняющих исследования в области атрибуции, можно выделить проблему выбора лингвостилистических параметров текста и составления выборки эталонных текстов. Необходимо проводить дальнейшие исследования, направленные на поиск новых или совершенствование уже имеющихся методов атрибуции текстов, поиск характеристик, позволяющих четко разделять стили авторов, в том числе на коротких текстах и на малых объемах выборки.

Ключевые слова: атрибуция текста, определение авторства, формальные параметры текста, авторский стиль, классификация текстов.

T. V. Batura
FORMAL METHODS OF AUTHORSHIP ATTRIBUTION

This paper reviews the methods used for attribution of texts. The paper also provides a description of the popular software systems to determine the author's style, focused on the Russian language. An attempt was made to produce their comparative analysis, to identify features and drawbacks of approaches. The analysis of syntactic, lexical-phraseological and stylistic levels of text is the most interesting and the most difficult. Expert analysis of the author's style is a time consuming process, so the attention is paid to the formal methods of attribution. Currently, for establishing the authorship of texts following methods are used: the approaches of pattern recognition theory, methods of mathematical statistics and probability theory, neural network algorithms, cluster analysis algorithms, etc. Among the problems hampering research on attribution, the problem of choice of text parameters and sampling problem of reference texts are important. Further research is needed to find a new or improving of existing methods of text attribution, to search for characteristics that clearly separate styles of the authors, including short texts and small sample size.

Keywords: text attribution, authorship attribution, formal parameters of the text, author's style, classification of texts.

Вестник НГУ, серия "Информационные технологии", Том 10, Выпуск 4
Страницы 81-94
http://lib.nsu.ru:8080/xmlui/handle/nsu/258