Загорулько Ю. А., Саломатина Н. В., Серый А. С., Сидорова Е. А., Шестаков В. К. Выявление нечетких дубликатов при автоматическом формировании тематических коллекций документов на основе Web-публикаций

ВЫЯВЛЕНИЕ НЕЧЕТКИХ ДУБЛИКАТОВ ПРИ АВТОМАТИЧЕСКОМ ФОРМИРОВАНИИ ТЕМАТИЧЕСКИХ КОЛЛЕКЦИЙ ДОКУМЕНТОВ НА ОСНОВЕ WEB-ПУБЛИКАЦИЙ

Рассматриваются методы выявления нечетких дубликатов в тематических коллекциях документов, формируемых в автоматическом режиме на основе публикаций, полученных из сети Интернет. Основное внимание уделяется различным модификациям метода шинглов, который позволяет достаточно быстро выполнить сравнение большого количества текстов без их предварительной обработки, что особенно важно при первичном отборе текстов для коллекции.

Ключевые слова: текстовые коллекции, методы сравнения текстов, метод шинглов, поиск нечетких дубликатов, веб-документы, веб-ресурсы.

Yu. A. Zagorulko, N. V. Salomatina, A. S. Sery, E. A. Sidorova, V. K. Shestakov
DETECTING NEAR-DUPLICATES FOR AUTOMATICALLY FORMING THEMATICAL TEXT COLLECTIONS ON THE BASIS OF WEB DOCUMENTS

Approaches to detecting near-duplicates appearing in thematic text collections accumulated automatically on the basis of text documents obtained from the Internet are discussed. The paper is focused on various modifications of shingle algorithm since it allows comparing a large number of texts quickly and without any preprocessing. The latter is particularly important when forming collections of raw texts.

Keywords: text collection, text comparing, shingle algorithm, near-duplicate, web documents, web resources.

Вестник НГУ. Серия: Информационные технологии. 2013. Т. 11, вып. 4. С. 59–70.
http://www.nsu.ru/xmlui/handle/nsu/1292