Стоит следующая задача: обработать некоторые тексты с разных источников и разбить их по темам (выбрать тексты, описывающие одно и то же и сгруппировать).
Проблема, естественно, в определении того, о том же два разных текста, или не о том же :-). Велосипед изобретать не хочется, а хочется прочитать сначала какую-нибудь литературу по этой проблеме.
Гугл и Яндекс не помогают, придумываю запросы весь день, нашел лишь упоминание книги Макарова И.М. "Теория выбора и принятия решений", но не знаю, поможет ли она и в электронном виде её найти, к сожалению, не удалось :-(.
Если кто вдруг сталкивался с подобными задачами, буду рад ссылкам на материалы, доступные в Сети, по этой теме. Можно и на английском языке.
Запрос - "плагиат алгоритм определения".
По второй ссылке в гугле еще обзор алгоритмов в ppt. Для определения просто совпадающей тематики, думаю, достаточно будет слегка снизить порог.