информационная безопасность
без паники и всерьез
 подробно о проектеRambler's Top100
Где водятся OGRыПортрет посетителя
BugTraq.Ru
Русский BugTraq
 Анализ криптографических сетевых... 
 Модель надежности двухузлового... 
 Специальные марковские модели надежности... 
 Бэкдор в xz/liblzma, предназначенный... 
 Три миллиона электронных замков... 
 Doom на газонокосилках 
главная обзор RSN блог библиотека закон бред форум dnet о проекте
bugtraq.ru / форум / theory
Имя Пароль
ФОРУМ
если вы видите этот текст, отключите в настройках форума использование JavaScript
регистрация





Легенда:
  новое сообщение
  закрытая нитка
  новое сообщение
  в закрытой нитке
  старое сообщение
  • Напоминаю, что масса вопросов по функционированию форума снимается после прочтения его описания.
  • Новичкам также крайне полезно ознакомиться с данным документом.
Обработка русских текстов с разных источников. 25.02.08 12:41  
Автор: n0xi0uzz <Черкасов Виктор> Статус: Member
<"чистая" ссылка>
Здравствуйте!

Стоит следующая задача: обработать некоторые тексты с разных источников и разбить их по темам (выбрать тексты, описывающие одно и то же и сгруппировать).

Проблема, естественно, в определении того, о том же два разных текста, или не о том же :-). Велосипед изобретать не хочется, а хочется прочитать сначала какую-нибудь литературу по этой проблеме.

Гугл и Яндекс не помогают, придумываю запросы весь день, нашел лишь упоминание книги Макарова И.М. "Теория выбора и принятия решений", но не знаю, поможет ли она и в электронном виде её найти, к сожалению, не удалось :-(.

Если кто вдруг сталкивался с подобными задачами, буду рад ссылкам на материалы, доступные в Сети, по этой теме. Можно и на английском языке.

Спасибо!
например 25.02.08 14:07  
Автор: dl <Dmitry Leonov>
Отредактировано 25.02.08 14:12  Количество правок: 2
<"чистая" ссылка>
Запрос - "плагиат алгоритм определения".
По второй ссылке в гугле еще обзор алгоритмов в ppt. Для определения просто совпадающей тематики, думаю, достаточно будет слегка снизить порог.

http://ru.wikipedia.org/wiki/%D0%90%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC_%D0%A0%D0%B0%D0%B1%D0%B8%D0%BD%D0%B0_%E2%80%94_%D0%9A%D0%B0%D1%80%D0%BF%D0%B0
http://www.searchinform.ru/main/full-text-search-plagiarism-search-plagiatinform.html
1




Rambler's Top100
Рейтинг@Mail.ru


  Copyright © 2001-2024 Dmitry Leonov   Page build time: 0 s   Design: Vadim Derkach