информационная безопасность
без паники и всерьез
 подробно о проектеRambler's Top100
Spanning Tree Protocol: недокументированное применениеВсе любят мед
BugTraq.Ru
Русский BugTraq
 Анализ криптографических сетевых... 
 Модель надежности двухузлового... 
 Специальные марковские модели надежности... 
 Очередное исследование 19 миллиардов... 
 Оптимизация ввода-вывода как инструмент... 
 Зловреды выбирают Lisp и Delphi 
главная обзор RSN блог библиотека закон бред форум dnet о проекте
bugtraq.ru / форум / theory
Имя Пароль
если вы видите этот текст, отключите в настройках форума использование JavaScript
ФОРУМ
все доски
FAQ
IRC
новые сообщения
site updates
guestbook
beginners
sysadmin
programming
operating systems
theory
web building
software
hardware
networking
law
hacking
gadgets
job
dnet
humor
miscellaneous
scrap
регистрация





Легенда:
  новое сообщение
  закрытая нитка
  новое сообщение
  в закрытой нитке
  старое сообщение
Обработка русских текстов с разных источников. 25.02.08 12:41  
Автор: n0xi0uzz <Черкасов Виктор> Статус: Member
<"чистая" ссылка>
Здравствуйте!

Стоит следующая задача: обработать некоторые тексты с разных источников и разбить их по темам (выбрать тексты, описывающие одно и то же и сгруппировать).

Проблема, естественно, в определении того, о том же два разных текста, или не о том же :-). Велосипед изобретать не хочется, а хочется прочитать сначала какую-нибудь литературу по этой проблеме.

Гугл и Яндекс не помогают, придумываю запросы весь день, нашел лишь упоминание книги Макарова И.М. "Теория выбора и принятия решений", но не знаю, поможет ли она и в электронном виде её найти, к сожалению, не удалось :-(.

Если кто вдруг сталкивался с подобными задачами, буду рад ссылкам на материалы, доступные в Сети, по этой теме. Можно и на английском языке.

Спасибо!
например 25.02.08 14:07  
Автор: dl <Dmitry Leonov>
Отредактировано 25.02.08 14:12  Количество правок: 2
<"чистая" ссылка>
Запрос - "плагиат алгоритм определения".
По второй ссылке в гугле еще обзор алгоритмов в ppt. Для определения просто совпадающей тематики, думаю, достаточно будет слегка снизить порог.

http://ru.wikipedia.org/wiki/%D0%90%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC_%D0%A0%D0%B0%D0%B1%D0%B8%D0%BD%D0%B0_%E2%80%94_%D0%9A%D0%B0%D1%80%D0%BF%D0%B0
http://www.searchinform.ru/main/full-text-search-plagiarism-search-plagiatinform.html
1




Rambler's Top100
Рейтинг@Mail.ru


  Copyright © 2001-2025 Dmitry Leonov   Page build time: 0 s   Design: Vadim Derkach