информационная безопасность
без паники и всерьез
 подробно о проектеRambler's Top100
Атака на InternetСтрашный баг в Windows
BugTraq.Ru
Русский BugTraq
 Анализ криптографических сетевых... 
 Модель надежности двухузлового... 
 Специальные марковские модели надежности... 
 Линуксовый ботнет, распространяющийся... 
 Конец поддержки Internet Explorer 
 Рекордное число уязвимостей в 2021 
главная обзор RSN блог библиотека закон бред форум dnet о проекте
bugtraq.ru / форум / theory
Имя Пароль
ФОРУМ
все доски
FAQ
IRC
новые сообщения
site updates
guestbook
beginners
sysadmin
programming
operating systems
theory
web building
software
hardware
networking
law
hacking
gadgets
job
dnet
humor
miscellaneous
scrap
регистрация





Легенда:
  новое сообщение
  закрытая нитка
  новое сообщение
  в закрытой нитке
  старое сообщение
  • Напоминаю, что масса вопросов по функционированию форума снимается после прочтения его описания.
  • Новичкам также крайне полезно ознакомиться с данным документом.
Обработка русских текстов с разных источников. 25.02.08 12:41  Число просмотров: 3045
Автор: n0xi0uzz <Черкасов Виктор> Статус: Member
<"чистая" ссылка>
Здравствуйте!

Стоит следующая задача: обработать некоторые тексты с разных источников и разбить их по темам (выбрать тексты, описывающие одно и то же и сгруппировать).

Проблема, естественно, в определении того, о том же два разных текста, или не о том же :-). Велосипед изобретать не хочется, а хочется прочитать сначала какую-нибудь литературу по этой проблеме.

Гугл и Яндекс не помогают, придумываю запросы весь день, нашел лишь упоминание книги Макарова И.М. "Теория выбора и принятия решений", но не знаю, поможет ли она и в электронном виде её найти, к сожалению, не удалось :-(.

Если кто вдруг сталкивался с подобными задачами, буду рад ссылкам на материалы, доступные в Сети, по этой теме. Можно и на английском языке.

Спасибо!
<theory> Поиск 
  • Обработка русских текстов с разных источников. - n0xi0uzz 25.02.08 12:41 [3045]






Rambler's Top100
Рейтинг@Mail.ru


  Copyright © 2001-2022 Dmitry Leonov   Page build time: 0 s   Design: Vadim Derkach