информационная безопасность
без паники и всерьез
 подробно о проектеRambler's Top100
Spanning Tree Protocol: недокументированное применениеЗа кого нас держат?
BugTraq.Ru
Русский BugTraq
 Анализ криптографических сетевых... 
 Модель надежности двухузлового... 
 Специальные марковские модели надежности... 
 Бэкдор в xz/liblzma, предназначенный... 
 Три миллиона электронных замков... 
 Doom на газонокосилках 
главная обзор RSN блог библиотека закон бред форум dnet о проекте
bugtraq.ru / форум / web building
Имя Пароль
ФОРУМ
все доски
FAQ
IRC
новые сообщения
site updates
guestbook
beginners
sysadmin
programming
operating systems
theory
web building
software
hardware
networking
law
hacking
gadgets
job
dnet
humor
miscellaneous
scrap
регистрация





Легенда:
  новое сообщение
  закрытая нитка
  новое сообщение
  в закрытой нитке
  старое сообщение
  • Напоминаю, что масса вопросов по функционированию форума снимается после прочтения его описания.
  • Новичкам также крайне полезно ознакомиться с данным документом.
Несколько постов выше я предлагал метод подсчёта отношения... 03.12.04 19:30  Число просмотров: 3229
Автор: Heller <Heller> Статус: Elderman
Отредактировано 03.12.04 19:33  Количество правок: 1
<"чистая" ссылка>
Несколько постов выше я предлагал метод подсчёта отношения количества слов и различных слов. Если применять архивацию, итог получается на самом деле тот же, только гораздо более трудоёмкий.

Что касается выделения "основы" слова, про которую писал paganoid, то такой скрипт можно и самому написать - достаточно отрезать все приставки (их список вполне определён) и все окончания (аналогично), но вот только такой способ мало чего даст.

Вообще, написание громоздкого алгоритма, который будет предусматривать все варианты, вполне возможно, но он будет неоправданно трудоёмким, имхо.

Проще вырезать все повторяющиеся слова (с учётом, если надо, предлогов перед ними) - человек вполне может пообшибке написать одно и то же дважды, а потом уже подсчитать отношение.

По поводу константы: её надо находить самому, но это не так уж и сложно. Если делить количество разных слов на общее количество слов (не учитывая вспомогательных частей речи), то соответственно 1 - все слова разные, 0.5 - это уже слишком мало, каждое слово повторяется дважды, 0.75 - четверть всех слов повторяется дважды, вполне возможно, если это какой-то афоризм, анекдот или шуточная рифма. Значит, 0.75 можно использовать как минимально допустимое значение. Не точно, конечно, но со временем можно будет подправить, если будут ошибки.

Один момент на тему ПСЧ. Дело в том, что в HTML-форму действительно ПСЧ запихнуть невозможно. Допустим, написали мы случайную последовательность 314259867 (последовательность натуральных чисел не больших 9). Вроде, ПСЧ. А если представить каждое число такой последовательности в двоичном виде? Уже не ПСЧ. Кстати, такую последовательность можно ужать всего до 10 бит (без учёта алфавита).
<web building> Поиск 






Rambler's Top100
Рейтинг@Mail.ru


  Copyright © 2001-2024 Dmitry Leonov   Page build time: 0 s   Design: Vadim Derkach