BugTraq.Ru: форум / web building / Несколько постов выше я предлагал метод подсчёта отношения...

информационная безопасность
без паники и всерьез

подробно о проекте

Spanning Tree Protocol: недокументированное применение

Анализ криптографических сетевых...

Модель надежности двухузлового...

Специальные марковские модели надежности...

Бэкдор в xz/liblzma, предназначенный...

Три миллиона электронных замков...

Doom на газонокосилках

bugtraq.ru / форум / web building

Имя

Пароль


ФОРУМ


	все доски
	FAQ
	IRC
	новые сообщения

	site updates
	guestbook
	beginners
	sysadmin
	programming
	operating systems
	theory
	web building
software
hardware
networking
law
hacking
gadgets
job
dnet
humor
miscellaneous
scrap

регистрация

Легенда:

новое сообщение

закрытая нитка

новое сообщение

в закрытой нитке

старое сообщение

Напоминаю, что масса вопросов по функционированию форума снимается после прочтения его описания.
Новичкам также крайне полезно ознакомиться с данным документом.

Несколько постов выше я предлагал метод подсчёта отношения... 03.12.04 19:30 Число просмотров: 3229
Автор: Heller <Heller> Статус: Elderman
Отредактировано 03.12.04 19:33 Количество правок: 1

<"чистая" ссылка>

Несколько постов выше я предлагал метод подсчёта отношения количества слов и различных слов. Если применять архивацию, итог получается на самом деле тот же, только гораздо более трудоёмкий.

Что касается выделения "основы" слова, про которую писал paganoid, то такой скрипт можно и самому написать - достаточно отрезать все приставки (их список вполне определён) и все окончания (аналогично), но вот только такой способ мало чего даст.

Вообще, написание громоздкого алгоритма, который будет предусматривать все варианты, вполне возможно, но он будет неоправданно трудоёмким, имхо.

Проще вырезать все повторяющиеся слова (с учётом, если надо, предлогов перед ними) - человек вполне может пообшибке написать одно и то же дважды, а потом уже подсчитать отношение.

По поводу константы: её надо находить самому, но это не так уж и сложно. Если делить количество разных слов на общее количество слов (не учитывая вспомогательных частей речи), то соответственно 1 - все слова разные, 0.5 - это уже слишком мало, каждое слово повторяется дважды, 0.75 - четверть всех слов повторяется дважды, вполне возможно, если это какой-то афоризм, анекдот или шуточная рифма. Значит, 0.75 можно использовать как минимально допустимое значение. Не точно, конечно, но со временем можно будет подправить, если будут ошибки.

Один момент на тему ПСЧ. Дело в том, что в HTML-форму действительно ПСЧ запихнуть невозможно. Допустим, написали мы случайную последовательность 314259867 (последовательность натуральных чисел не больших 9). Вроде, ПСЧ. А если представить каждое число такой последовательности в двоичном виде? Уже не ПСЧ. Кстати, такую последовательность можно ужать всего до 10 бит (без учёта алфавита).

Поиск

[Perl] Защита от сообщений, состоящих из повторяющ... - n0xi0uzz 02.12.04 08:11 [3583]
- Поставь 2 порога - whiletrue 02.12.04 08:25 [3443]
  - А это поможет, если, например, будет повторяться не одно... - n0xi0uzz 02.12.04 08:32 [3232]
    - [upd] Вообще поможет, но для фраз этот метод не ги... - whiletrue 02.12.04 09:01 [3337]
      - Можно сделать проще - Heller 02.12.04 17:26 [3219]
        больше чего? той самой константы из "Замечания №2"? - n0xi0uzz 03.12.04 03:21 [3159]
        Я из чего исходил - whiletrue 02.12.04 21:00 [3109]
        Вот я его и хочу написать (все равно делать нечего... - n0xi0uzz 03.12.04 03:10 [3140]
        А может заюзать какой-нибудь стандартный алгоритм... - HandleX 03.12.04 14:47 [3405]
        Несколько постов выше я предлагал метод подсчёта о... - Heller 03.12.04 19:30 [3229]
        имеется ввиду повторяющиеся подряд слова? - n0xi0uzz 04.12.04 05:21 [3946]
        Именно. - Heller 04.12.04 21:31 [3256]
        волшебное слово stemming - paganoid 03.12.04 13:00 [3336]

Page build time: 0 s

Design: Vadim Derkach