Легенда:
новое сообщение
закрытая нитка
новое сообщение
в закрытой нитке
старое сообщение
|
- Напоминаю, что масса вопросов по функционированию форума снимается после прочтения его описания.
- Новичкам также крайне полезно ознакомиться с данным документом.
Несколько постов выше я предлагал метод подсчёта отношения... 03.12.04 19:30 Число просмотров: 3341
Автор: Heller <Heller> Статус: Elderman Отредактировано 03.12.04 19:33 Количество правок: 1
|
Несколько постов выше я предлагал метод подсчёта отношения количества слов и различных слов. Если применять архивацию, итог получается на самом деле тот же, только гораздо более трудоёмкий.
Что касается выделения "основы" слова, про которую писал paganoid, то такой скрипт можно и самому написать - достаточно отрезать все приставки (их список вполне определён) и все окончания (аналогично), но вот только такой способ мало чего даст.
Вообще, написание громоздкого алгоритма, который будет предусматривать все варианты, вполне возможно, но он будет неоправданно трудоёмким, имхо.
Проще вырезать все повторяющиеся слова (с учётом, если надо, предлогов перед ними) - человек вполне может пообшибке написать одно и то же дважды, а потом уже подсчитать отношение.
По поводу константы: её надо находить самому, но это не так уж и сложно. Если делить количество разных слов на общее количество слов (не учитывая вспомогательных частей речи), то соответственно 1 - все слова разные, 0.5 - это уже слишком мало, каждое слово повторяется дважды, 0.75 - четверть всех слов повторяется дважды, вполне возможно, если это какой-то афоризм, анекдот или шуточная рифма. Значит, 0.75 можно использовать как минимально допустимое значение. Не точно, конечно, но со временем можно будет подправить, если будут ошибки.
Один момент на тему ПСЧ. Дело в том, что в HTML-форму действительно ПСЧ запихнуть невозможно. Допустим, написали мы случайную последовательность 314259867 (последовательность натуральных чисел не больших 9). Вроде, ПСЧ. А если представить каждое число такой последовательности в двоичном виде? Уже не ПСЧ. Кстати, такую последовательность можно ужать всего до 10 бит (без учёта алфавита).
|
|
|