информационная безопасность
без паники и всерьез
 подробно о проектеRambler's Top100
Сетевые кракеры и правда о деле ЛевинаАтака на InternetSpanning Tree Protocol: недокументированное применение
BugTraq.Ru
Русский BugTraq
 Анализ криптографических сетевых... 
 Модель надежности двухузлового... 
 Специальные марковские модели надежности... 
 Бэкдор в xz/liblzma, предназначенный... 
 Три миллиона электронных замков... 
 Doom на газонокосилках 
главная обзор RSN блог библиотека закон бред форум dnet о проекте
bugtraq.ru / форум / miscellaneous
Имя Пароль
ФОРУМ
если вы видите этот текст, отключите в настройках форума использование JavaScript
регистрация





Легенда:
  новое сообщение
  закрытая нитка
  новое сообщение
  в закрытой нитке
  старое сообщение
  • Напоминаю, что масса вопросов по функционированию форума снимается после прочтения его описания.
  • Новичкам также крайне полезно ознакомиться с данным документом.
Поддерживаю 03.11.03 14:58  Число просмотров: 1276
Автор: whiletrue <Роман> Статус: Elderman
Отредактировано 03.11.03 15:10  Количество правок: 1
<"чистая" ссылка>
> > Че-то мне кажется, что твое "семантически" будет ближе
> к
> > "вручную", дай бог если ошибаюсь.
> сначала дейстивтельно вручную, а дальше алгоритмы как и в
> нормальных поисковиках, смотреть откуда ссылки ведут на
> ресурс, делать разбор морфологический (разработай например
> словарь специальный для данного региона) и тд

Вот это мне нравится! В каждом городе есть свои названия улиц ( улица Ленина - не в счет :) ), памятников, слэнги, телефонный код города, почтовый индекс...

> > Вот еще вариант: Давай запрос тому же яндексу (+
> "eбург")
> > фильтруй ненужное (рекламу) и вставляй нужное (свою
> > рекламу) :)))
> ну яндекс эту тему быстро просечет и прикорет :)

Да ясен пень - я для хохмы. Однако, для начала можно че-то и с него в твоего робота кормить.
<miscellaneous>
возникла идея написания региональной поисковой машины 03.11.03 11:52  
Автор: tdes <jin> Статус: Member
<"чистая" ссылка>
которая в отличии от крупных поисковиков будет индексировать только ресурсы относяшиеся к определенному региону, зато чаше :)).
интересно услашать мнения по этому поводу
возникла идея написания региональной поисковой машины 03.11.03 12:15  
Автор: whiletrue <Роман> Статус: Elderman
<"чистая" ссылка>
> которая в отличии от крупных поисковиков будет
> индексировать только ресурсы относяшиеся к определенному
> региону, зато чаше :)).
> интересно услашать мнения по этому поводу

глянь samara.ru

Они, кажись, дают регистрить сайты в своем каталоге, а потом просто вызывают яндекс для поиска по своему сайту

http://www.yandex.ru/yandsearch?server_name=www.samara.ru&referrer1=http%3A%2F%2Fwww.samara.ru%2F&referrer2=%D1%E0%EC%E0%F0%F1%EA%E8%E9+%C8%ED%F4%EE%F0%EC%E0%F6%E8%EE%ED%ED%FB%E9+%CF%EE%F0%F2%E0%EB&rctgl=1000049&text=%E1%EE%F3%EB%E8%ED%E3
нет, это не серьёзно, зачем открывать ещё один филиал яндекса 03.11.03 12:25  
Автор: tdes <jin> Статус: Member
<"чистая" ссылка>
идея заключается в том, что мне кажется, на региональной поисковой машине есть больше возможностей для размешения региональной же рекламы, предоплаченных ссылок и так далее. зачем какому-нибудь предприятию, в @$урге, скажем, пихать свою рекламу на гугле/яндексе/... за бешенные деньги, когда им по сути важна совсем другая аудитория
нет, это не серьёзно, зачем открывать ещё один филиал яндекса 03.11.03 13:14  
Автор: whiletrue <Роман> Статус: Elderman
<"чистая" ссылка>
> идея заключается в том, что мне кажется, на региональной
> поисковой машине есть больше возможностей для размешения
> региональной же рекламы, предоплаченных ссылок и так
> далее. зачем какому-нибудь предприятию, в @$урге, скажем,
> пихать свою рекламу на гугле/яндексе/... за бешенные
> деньги, когда им по сути важна совсем другая аудитория

Ну, вообще-то я поддерживаю... но есть два НО:
1. Трудоемко, ИМХО
2. Сложно отследить из этого ли региона сайт - хоститься-то везде можно.

Предлагаю начать с каталога, и реализовать поиск по этому каталогу, а потом пробовать писать уже бота, ходящего по ссылкам (но по региональным !?)
нет, это не серьёзно, зачем открывать ещё один филиал яндекса 03.11.03 13:33  
Автор: tdes <jin> Статус: Member
<"чистая" ссылка>
> Предлагаю начать с каталога, и реализовать поиск по этому
> каталогу, а потом пробовать писать уже бота, ходящего по
> ссылкам (но по региональным !?)

да, каталог, это параллельный сервис, конечно.
оперделять принадлежит ли данный сайт, данному региону предполагаю семантически ( о как сказал :)) , то есть не по месту регистрации, а по содержанию. Самое простое, как я представляю реализовать это - взять крупный портал в регионе, и скормить его роботу, который будет ходить по ссылкам с этого портала и индексировать их, следя за глубиной погружения, так, чтобы не ушёл далеко :)) например, начальная глубина - 2 ссылки от корневого портала, уже таким способом можно создать хорошую базу
нет, это не серьёзно, зачем открывать ещё один филиал яндекса 03.11.03 14:06  
Автор: whiletrue <Роман> Статус: Elderman
<"чистая" ссылка>
> > Предлагаю начать с каталога, и реализовать поиск по
> этому
> > каталогу, а потом пробовать писать уже бота, ходящего
> по
> > ссылкам (но по региональным !?)
>
> да, каталог, это параллельный сервис, конечно.
> оперделять принадлежит ли данный сайт, данному региону
> предполагаю семантически ( о как сказал :)) , то есть не по
> месту регистрации, а по содержанию. Самое простое, как я
> представляю реализовать это - взять крупный портал в
> регионе, и скормить его роботу, который будет ходить по
> ссылкам с этого портала и индексировать их, следя за
> глубиной погружения, так, чтобы не ушёл далеко :))
> например, начальная глубина - 2 ссылки от корневого
> портала, уже таким способом можно создать хорошую базу

Можно, конечно, для начала и лучше не один портал... Но вообще-то без "submit link" - не обойтись. Тогда кормление будет выглядеть просто как "submit link", сделанный тобой.

Че-то мне кажется, что твое "семантически" будет ближе к "вручную", дай бог если ошибаюсь.

Вот еще вариант: Давай запрос тому же яндексу (+ "eбург") фильтруй ненужное (рекламу) и вставляй нужное (свою рекламу) :)))
Фильтрация байеса :-) 03.11.03 15:15  
Автор: amirul <Serge> Статус: The Elderman
<"чистая" ссылка>
> > предполагаю семантически ( о как сказал :)) , то есть
> не по
> > месту регистрации, а по содержанию. Самое простое, как
> я
> Можно, конечно, для начала и лучше не один портал... Но
> вообще-то без "submit link" - не обойтись. Тогда кормление
> будет выглядеть просто как "submit link", сделанный тобой.
>
> Че-то мне кажется, что твое "семантически" будет ближе к
> "вручную", дай бог если ошибаюсь.
А натравить фильтр байеса на вручную подобранный каталог из региональных сайтов. Дальше он уже сам сможет с довольно высокой вероятностью определять принадлежность
Да можно и не байеса... 03.11.03 15:24  
Автор: whiletrue <Роман> Статус: Elderman
Отредактировано 03.11.03 15:30  Количество правок: 2
<"чистая" ссылка>
> А натравить фильтр байеса на вручную подобранный каталог из
> региональных сайтов. Дальше он уже сам сможет с довольно
> высокой вероятностью определять принадлежность

Классификаторов-то много бывает... уж лучше нейро-сетку тогда. Мне даже где-то в инете встречалось обсуждение такого ее применения.
ИМХО, крутовато что-то для такого уровня 03.11.03 18:20  
Автор: amirul <Serge> Статус: The Elderman
<"чистая" ссылка>
Ну, может быть... 03.11.03 20:57  
Автор: whiletrue <Роман> Статус: Elderman
Отредактировано 03.11.03 21:10  Количество правок: 1
<"чистая" ссылка>
Проще всего здесь, наверное, будет т.н. "классификатор Неймана-Пирсона", т.е. задаем вероятность ошибки "ложного срабатывания" и при этом минимизируем вероятность "пропуска". Это, ИМХО, лучше, чем заморачиваться с платежной матрицей...

А нейро-сетка будет гибче и точнее, если грамотно натаскать.

Вообще классификаторов - куча... и по большому счету по барабану какой использовать. Наверное, на какой мозгов и терпения хватит...
нет, это не серьёзно, зачем открывать ещё один филиал яндекса 03.11.03 14:38  
Автор: tdes <jin> Статус: Member
<"чистая" ссылка>
> Че-то мне кажется, что твое "семантически" будет ближе к
> "вручную", дай бог если ошибаюсь.
сначала дейстивтельно вручную, а дальше алгоритмы как и в нормальных поисковиках, смотреть откуда ссылки ведут на ресурс, делать разбор морфологический (разработай например словарь специальный для данного региона) и тд
> Вот еще вариант: Давай запрос тому же яндексу (+ "eбург")
> фильтруй ненужное (рекламу) и вставляй нужное (свою
> рекламу) :)))
ну яндекс эту тему быстро просечет и прикорет :)
Поддерживаю 03.11.03 14:58  
Автор: whiletrue <Роман> Статус: Elderman
Отредактировано 03.11.03 15:10  Количество правок: 1
<"чистая" ссылка>
> > Че-то мне кажется, что твое "семантически" будет ближе
> к
> > "вручную", дай бог если ошибаюсь.
> сначала дейстивтельно вручную, а дальше алгоритмы как и в
> нормальных поисковиках, смотреть откуда ссылки ведут на
> ресурс, делать разбор морфологический (разработай например
> словарь специальный для данного региона) и тд

Вот это мне нравится! В каждом городе есть свои названия улиц ( улица Ленина - не в счет :) ), памятников, слэнги, телефонный код города, почтовый индекс...

> > Вот еще вариант: Давай запрос тому же яндексу (+
> "eбург")
> > фильтруй ненужное (рекламу) и вставляй нужное (свою
> > рекламу) :)))
> ну яндекс эту тему быстро просечет и прикорет :)

Да ясен пень - я для хохмы. Однако, для начала можно че-то и с него в твоего робота кормить.
1




Rambler's Top100
Рейтинг@Mail.ru


  Copyright © 2001-2024 Dmitry Leonov   Page build time: 0 s   Design: Vadim Derkach