информационная безопасность
без паники и всерьез
 подробно о проектеRambler's Top100
Портрет посетителяАтака на InternetЗа кого нас держат?
BugTraq.Ru
Русский BugTraq
 Анализ криптографических сетевых... 
 Модель надежности двухузлового... 
 Специальные марковские модели надежности... 
 На GitHub пугают ложными предупреждениями... 
 Атака на пользователей больших... 
 Notepad++ полгода раздавал зараженные... 
главная обзор RSN блог библиотека закон бред форум dnet о проекте
bugtraq.ru / форум / miscellaneous
Имя Пароль
ФОРУМ
если вы видите этот текст, отключите в настройках форума использование JavaScript
регистрация





Легенда:
  новое сообщение
  закрытая нитка
  новое сообщение
  в закрытой нитке
  старое сообщение
  • Напоминаю, что масса вопросов по функционированию форума снимается после прочтения его описания.
  • Новичкам также крайне полезно ознакомиться с данным документом.
Поддерживаю 03.11.03 14:58  Число просмотров: 1448
Автор: whiletrue <Роман> Статус: Elderman
Отредактировано 03.11.03 15:10  Количество правок: 1
<"чистая" ссылка>
> > Че-то мне кажется, что твое "семантически" будет ближе
> к
> > "вручную", дай бог если ошибаюсь.
> сначала дейстивтельно вручную, а дальше алгоритмы как и в
> нормальных поисковиках, смотреть откуда ссылки ведут на
> ресурс, делать разбор морфологический (разработай например
> словарь специальный для данного региона) и тд

Вот это мне нравится! В каждом городе есть свои названия улиц ( улица Ленина - не в счет :) ), памятников, слэнги, телефонный код города, почтовый индекс...

> > Вот еще вариант: Давай запрос тому же яндексу (+
> "eбург")
> > фильтруй ненужное (рекламу) и вставляй нужное (свою
> > рекламу) :)))
> ну яндекс эту тему быстро просечет и прикорет :)

Да ясен пень - я для хохмы. Однако, для начала можно че-то и с него в твоего робота кормить.
<miscellaneous>
возникла идея написания региональной поисковой машины 03.11.03 11:52  
Автор: tdes <jin> Статус: Member
<"чистая" ссылка>
которая в отличии от крупных поисковиков будет индексировать только ресурсы относяшиеся к определенному региону, зато чаше :)).
интересно услашать мнения по этому поводу
возникла идея написания региональной поисковой машины 03.11.03 12:15  
Автор: whiletrue <Роман> Статус: Elderman
<"чистая" ссылка>
> которая в отличии от крупных поисковиков будет
> индексировать только ресурсы относяшиеся к определенному
> региону, зато чаше :)).
> интересно услашать мнения по этому поводу

глянь samara.ru

Они, кажись, дают регистрить сайты в своем каталоге, а потом просто вызывают яндекс для поиска по своему сайту

http://www.yandex.ru/yandsearch?server_name=www.samara.ru&referrer1=http%3A%2F%2Fwww.samara.ru%2F&referrer2=%D1%E0%EC%E0%F0%F1%EA%E8%E9+%C8%ED%F4%EE%F0%EC%E0%F6%E8%EE%ED%ED%FB%E9+%CF%EE%F0%F2%E0%EB&rctgl=1000049&text=%E1%EE%F3%EB%E8%ED%E3
нет, это не серьёзно, зачем открывать ещё один филиал яндекса 03.11.03 12:25  
Автор: tdes <jin> Статус: Member
<"чистая" ссылка>
идея заключается в том, что мне кажется, на региональной поисковой машине есть больше возможностей для размешения региональной же рекламы, предоплаченных ссылок и так далее. зачем какому-нибудь предприятию, в @$урге, скажем, пихать свою рекламу на гугле/яндексе/... за бешенные деньги, когда им по сути важна совсем другая аудитория
нет, это не серьёзно, зачем открывать ещё один филиал яндекса 03.11.03 13:14  
Автор: whiletrue <Роман> Статус: Elderman
<"чистая" ссылка>
> идея заключается в том, что мне кажется, на региональной
> поисковой машине есть больше возможностей для размешения
> региональной же рекламы, предоплаченных ссылок и так
> далее. зачем какому-нибудь предприятию, в @$урге, скажем,
> пихать свою рекламу на гугле/яндексе/... за бешенные
> деньги, когда им по сути важна совсем другая аудитория

Ну, вообще-то я поддерживаю... но есть два НО:
1. Трудоемко, ИМХО
2. Сложно отследить из этого ли региона сайт - хоститься-то везде можно.

Предлагаю начать с каталога, и реализовать поиск по этому каталогу, а потом пробовать писать уже бота, ходящего по ссылкам (но по региональным !?)
нет, это не серьёзно, зачем открывать ещё один филиал яндекса 03.11.03 13:33  
Автор: tdes <jin> Статус: Member
<"чистая" ссылка>
> Предлагаю начать с каталога, и реализовать поиск по этому
> каталогу, а потом пробовать писать уже бота, ходящего по
> ссылкам (но по региональным !?)

да, каталог, это параллельный сервис, конечно.
оперделять принадлежит ли данный сайт, данному региону предполагаю семантически ( о как сказал :)) , то есть не по месту регистрации, а по содержанию. Самое простое, как я представляю реализовать это - взять крупный портал в регионе, и скормить его роботу, который будет ходить по ссылкам с этого портала и индексировать их, следя за глубиной погружения, так, чтобы не ушёл далеко :)) например, начальная глубина - 2 ссылки от корневого портала, уже таким способом можно создать хорошую базу
нет, это не серьёзно, зачем открывать ещё один филиал яндекса 03.11.03 14:06  
Автор: whiletrue <Роман> Статус: Elderman
<"чистая" ссылка>
> > Предлагаю начать с каталога, и реализовать поиск по
> этому
> > каталогу, а потом пробовать писать уже бота, ходящего
> по
> > ссылкам (но по региональным !?)
>
> да, каталог, это параллельный сервис, конечно.
> оперделять принадлежит ли данный сайт, данному региону
> предполагаю семантически ( о как сказал :)) , то есть не по
> месту регистрации, а по содержанию. Самое простое, как я
> представляю реализовать это - взять крупный портал в
> регионе, и скормить его роботу, который будет ходить по
> ссылкам с этого портала и индексировать их, следя за
> глубиной погружения, так, чтобы не ушёл далеко :))
> например, начальная глубина - 2 ссылки от корневого
> портала, уже таким способом можно создать хорошую базу

Можно, конечно, для начала и лучше не один портал... Но вообще-то без "submit link" - не обойтись. Тогда кормление будет выглядеть просто как "submit link", сделанный тобой.

Че-то мне кажется, что твое "семантически" будет ближе к "вручную", дай бог если ошибаюсь.

Вот еще вариант: Давай запрос тому же яндексу (+ "eбург") фильтруй ненужное (рекламу) и вставляй нужное (свою рекламу) :)))
Фильтрация байеса :-) 03.11.03 15:15  
Автор: amirul <Serge> Статус: The Elderman
<"чистая" ссылка>
> > предполагаю семантически ( о как сказал :)) , то есть
> не по
> > месту регистрации, а по содержанию. Самое простое, как
> я
> Можно, конечно, для начала и лучше не один портал... Но
> вообще-то без "submit link" - не обойтись. Тогда кормление
> будет выглядеть просто как "submit link", сделанный тобой.
>
> Че-то мне кажется, что твое "семантически" будет ближе к
> "вручную", дай бог если ошибаюсь.
А натравить фильтр байеса на вручную подобранный каталог из региональных сайтов. Дальше он уже сам сможет с довольно высокой вероятностью определять принадлежность
Да можно и не байеса... 03.11.03 15:24  
Автор: whiletrue <Роман> Статус: Elderman
Отредактировано 03.11.03 15:30  Количество правок: 2
<"чистая" ссылка>
> А натравить фильтр байеса на вручную подобранный каталог из
> региональных сайтов. Дальше он уже сам сможет с довольно
> высокой вероятностью определять принадлежность

Классификаторов-то много бывает... уж лучше нейро-сетку тогда. Мне даже где-то в инете встречалось обсуждение такого ее применения.
ИМХО, крутовато что-то для такого уровня 03.11.03 18:20  
Автор: amirul <Serge> Статус: The Elderman
<"чистая" ссылка>
Ну, может быть... 03.11.03 20:57  
Автор: whiletrue <Роман> Статус: Elderman
Отредактировано 03.11.03 21:10  Количество правок: 1
<"чистая" ссылка>
Проще всего здесь, наверное, будет т.н. "классификатор Неймана-Пирсона", т.е. задаем вероятность ошибки "ложного срабатывания" и при этом минимизируем вероятность "пропуска". Это, ИМХО, лучше, чем заморачиваться с платежной матрицей...

А нейро-сетка будет гибче и точнее, если грамотно натаскать.

Вообще классификаторов - куча... и по большому счету по барабану какой использовать. Наверное, на какой мозгов и терпения хватит...
нет, это не серьёзно, зачем открывать ещё один филиал яндекса 03.11.03 14:38  
Автор: tdes <jin> Статус: Member
<"чистая" ссылка>
> Че-то мне кажется, что твое "семантически" будет ближе к
> "вручную", дай бог если ошибаюсь.
сначала дейстивтельно вручную, а дальше алгоритмы как и в нормальных поисковиках, смотреть откуда ссылки ведут на ресурс, делать разбор морфологический (разработай например словарь специальный для данного региона) и тд
> Вот еще вариант: Давай запрос тому же яндексу (+ "eбург")
> фильтруй ненужное (рекламу) и вставляй нужное (свою
> рекламу) :)))
ну яндекс эту тему быстро просечет и прикорет :)
Поддерживаю 03.11.03 14:58  
Автор: whiletrue <Роман> Статус: Elderman
Отредактировано 03.11.03 15:10  Количество правок: 1
<"чистая" ссылка>
> > Че-то мне кажется, что твое "семантически" будет ближе
> к
> > "вручную", дай бог если ошибаюсь.
> сначала дейстивтельно вручную, а дальше алгоритмы как и в
> нормальных поисковиках, смотреть откуда ссылки ведут на
> ресурс, делать разбор морфологический (разработай например
> словарь специальный для данного региона) и тд

Вот это мне нравится! В каждом городе есть свои названия улиц ( улица Ленина - не в счет :) ), памятников, слэнги, телефонный код города, почтовый индекс...

> > Вот еще вариант: Давай запрос тому же яндексу (+
> "eбург")
> > фильтруй ненужное (рекламу) и вставляй нужное (свою
> > рекламу) :)))
> ну яндекс эту тему быстро просечет и прикорет :)

Да ясен пень - я для хохмы. Однако, для начала можно че-то и с него в твоего робота кормить.
1




Rambler's Top100
Рейтинг@Mail.ru


  Copyright © 2001-2026 Dmitry Leonov   Page build time: 0 s   Design: Vadim Derkach