Легенда:
   новое сообщение
    закрытая нитка
    новое сообщение
    в закрытой нитке
    старое сообщение
         
		 | 
- Напоминаю, что масса вопросов по функционированию форума снимается после прочтения его описания.
 - Новичкам также крайне полезно ознакомиться с данным документом.
   
  |   |   |   |   |   |   |   |   | 
Ну, может быть...  03.11.03 20:57  Число просмотров: 1440
 Автор: whiletrue <Роман> Статус: Elderman Отредактировано 03.11.03 21:10  Количество правок: 1
 | 
 
Проще всего здесь, наверное, будет т.н. "классификатор Неймана-Пирсона", т.е. задаем вероятность ошибки "ложного срабатывания" и при этом минимизируем вероятность "пропуска". Это, ИМХО, лучше, чем заморачиваться с платежной матрицей...
 
 А нейро-сетка будет гибче и точнее, если грамотно натаскать.
 
 Вообще классификаторов - куча... и по большому счету по барабану какой использовать. Наверное, на какой мозгов и терпения хватит...
 | 
 
| 
<miscellaneous>
 |  
 
возникла идея написания региональной поисковой машины  03.11.03 11:52  
 Автор: tdes <jin> Статус: Member
 | 
 
которая в отличии от крупных поисковиков будет индексировать только ресурсы относяшиеся к определенному региону, зато чаше :)).
 интересно услашать  мнения по этому поводу
 | 
 
 
  |   | 
нет, это не серьёзно, зачем открывать ещё один филиал яндекса  03.11.03 12:25  
 Автор: tdes <jin> Статус: Member
 | 
 
| 
идея заключается в том, что мне кажется, на региональной поисковой машине есть больше возможностей для размешения региональной же рекламы, предоплаченных ссылок  и так далее. зачем какому-нибудь предприятию, в @$урге, скажем, пихать свою рекламу на гугле/яндексе/... за бешенные деньги, когда им по сути важна совсем другая аудитория
 | 
 
 
  |   |   | 
нет, это не серьёзно, зачем открывать ещё один филиал яндекса  03.11.03 13:14  
 Автор: whiletrue <Роман> Статус: Elderman
 | 
 
> идея заключается в том, что мне кажется, на региональной > поисковой машине есть больше возможностей для размешения > региональной же рекламы, предоплаченных ссылок	и так > далее. зачем какому-нибудь предприятию, в @$урге, скажем, > пихать свою рекламу на гугле/яндексе/... за бешенные > деньги, когда им по сути важна совсем другая аудитория 
 Ну, вообще-то я поддерживаю... но есть два НО:
 1. Трудоемко, ИМХО
 2. Сложно отследить из этого ли региона сайт - хоститься-то везде можно.
 
 Предлагаю начать с каталога, и реализовать поиск по этому каталогу, а потом пробовать писать уже бота, ходящего по ссылкам (но по региональным !?)
 | 
 
 
  |   |   |   | 
нет, это не серьёзно, зачем открывать ещё один филиал яндекса  03.11.03 13:33  
 Автор: tdes <jin> Статус: Member
 | 
 
> Предлагаю начать с каталога, и реализовать поиск по этому > каталогу, а потом пробовать писать уже бота, ходящего по > ссылкам (но по региональным !?) 
 да, каталог, это параллельный сервис, конечно.
 оперделять принадлежит ли данный сайт, данному региону предполагаю семантически ( о как сказал :)) , то есть не по месту регистрации, а по содержанию. Самое простое, как я представляю реализовать это - взять крупный портал в регионе, и скормить его роботу, который будет ходить по ссылкам с этого портала и индексировать их, следя за глубиной погружения, так, чтобы не ушёл далеко :)) например, начальная глубина - 2 ссылки от корневого портала, уже таким способом можно создать хорошую базу
 | 
 
 
  |   |   |   |   | 
нет, это не серьёзно, зачем открывать ещё один филиал яндекса  03.11.03 14:06  
 Автор: whiletrue <Роман> Статус: Elderman
 | 
 
> > Предлагаю начать с каталога, и реализовать поиск по > этому > > каталогу, а потом пробовать писать уже бота, ходящего > по > > ссылкам (но по региональным !?) >  > да, каталог, это параллельный сервис, конечно. > оперделять принадлежит ли данный сайт, данному региону > предполагаю семантически ( о как сказал :)) , то есть не по > месту регистрации, а по содержанию. Самое простое, как я > представляю реализовать это - взять крупный портал в > регионе, и скормить его роботу, который будет ходить по > ссылкам с этого портала и индексировать их, следя за > глубиной погружения, так, чтобы не ушёл далеко :)) > например, начальная глубина - 2 ссылки от корневого > портала, уже таким способом можно создать хорошую базу 
 Можно, конечно, для начала и лучше не один портал... Но вообще-то без "submit link" - не обойтись. Тогда кормление будет выглядеть просто как "submit link", сделанный тобой.
 
 Че-то мне кажется, что твое "семантически" будет ближе к "вручную", дай бог если ошибаюсь.
 
 Вот еще вариант: Давай запрос тому же яндексу (+ "eбург") фильтруй ненужное (рекламу) и вставляй нужное (свою рекламу) :)))
 | 
 
 
  |   |   |   |   |   | 
Фильтрация байеса :-)  03.11.03 15:15  
 Автор: amirul <Serge> Статус: The Elderman
 | 
 
> > предполагаю семантически ( о как сказал :)) , то есть > не по > > месту регистрации, а по содержанию. Самое простое, как > я > Можно, конечно, для начала и лучше не один портал... Но > вообще-то без "submit link" - не обойтись. Тогда кормление > будет выглядеть просто как "submit link", сделанный тобой. >  > Че-то мне кажется, что твое "семантически" будет ближе к > "вручную", дай бог если ошибаюсь. А натравить фильтр байеса на вручную подобранный каталог из региональных сайтов. Дальше он уже сам сможет с довольно высокой вероятностью определять принадлежность
 | 
 
 
  |   |   |   |   |   |   | 
Да можно и не байеса...  03.11.03 15:24  
 Автор: whiletrue <Роман> Статус: Elderman Отредактировано 03.11.03 15:30  Количество правок: 2
 | 
 
> А натравить фильтр байеса на вручную подобранный каталог из > региональных сайтов. Дальше он уже сам сможет с довольно > высокой вероятностью определять принадлежность 
 Классификаторов-то много бывает... уж лучше нейро-сетку тогда. Мне даже где-то в инете встречалось обсуждение такого ее применения.
 | 
 
 
  |   |   |   |   |   |   |   | 
ИМХО, крутовато что-то для такого уровня  03.11.03 18:20  
 Автор: amirul <Serge> Статус: The Elderman
 | 
 
| 
 | 
 
 
  |   |   |   |   |   |   |   |   | 
Ну, может быть...  03.11.03 20:57  
 Автор: whiletrue <Роман> Статус: Elderman Отредактировано 03.11.03 21:10  Количество правок: 1
 | 
 
Проще всего здесь, наверное, будет т.н. "классификатор Неймана-Пирсона", т.е. задаем вероятность ошибки "ложного срабатывания" и при этом минимизируем вероятность "пропуска". Это, ИМХО, лучше, чем заморачиваться с платежной матрицей...
 
 А нейро-сетка будет гибче и точнее, если грамотно натаскать.
 
 Вообще классификаторов - куча... и по большому счету по барабану какой использовать. Наверное, на какой мозгов и терпения хватит...
 | 
 
 
  |   |   |   |   |   | 
нет, это не серьёзно, зачем открывать ещё один филиал яндекса  03.11.03 14:38  
 Автор: tdes <jin> Статус: Member
 | 
 
> Че-то мне кажется, что твое "семантически" будет ближе к > "вручную", дай бог если ошибаюсь. сначала дейстивтельно вручную, а дальше алгоритмы как и в нормальных поисковиках, смотреть откуда ссылки ведут на ресурс,  делать разбор морфологический (разработай например словарь специальный для данного региона) и тд
 > Вот еще вариант: Давай запрос тому же яндексу (+ "eбург") > фильтруй ненужное (рекламу) и вставляй нужное (свою > рекламу) :))) ну яндекс эту тему быстро просечет и прикорет :)
 | 
 
 
  |   |   |   |   |   |   | 
Поддерживаю  03.11.03 14:58  
 Автор: whiletrue <Роман> Статус: Elderman Отредактировано 03.11.03 15:10  Количество правок: 1
 | 
 
> > Че-то мне кажется, что твое "семантически" будет ближе > к > > "вручную", дай бог если ошибаюсь. > сначала дейстивтельно вручную, а дальше алгоритмы как и в > нормальных поисковиках, смотреть откуда ссылки ведут на > ресурс,  делать разбор морфологический (разработай например > словарь специальный для данного региона) и тд 
 Вот это мне нравится! В каждом городе есть свои названия улиц ( улица Ленина - не в счет :) ), памятников, слэнги, телефонный код города, почтовый индекс...
 
 > > Вот еще вариант: Давай запрос тому же яндексу (+ > "eбург") > > фильтруй ненужное (рекламу) и вставляй нужное (свою > > рекламу) :))) > ну яндекс эту тему быстро просечет и прикорет :) 
 Да ясен пень - я для хохмы. Однако, для начала можно че-то и с него в твоего робота кормить.
 | 
 
 
  
 
 | 
 |