Легенда:
новое сообщение
закрытая нитка
новое сообщение
в закрытой нитке
старое сообщение
|
- Напоминаю, что масса вопросов по функционированию форума снимается после прочтения его описания.
- Новичкам также крайне полезно ознакомиться с данным документом.
| | | | | | |
Поддерживаю 03.11.03 14:58 Число просмотров: 1276
Автор: whiletrue <Роман> Статус: Elderman Отредактировано 03.11.03 15:10 Количество правок: 1
|
> > Че-то мне кажется, что твое "семантически" будет ближе > к > > "вручную", дай бог если ошибаюсь. > сначала дейстивтельно вручную, а дальше алгоритмы как и в > нормальных поисковиках, смотреть откуда ссылки ведут на > ресурс, делать разбор морфологический (разработай например > словарь специальный для данного региона) и тд
Вот это мне нравится! В каждом городе есть свои названия улиц ( улица Ленина - не в счет :) ), памятников, слэнги, телефонный код города, почтовый индекс...
> > Вот еще вариант: Давай запрос тому же яндексу (+ > "eбург") > > фильтруй ненужное (рекламу) и вставляй нужное (свою > > рекламу) :))) > ну яндекс эту тему быстро просечет и прикорет :)
Да ясен пень - я для хохмы. Однако, для начала можно че-то и с него в твоего робота кормить.
|
<miscellaneous>
|
возникла идея написания региональной поисковой машины 03.11.03 11:52
Автор: tdes <jin> Статус: Member
|
которая в отличии от крупных поисковиков будет индексировать только ресурсы относяшиеся к определенному региону, зато чаше :)).
интересно услашать мнения по этому поводу
|
| |
нет, это не серьёзно, зачем открывать ещё один филиал яндекса 03.11.03 12:25
Автор: tdes <jin> Статус: Member
|
идея заключается в том, что мне кажется, на региональной поисковой машине есть больше возможностей для размешения региональной же рекламы, предоплаченных ссылок и так далее. зачем какому-нибудь предприятию, в @$урге, скажем, пихать свою рекламу на гугле/яндексе/... за бешенные деньги, когда им по сути важна совсем другая аудитория
|
| | |
нет, это не серьёзно, зачем открывать ещё один филиал яндекса 03.11.03 13:14
Автор: whiletrue <Роман> Статус: Elderman
|
> идея заключается в том, что мне кажется, на региональной > поисковой машине есть больше возможностей для размешения > региональной же рекламы, предоплаченных ссылок и так > далее. зачем какому-нибудь предприятию, в @$урге, скажем, > пихать свою рекламу на гугле/яндексе/... за бешенные > деньги, когда им по сути важна совсем другая аудитория
Ну, вообще-то я поддерживаю... но есть два НО:
1. Трудоемко, ИМХО
2. Сложно отследить из этого ли региона сайт - хоститься-то везде можно.
Предлагаю начать с каталога, и реализовать поиск по этому каталогу, а потом пробовать писать уже бота, ходящего по ссылкам (но по региональным !?)
|
| | | |
нет, это не серьёзно, зачем открывать ещё один филиал яндекса 03.11.03 13:33
Автор: tdes <jin> Статус: Member
|
> Предлагаю начать с каталога, и реализовать поиск по этому > каталогу, а потом пробовать писать уже бота, ходящего по > ссылкам (но по региональным !?)
да, каталог, это параллельный сервис, конечно.
оперделять принадлежит ли данный сайт, данному региону предполагаю семантически ( о как сказал :)) , то есть не по месту регистрации, а по содержанию. Самое простое, как я представляю реализовать это - взять крупный портал в регионе, и скормить его роботу, который будет ходить по ссылкам с этого портала и индексировать их, следя за глубиной погружения, так, чтобы не ушёл далеко :)) например, начальная глубина - 2 ссылки от корневого портала, уже таким способом можно создать хорошую базу
|
| | | | |
нет, это не серьёзно, зачем открывать ещё один филиал яндекса 03.11.03 14:06
Автор: whiletrue <Роман> Статус: Elderman
|
> > Предлагаю начать с каталога, и реализовать поиск по > этому > > каталогу, а потом пробовать писать уже бота, ходящего > по > > ссылкам (но по региональным !?) > > да, каталог, это параллельный сервис, конечно. > оперделять принадлежит ли данный сайт, данному региону > предполагаю семантически ( о как сказал :)) , то есть не по > месту регистрации, а по содержанию. Самое простое, как я > представляю реализовать это - взять крупный портал в > регионе, и скормить его роботу, который будет ходить по > ссылкам с этого портала и индексировать их, следя за > глубиной погружения, так, чтобы не ушёл далеко :)) > например, начальная глубина - 2 ссылки от корневого > портала, уже таким способом можно создать хорошую базу
Можно, конечно, для начала и лучше не один портал... Но вообще-то без "submit link" - не обойтись. Тогда кормление будет выглядеть просто как "submit link", сделанный тобой.
Че-то мне кажется, что твое "семантически" будет ближе к "вручную", дай бог если ошибаюсь.
Вот еще вариант: Давай запрос тому же яндексу (+ "eбург") фильтруй ненужное (рекламу) и вставляй нужное (свою рекламу) :)))
|
| | | | | |
Фильтрация байеса :-) 03.11.03 15:15
Автор: amirul <Serge> Статус: The Elderman
|
> > предполагаю семантически ( о как сказал :)) , то есть > не по > > месту регистрации, а по содержанию. Самое простое, как > я > Можно, конечно, для начала и лучше не один портал... Но > вообще-то без "submit link" - не обойтись. Тогда кормление > будет выглядеть просто как "submit link", сделанный тобой. > > Че-то мне кажется, что твое "семантически" будет ближе к > "вручную", дай бог если ошибаюсь. А натравить фильтр байеса на вручную подобранный каталог из региональных сайтов. Дальше он уже сам сможет с довольно высокой вероятностью определять принадлежность
|
| | | | | | |
Да можно и не байеса... 03.11.03 15:24
Автор: whiletrue <Роман> Статус: Elderman Отредактировано 03.11.03 15:30 Количество правок: 2
|
> А натравить фильтр байеса на вручную подобранный каталог из > региональных сайтов. Дальше он уже сам сможет с довольно > высокой вероятностью определять принадлежность
Классификаторов-то много бывает... уж лучше нейро-сетку тогда. Мне даже где-то в инете встречалось обсуждение такого ее применения.
|
| | | | | | | |
ИМХО, крутовато что-то для такого уровня 03.11.03 18:20
Автор: amirul <Serge> Статус: The Elderman
|
|
| | | | | | | | |
Ну, может быть... 03.11.03 20:57
Автор: whiletrue <Роман> Статус: Elderman Отредактировано 03.11.03 21:10 Количество правок: 1
|
Проще всего здесь, наверное, будет т.н. "классификатор Неймана-Пирсона", т.е. задаем вероятность ошибки "ложного срабатывания" и при этом минимизируем вероятность "пропуска". Это, ИМХО, лучше, чем заморачиваться с платежной матрицей...
А нейро-сетка будет гибче и точнее, если грамотно натаскать.
Вообще классификаторов - куча... и по большому счету по барабану какой использовать. Наверное, на какой мозгов и терпения хватит...
|
| | | | | |
нет, это не серьёзно, зачем открывать ещё один филиал яндекса 03.11.03 14:38
Автор: tdes <jin> Статус: Member
|
> Че-то мне кажется, что твое "семантически" будет ближе к > "вручную", дай бог если ошибаюсь. сначала дейстивтельно вручную, а дальше алгоритмы как и в нормальных поисковиках, смотреть откуда ссылки ведут на ресурс, делать разбор морфологический (разработай например словарь специальный для данного региона) и тд
> Вот еще вариант: Давай запрос тому же яндексу (+ "eбург") > фильтруй ненужное (рекламу) и вставляй нужное (свою > рекламу) :))) ну яндекс эту тему быстро просечет и прикорет :)
|
| | | | | | |
Поддерживаю 03.11.03 14:58
Автор: whiletrue <Роман> Статус: Elderman Отредактировано 03.11.03 15:10 Количество правок: 1
|
> > Че-то мне кажется, что твое "семантически" будет ближе > к > > "вручную", дай бог если ошибаюсь. > сначала дейстивтельно вручную, а дальше алгоритмы как и в > нормальных поисковиках, смотреть откуда ссылки ведут на > ресурс, делать разбор морфологический (разработай например > словарь специальный для данного региона) и тд
Вот это мне нравится! В каждом городе есть свои названия улиц ( улица Ленина - не в счет :) ), памятников, слэнги, телефонный код города, почтовый индекс...
> > Вот еще вариант: Давай запрос тому же яндексу (+ > "eбург") > > фильтруй ненужное (рекламу) и вставляй нужное (свою > > рекламу) :))) > ну яндекс эту тему быстро просечет и прикорет :)
Да ясен пень - я для хохмы. Однако, для начала можно че-то и с него в твоего робота кормить.
|
|
|