информационная безопасность
без паники и всерьез
 подробно о проектеRambler's Top100
Все любят медПортрет посетителяЗа кого нас держат?
BugTraq.Ru
Русский BugTraq
 Анализ криптографических сетевых... 
 Модель надежности двухузлового... 
 Специальные марковские модели надежности... 
 Бэкдор в xz/liblzma, предназначенный... 
 Три миллиона электронных замков... 
 Doom на газонокосилках 
главная обзор RSN блог библиотека закон бред форум dnet о проекте
bugtraq.ru / форум / web building
Имя Пароль
ФОРУМ
если вы видите этот текст, отключите в настройках форума использование JavaScript
регистрация





Легенда:
  новое сообщение
  закрытая нитка
  новое сообщение
  в закрытой нитке
  старое сообщение
  • Напоминаю, что масса вопросов по функционированию форума снимается после прочтения его описания.
  • Новичкам также крайне полезно ознакомиться с данным документом.
тут нужен HTML парсер. 12.04.05 14:22  Число просмотров: 3082
Автор: БЖ Статус: Незарегистрированный пользователь
<"чистая" ссылка>
> Необходимо получиться данные с лефой странице интернета,
> т.е. просто загрузить, допустим в массив. Задачка конечно
> простая, но так как я этого ещшё не деалл и инфы найти не
> могу, всё осложняется. Если кто уже работал с подобным
> прошу помочь, поделиться ссылкой или наставить на путь
> разума!
> Заранее спасибо
результат выполнения PHP интернет страницы - есть HTML.
HTML - это Hyper Text Markup Language - потомок XML, правда немного извращенный современными браузерами, но эту концепцию использовать можно.
Инфа в HTML страницах, как правило, находится внутри таблиц, описанных тэгом <table> и дочерними к нему. К тому же нужно четко знать в каком месте находится твоя инфа. А так как её положение может меняться в зависимости о дизайна, вариантов использования страницы и т.п.
Вобщем преобразование сводится к разбору таблиц. А это простейшие операции с текстом.
<web building>
РНР парсер, примитив... 12.04.05 01:32  
Автор: CrazyPitbull Статус: Незарегистрированный пользователь
<"чистая" ссылка>
Необходимо получиться данные с лефой странице интернета, т.е. просто загрузить, допустим в массив. Задачка конечно простая, но так как я этого ещшё не деалл и инфы найти не могу, всё осложняется. Если кто уже работал с подобным прошу помочь, поделиться ссылкой или наставить на путь разума!
Заранее спасибо
тут нужен HTML парсер. 12.04.05 14:22  
Автор: БЖ Статус: Незарегистрированный пользователь
<"чистая" ссылка>
> Необходимо получиться данные с лефой странице интернета,
> т.е. просто загрузить, допустим в массив. Задачка конечно
> простая, но так как я этого ещшё не деалл и инфы найти не
> могу, всё осложняется. Если кто уже работал с подобным
> прошу помочь, поделиться ссылкой или наставить на путь
> разума!
> Заранее спасибо
результат выполнения PHP интернет страницы - есть HTML.
HTML - это Hyper Text Markup Language - потомок XML, правда немного извращенный современными браузерами, но эту концепцию использовать можно.
Инфа в HTML страницах, как правило, находится внутри таблиц, описанных тэгом <table> и дочерними к нему. К тому же нужно четко знать в каком месте находится твоя инфа. А так как её положение может меняться в зависимости о дизайна, вариантов использования страницы и т.п.
Вобщем преобразование сводится к разбору таблиц. А это простейшие операции с текстом.
Спасибо за столь скурпулёзное обьяснение, но хотелось... 14.04.05 09:45  
Автор: CrazyPitbull Статус: Незарегистрированный пользователь
<"чистая" ссылка>
> результат выполнения PHP интернет страницы - есть HTML.
> HTML - это Hyper Text Markup Language - потомок XML, правда
> немного извращенный современными браузерами, но эту
> концепцию использовать можно.
> Инфа в HTML страницах, как правило, находится внутри
> таблиц, описанных тэгом <table> и дочерними к нему. К
> тому же нужно четко знать в каком месте находится твоя
> инфа. А так как её положение может меняться в зависимости о
> дизайна, вариантов использования страницы и т.п.
> Вобщем преобразование сводится к разбору таблиц. А это
> простейшие операции с текстом.

Спасибо за столь скурпулёзное обьяснение, но хотелось услышать немного другое. Во первых интересно как получить страницу загруженную в массив, но и с этим разобрался, через fileopen или socketopen заработало, но почему-то не грузятся страници из www2 нета. Возможно что при работе с сокетом я указываю 80 порт, а нужен какой другой?
Хотелось бы поподробнее узнать про эту проблемму, может кто сталкивался...
Насчет fopen и www 14.04.05 13:36  
Автор: J'JF <Dmytro Volhushyn> Статус: Elderman
<"чистая" ссылка>
> через fileopen или socketopen заработало, но почему-то не
> грузятся страници из www2 нета.

Я правильно понял - пишешь ты это все на php?
В таком случае ты, наверное, имел в виду fopen?
Посмотри, в php.ini есть параметр allow_url_fopen.
Для того, чтобы fopen мог брать файло не только с файловой системы, но и по сетевым протоколам, нужно в php.ini указать
allow_url_fopen = On
Странный вопрос... а в чем проблема? 14.04.05 11:37  
Автор: PS <PS> Статус: Elderman
<"чистая" ссылка>
> Спасибо за столь скурпулёзное обьяснение, но хотелось
> услышать немного другое. Во первых интересно как получить
> страницу загруженную в массив, но и с этим разобрался,
> через fileopen или socketopen заработало, но почему-то не
> грузятся страници из www2 нета. Возможно что при работе с
> сокетом я указываю 80 порт, а нужен какой другой?
> Хотелось бы поподробнее узнать про эту проблемму, может кто
> сталкивался...

1. Открываешь соединение с удаенным web сервером.
Если открыть не удалось, например, нет такого ip или порт никто не слушает - обламываешся.
Ремарк: необходимо помнить, что порт необходимо указать в "сетевом формате", т.е. для C кода, например, написать что-то типа port = htons( port );

2. Используя протокол HTTP получаешь необходимые данные (о протоколе информации в нете полно).
Если получить данные не удалось, то либо криво написан запрос, либо это совсем не web сервер - сидишь и разбираешся ;)
Ремарк: в зависимости от типа запроса GET или POST результат может быть различен.
1




Rambler's Top100
Рейтинг@Mail.ru


  Copyright © 2001-2024 Dmitry Leonov   Page build time: 0 s   Design: Vadim Derkach