информационная безопасность
без паники и всерьез
 подробно о проектеRambler's Top100
Сетевые кракеры и правда о деле ЛевинаАтака на InternetЗа кого нас держат?
BugTraq.Ru
Русский BugTraq
 Анализ криптографических сетевых... 
 Модель надежности двухузлового... 
 Специальные марковские модели надежности... 
 Очередное исследование 19 миллиардов... 
 Оптимизация ввода-вывода как инструмент... 
 Зловреды выбирают Lisp и Delphi 
главная обзор RSN блог библиотека закон бред форум dnet о проекте
bugtraq.ru / форум / web building
Имя Пароль
если вы видите этот текст, отключите в настройках форума использование JavaScript
ФОРУМ
все доски
FAQ
IRC
новые сообщения
site updates
guestbook
beginners
sysadmin
programming
operating systems
theory
web building
software
hardware
networking
law
hacking
gadgets
job
dnet
humor
miscellaneous
scrap
регистрация





Легенда:
  новое сообщение
  закрытая нитка
  новое сообщение
  в закрытой нитке
  старое сообщение
тут нужен HTML парсер. 12.04.05 14:22  Число просмотров: 3217
Автор: БЖ Статус: Незарегистрированный пользователь
<"чистая" ссылка>
> Необходимо получиться данные с лефой странице интернета,
> т.е. просто загрузить, допустим в массив. Задачка конечно
> простая, но так как я этого ещшё не деалл и инфы найти не
> могу, всё осложняется. Если кто уже работал с подобным
> прошу помочь, поделиться ссылкой или наставить на путь
> разума!
> Заранее спасибо
результат выполнения PHP интернет страницы - есть HTML.
HTML - это Hyper Text Markup Language - потомок XML, правда немного извращенный современными браузерами, но эту концепцию использовать можно.
Инфа в HTML страницах, как правило, находится внутри таблиц, описанных тэгом <table> и дочерними к нему. К тому же нужно четко знать в каком месте находится твоя инфа. А так как её положение может меняться в зависимости о дизайна, вариантов использования страницы и т.п.
Вобщем преобразование сводится к разбору таблиц. А это простейшие операции с текстом.
<web building>
РНР парсер, примитив... 12.04.05 01:32  
Автор: CrazyPitbull Статус: Незарегистрированный пользователь
<"чистая" ссылка>
Необходимо получиться данные с лефой странице интернета, т.е. просто загрузить, допустим в массив. Задачка конечно простая, но так как я этого ещшё не деалл и инфы найти не могу, всё осложняется. Если кто уже работал с подобным прошу помочь, поделиться ссылкой или наставить на путь разума!
Заранее спасибо
тут нужен HTML парсер. 12.04.05 14:22  
Автор: БЖ Статус: Незарегистрированный пользователь
<"чистая" ссылка>
> Необходимо получиться данные с лефой странице интернета,
> т.е. просто загрузить, допустим в массив. Задачка конечно
> простая, но так как я этого ещшё не деалл и инфы найти не
> могу, всё осложняется. Если кто уже работал с подобным
> прошу помочь, поделиться ссылкой или наставить на путь
> разума!
> Заранее спасибо
результат выполнения PHP интернет страницы - есть HTML.
HTML - это Hyper Text Markup Language - потомок XML, правда немного извращенный современными браузерами, но эту концепцию использовать можно.
Инфа в HTML страницах, как правило, находится внутри таблиц, описанных тэгом <table> и дочерними к нему. К тому же нужно четко знать в каком месте находится твоя инфа. А так как её положение может меняться в зависимости о дизайна, вариантов использования страницы и т.п.
Вобщем преобразование сводится к разбору таблиц. А это простейшие операции с текстом.
Спасибо за столь скурпулёзное обьяснение, но хотелось... 14.04.05 09:45  
Автор: CrazyPitbull Статус: Незарегистрированный пользователь
<"чистая" ссылка>
> результат выполнения PHP интернет страницы - есть HTML.
> HTML - это Hyper Text Markup Language - потомок XML, правда
> немного извращенный современными браузерами, но эту
> концепцию использовать можно.
> Инфа в HTML страницах, как правило, находится внутри
> таблиц, описанных тэгом <table> и дочерними к нему. К
> тому же нужно четко знать в каком месте находится твоя
> инфа. А так как её положение может меняться в зависимости о
> дизайна, вариантов использования страницы и т.п.
> Вобщем преобразование сводится к разбору таблиц. А это
> простейшие операции с текстом.

Спасибо за столь скурпулёзное обьяснение, но хотелось услышать немного другое. Во первых интересно как получить страницу загруженную в массив, но и с этим разобрался, через fileopen или socketopen заработало, но почему-то не грузятся страници из www2 нета. Возможно что при работе с сокетом я указываю 80 порт, а нужен какой другой?
Хотелось бы поподробнее узнать про эту проблемму, может кто сталкивался...
Насчет fopen и www 14.04.05 13:36  
Автор: J'JF <Dmytro Volhushyn> Статус: Elderman
<"чистая" ссылка>
> через fileopen или socketopen заработало, но почему-то не
> грузятся страници из www2 нета.

Я правильно понял - пишешь ты это все на php?
В таком случае ты, наверное, имел в виду fopen?
Посмотри, в php.ini есть параметр allow_url_fopen.
Для того, чтобы fopen мог брать файло не только с файловой системы, но и по сетевым протоколам, нужно в php.ini указать
allow_url_fopen = On
Странный вопрос... а в чем проблема? 14.04.05 11:37  
Автор: PS <PS> Статус: Elderman
<"чистая" ссылка>
> Спасибо за столь скурпулёзное обьяснение, но хотелось
> услышать немного другое. Во первых интересно как получить
> страницу загруженную в массив, но и с этим разобрался,
> через fileopen или socketopen заработало, но почему-то не
> грузятся страници из www2 нета. Возможно что при работе с
> сокетом я указываю 80 порт, а нужен какой другой?
> Хотелось бы поподробнее узнать про эту проблемму, может кто
> сталкивался...

1. Открываешь соединение с удаенным web сервером.
Если открыть не удалось, например, нет такого ip или порт никто не слушает - обламываешся.
Ремарк: необходимо помнить, что порт необходимо указать в "сетевом формате", т.е. для C кода, например, написать что-то типа port = htons( port );

2. Используя протокол HTTP получаешь необходимые данные (о протоколе информации в нете полно).
Если получить данные не удалось, то либо криво написан запрос, либо это совсем не web сервер - сидишь и разбираешся ;)
Ремарк: в зависимости от типа запроса GET или POST результат может быть различен.
1




Rambler's Top100
Рейтинг@Mail.ru


  Copyright © 2001-2025 Dmitry Leonov   Page build time: 0 s   Design: Vadim Derkach