BugTraq.Ru: форум / web building / тут нужен HTML парсер.

информационная безопасность
без паники и всерьез

подробно о проекте

Анализ криптографических сетевых...

Модель надежности двухузлового...

Специальные марковские модели надежности...

Очередное исследование 19 миллиардов...

Оптимизация ввода-вывода как инструмент...

Зловреды выбирают Lisp и Delphi

bugtraq.ru / форум / web building

Имя

Пароль

если вы видите этот текст, отключите в настройках форума использование JavaScript


ФОРУМ


	все доски
	FAQ
	IRC
	новые сообщения

	site updates
	guestbook
	beginners
	sysadmin
	programming
	operating systems
	theory
	web building
software
hardware
networking
law
hacking
gadgets
job
dnet
humor
miscellaneous
scrap

регистрация

Легенда:

новое сообщение

закрытая нитка

новое сообщение

в закрытой нитке

старое сообщение

Напоминаю, что масса вопросов по функционированию форума снимается после прочтения его описания.
Новичкам также крайне полезно ознакомиться с данным документом.

тут нужен HTML парсер. 12.04.05 14:22 Число просмотров: 3217
Автор: БЖ Статус: Незарегистрированный пользователь

<"чистая" ссылка>

> Необходимо получиться данные с лефой странице интернета,
> т.е. просто загрузить, допустим в массив. Задачка конечно
> простая, но так как я этого ещшё не деалл и инфы найти не
> могу, всё осложняется. Если кто уже работал с подобным
> прошу помочь, поделиться ссылкой или наставить на путь
> разума!
> Заранее спасибо
результат выполнения PHP интернет страницы - есть HTML.
HTML - это Hyper Text Markup Language - потомок XML, правда немного извращенный современными браузерами, но эту концепцию использовать можно.
Инфа в HTML страницах, как правило, находится внутри таблиц, описанных тэгом <table> и дочерними к нему. К тому же нужно четко знать в каком месте находится твоя инфа. А так как её положение может меняться в зависимости о дизайна, вариантов использования страницы и т.п.
Вобщем преобразование сводится к разбору таблиц. А это простейшие операции с текстом.

РНР парсер, примитив... 12.04.05 01:32
Автор: CrazyPitbull Статус: Незарегистрированный пользователь

<"чистая" ссылка>

Необходимо получиться данные с лефой странице интернета, т.е. просто загрузить, допустим в массив. Задачка конечно простая, но так как я этого ещшё не деалл и инфы найти не могу, всё осложняется. Если кто уже работал с подобным прошу помочь, поделиться ссылкой или наставить на путь разума!
Заранее спасибо

тут нужен HTML парсер. 12.04.05 14:22
Автор: БЖ Статус: Незарегистрированный пользователь

<"чистая" ссылка>

Спасибо за столь скурпулёзное обьяснение, но хотелось... 14.04.05 09:45
Автор: CrazyPitbull Статус: Незарегистрированный пользователь

<"чистая" ссылка>

> результат выполнения PHP интернет страницы - есть HTML.
> HTML - это Hyper Text Markup Language - потомок XML, правда
> немного извращенный современными браузерами, но эту
> концепцию использовать можно.
> Инфа в HTML страницах, как правило, находится внутри
> таблиц, описанных тэгом <table> и дочерними к нему. К
> тому же нужно четко знать в каком месте находится твоя
> инфа. А так как её положение может меняться в зависимости о
> дизайна, вариантов использования страницы и т.п.
> Вобщем преобразование сводится к разбору таблиц. А это
> простейшие операции с текстом.

Спасибо за столь скурпулёзное обьяснение, но хотелось услышать немного другое. Во первых интересно как получить страницу загруженную в массив, но и с этим разобрался, через fileopen или socketopen заработало, но почему-то не грузятся страници из www2 нета. Возможно что при работе с сокетом я указываю 80 порт, а нужен какой другой?
Хотелось бы поподробнее узнать про эту проблемму, может кто сталкивался...

Насчет fopen и www 14.04.05 13:36
Автор: J'JF <Dmytro Volhushyn> Статус: Elderman

<"чистая" ссылка>

> через fileopen или socketopen заработало, но почему-то не
> грузятся страници из www2 нета.

Я правильно понял - пишешь ты это все на php?
В таком случае ты, наверное, имел в виду fopen?
Посмотри, в php.ini есть параметр allow_url_fopen.
Для того, чтобы fopen мог брать файло не только с файловой системы, но и по сетевым протоколам, нужно в php.ini указать
allow_url_fopen = On

Странный вопрос... а в чем проблема? 14.04.05 11:37
Автор: PS <PS> Статус: Elderman

<"чистая" ссылка>

> Спасибо за столь скурпулёзное обьяснение, но хотелось
> услышать немного другое. Во первых интересно как получить
> страницу загруженную в массив, но и с этим разобрался,
> через fileopen или socketopen заработало, но почему-то не
> грузятся страници из www2 нета. Возможно что при работе с
> сокетом я указываю 80 порт, а нужен какой другой?
> Хотелось бы поподробнее узнать про эту проблемму, может кто
> сталкивался...

1. Открываешь соединение с удаенным web сервером.
Если открыть не удалось, например, нет такого ip или порт никто не слушает - обламываешся.
Ремарк: необходимо помнить, что порт необходимо указать в "сетевом формате", т.е. для C кода, например, написать что-то типа port = htons( port );

2. Используя протокол HTTP получаешь необходимые данные (о протоколе информации в нете полно).
Если получить данные не удалось, то либо криво написан запрос, либо это совсем не web сервер - сидишь и разбираешся ;)
Ремарк: в зависимости от типа запроса GET или POST результат может быть различен.

Page build time: 0 s

Design: Vadim Derkach