Легенда:
новое сообщение
закрытая нитка
новое сообщение
в закрытой нитке
старое сообщение
|
- Напоминаю, что масса вопросов по функционированию форума снимается после прочтения его описания.
- Новичкам также крайне полезно ознакомиться с данным документом.
[Perl] Парсинг WEB страниц и кодировки 29.06.06 17:33 Число просмотров: 2466
Автор: TLoD,Snake Статус: Незарегистрированный пользователь
|
Есть задача написания умного вэб спайдера/харвестера. Для этого использую сначала LWP, котрым сохраняю страницу в кэш на диске примерно так:
':content_cb' => sub{
my ($chunk, $res, $proto) = @_;
{
use bytes;
$total_received += length($chunk);
}
die() if $total_received/1024/1024 > $param{parse_file_max_size};
print W $chunk;
},
После чего натравливаю на него HTML::Parser. $p->parse_file()
Как корректно разрулить вопрос с кодировками? То есть будет ли HTML::Parser корректно разбирать файлы, не зная что там внутрях? В основном, конечно вопрос касаемо юникода.
Если пытаться энкодить все получаемое в UTF8, то насколько я понимаю, может получиться, что отправляя последующие запросы я буду давать параметры запроса в неверной кодировке и ничего не получать обратно.. То есть неюникодные ресурсы могут на меня за такое обидеться.
Как сделать универсально?
|
- [Perl] Парсинг WEB страниц и кодировки - TLoD,Snake 29.06.06 17:33 [2466]
|
|
|