информационная безопасность
без паники и всерьез
 подробно о проектеRambler's Top100
Spanning Tree Protocol: недокументированное применениеСетевые кракеры и правда о деле ЛевинаАтака на Internet
BugTraq.Ru
Русский BugTraq
 Анализ криптографических сетевых... 
 Модель надежности двухузлового... 
 Специальные марковские модели надежности... 
 Бэкдор в xz/liblzma, предназначенный... 
 Три миллиона электронных замков... 
 Doom на газонокосилках 
главная обзор RSN блог библиотека закон бред форум dnet о проекте
bugtraq.ru / форум / programming
Имя Пароль
ФОРУМ
все доски
FAQ
IRC
новые сообщения
site updates
guestbook
beginners
sysadmin
programming
operating systems
theory
web building
software
hardware
networking
law
hacking
gadgets
job
dnet
humor
miscellaneous
scrap
регистрация





Легенда:
  новое сообщение
  закрытая нитка
  новое сообщение
  в закрытой нитке
  старое сообщение
  • Напоминаю, что масса вопросов по функционированию форума снимается после прочтения его описания.
  • Новичкам также крайне полезно ознакомиться с данным документом.
все хранить в уникоде, запросы делать в той кодировке,... 29.06.06 18:49  Число просмотров: 2264
Автор: arto Статус: Незарегистрированный пользователь
<"чистая" ссылка>
> Есть задача написания умного вэб спайдера/харвестера. Для
> этого использую сначала LWP, котрым сохраняю страницу в кэш
> на диске примерно так:
>
> ':content_cb' => sub{
> my ($chunk, $res, $proto) = @_;
> {
> use bytes;
> $total_received += length($chunk);
> }
> die() if $total_received/1024/1024 >
> $param{parse_file_max_size};
> print W $chunk;
> },
> После чего натравливаю на него HTML::Parser.
> $p->parse_file()
>
> Как корректно разрулить вопрос с кодировками? То есть будет
> ли HTML::Parser корректно разбирать файлы, не зная что там
> внутрях? В основном, конечно вопрос касаемо юникода.
> Если пытаться энкодить все получаемое в UTF8, то насколько
> я понимаю, может получиться, что отправляя последующие
> запросы я буду давать параметры запроса в неверной
> кодировке и ничего не получать обратно.. То есть
> неюникодные ресурсы могут на меня за такое обидеться.
> Как сделать универсально?

все хранить в уникоде, запросы делать в той кодировке, какую просят.
<programming> Поиск 






Rambler's Top100
Рейтинг@Mail.ru


  Copyright © 2001-2024 Dmitry Leonov   Page build time: 0 s   Design: Vadim Derkach