BugTraq.Ru: форум / programming / [Unix] Ok. Скрипт тут (+) Да и описание принципа тут же.

информационная безопасность
без паники и всерьез

подробно о проекте

Анализ криптографических сетевых...

Модель надежности двухузлового...

Специальные марковские модели надежности...

Бэкдор в xz/liblzma, предназначенный...

Три миллиона электронных замков...

Doom на газонокосилках

bugtraq.ru / форум / programming

Имя

Пароль


ФОРУМ


	все доски
	FAQ
	IRC
	новые сообщения

	site updates
	guestbook
	beginners
	sysadmin
	programming
operating systems
theory
web building
software
hardware
networking
law
hacking
gadgets
job
dnet
humor
miscellaneous
scrap

регистрация

Легенда:

новое сообщение

закрытая нитка

новое сообщение

в закрытой нитке

старое сообщение

Напоминаю, что масса вопросов по функционированию форума снимается после прочтения его описания.
Новичкам также крайне полезно ознакомиться с данным документом.

[Unix] Ok. Скрипт тут (+) Да и описание принципа тут же. 11.05.01 10:51 Число просмотров: 830
Автор: KMiNT21 <http://blog.kmint21.com> Статус: Member

<"чистая" ссылка>

Этот архвив с сайта www.linux.org.ru. Я всял страницы "индексные" (с вопросами и ссылками на ответы) и обработал скриптом. А скрипт писал так, чтобы в результате у меня получился новый "индексный файл", где ссылки на ответы будут локальными, и чтобы получился файл .GRX, для импорта в GetRight...

Короче тут легко разобраться.



# Program by KMiNT21
#!perl.exe

# Для обработки форума с http://www.linux.org.ru:8101

opendir(Dir, $INC[2])                        |die "Что-то не то с функцией opendir : $!\n";

while ($file = readdir(Dir))
{
  if ($file !~m/.msg/i) { next; }
  if ($file =~m/.GRX/i) { next; }
  if ($file =~m/.NEW/i) { next; }

  open(hFile,"$file"); open(hOutFile,">$file.HTML"); open(hGrxFile,">$file.GRX"); 
  binmode hFile; binmode hOutFile; binmode hGrxFile; 

  while (!eof(hFile))
    {
    $c=f_getc(hFile);
    if ($c eq '<') { 
      $s=$c.f_getc(hFile); # это для случаев, когда попадет тэг <P> или похожий
      $s=$s.f_getc(hFile); if ($s =~m/>/i) { print hOutFile "$s"; next; }
      $s=$s.f_getc(hFile); if ($s =~m/>/i) { print hOutFile "$s"; next; }

      # Убьемвыборочносслылки "<a " (ищем анкеры)
      if ($s =~m/<a /i) { 
        $s=$s.f_getc(hFile) until ($s =~m/>/i);
        # если ссылка не на просмотр сообщения, то не будем ее трогать
        if ($s !~m/view-mess/i) { print hOutFile "$s"; next; }
        # теперь вырежем сам линк из всего анкера
        if ($s =~ /href="/) { $s = "$'"; }
        if ($s =~ /"/) { $s = "$`"; }
        # и сохраняем его, предварительно сделав его глобальным
        print hGrxFile "URL: http://www.linux.org.ru:8101/"."$s\r\n";
        # теперь вытянем из всего линка Message ID (msgid=)
        if ($s =~ /(\d+)/) { }
        # и сохраним его, добавив PATH
        print hGrxFile "FILE: c:\\$file.dir\\$1.html\r\n\r\n";
        print hOutFile "<a href=\"$file.dir\\$1.html\">";
        next;
        }
      # если ничего "такого", просто копируем и идем дальше
      print hOutFile "$s";
      }
    else # Если обычный поток данных, просто записываем в файл
      {
      print hOutFile "$c";
      }

    } # next WHILE NOT EOF

  close(hFile); close(hOutFile); close(hGrxFile);


} # enum FILES in DIR
closedir(Dir);

sub f_getc(hFile)
  {
  if (!eof(hFile)) { return getc(hFile); }
  print " - bad HTML! ";
  next; # продолжим нормально программу, если у нас глючно с тэгами. фиг с ними
  }

---

http://www.linux.org.ru

Поиск

[Unix] Програмеры! Ура! :-) Я выкачал весь архив... - KMiNT21 10.05.01 19:00 [566]
- [Unix] Програмеры! Ура! :-) Я выкачал весь архив... - NiFi... 10.05.01 19:50 [838]
  - [Unix] Програмеры! Ура! :-) Я выкачал весь архив... - KMiNT21 11.05.01 10:50 [768]
  - [Unix] Програмеры! Ура! :-) Я выкачал весь архив... - falcon_fd 11.05.01 03:42 [767]
    - [Unix] Ok. Скрипт тут (+) Да и описание принципа тут же. - KMiNT21 11.05.01 10:51 [830]
      - !!!! нет, ну какого хрена новый скрипт борды не... - KMiNT21 11.05.01 10:53 [801]
        fixed (-) - dl 11.05.01 13:21 [737]
        Great thenks! :-) (-) - KMiNT21 14.05.01 14:58 [731]
        Ладно, а если .... (test) [url] - KMiNT21 11.05.01 11:05 [728]
        Ладно, а если .... (test) [url] - KMiNT21 11.05.01 11:01 [796]

Page build time: 0 s

Design: Vadim Derkach