ZALOGUJ SIĘ
login:
hasło:
przypomnij hasło
załóż konto użytkownika
(i zobacz kilka porad gratis)
   
WYSZUKIWARKA I DZIAŁY
całe porady  tytuły
zaznacz działy do przeszukania
(brak wyboru = wszystkie działy)
PHP
MySQL >
PostgreSQL
SQLite
Perl
Java
XML
XSLT
XPath
WML
SVG
RegExp
Wyszukiwarki
Ochrona
VBScript
Google Plus
XHTML/CSS
JavaScript
Grafika
Flash
Photoshop
Windows
Linux
Bash
Apache
Procmail
E-biznes
Explorer
Opera
Firefox
Inne porady
   
KURSY, DOKUMENTACJE
Własne:
XHTML/CSS
JavaScript
ActionScript
WML, RSS, SSI
Pozostałe:
PHP
MySQL
Java API
więcej...
   
użytkowników online: 9
W CZYM MOGĘ POMÓC?


   
OPINIE UŻYTKOWNIKÓW
Nie jestem webmasterem, ale i na mnie zrobiła wrażenie szybkość reakcji Darka na mój problem. Jego kompetencja i przede wszystkim zupełnie niemodna w dzisiejszych skomercjalizowanych czasach - zwykła ludzka życzliwość dla innego człowieka. Tacy ludzie to dziś gatunek niemal wymarły...

Leszek
Wojskowy Instytut Medyczny

   
GALERIA FOTOGRAFII
   
PORADY - tysiące sprawdzonych rozwiązań dla programistów i webmasterów
aktualizacja porady: 2007-01-17 13:13:02

[Perl][Apache] Jak sprawdzić w logach serwera (access), które pliki pobierał określony robot (agent) lub przeglądarka?

PROBLEM

Chcesz sprawdzić, do jakich zasobów odwoływała się przeglądarka lub robot.

ROZWIĄZANIEnoselect

Analizując logi serwera Apache, możesz znaleźć różne roboty i przeglądarki. Aby dowiedzieć się, po które pliki sięgała przeglądarka, wystarczy przeszukać log na okoliczność wystąpienia określonego robota sieciowego (agenta). Możesz w ten sposób dokonać analizy i w razie problemów zablokować robota, aby chronić serwer przed atakami.

Niech to będzie jakiś przykładowy log z poniższym fragmentem:

83.5.143.81 - - [14/Jan/2007:01:01:38 +0100] "GET /img_t/00/03/99t.jpg HTTP/1.1" 200 1855 "http://algorytmy.pl/" "Mozilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.8.1.1) Gecko/20061204 Firefox/2.0.0.1"
66.249.72.233 - - [14/Jan/2007:01:01:41 +0100] "GET /grzyby/?k=1.1.3.1.13 HTTP/1.1" 302 222 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.72.233 - - [14/Jan/2007:01:01:54 +0100] "GET /grzyby/?k=2.3.5.1.4 HTTP/1.1" 302 222 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
85.198.194.201 - - [14/Jan/2007:01:02:03 +0100] "GET /o/g/button-80x15-01.gif HTTP/1.1" 200 515 "http://programy-partnerskie.promocje.biz/google_adsense.htm" "Opera/9.10 (Windows NT 5.1; U; en)"
66.249.72.233 - - [14/Jan/2007:01:02:06 +0100] "GET /?id=2142 HTTP/1.1" 200 6116 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.72.233 - - [14/Jan/2007:01:02:18 +0100] "GET /doc/xhtml/?id=3083 HTTP/1.1" 200 4808 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
83.13.5.2 - - [14/Jan/2007:01:02:24 +0100] "GET /o/g/button-80x15-01.gif HTTP/1.1" 304 - "http://www.sensiman.pl/site.php?show=zasady&lang=polish" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MEGAUPLOAD 1.0; .NET CLR 2.0.50727)"
66.249.72.233 - - [14/Jan/2007:01:02:31 +0100] "GET /doc/xhtml/?id=3122 HTTP/1.1" 200 5649 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
219.134.217.205 - - [14/Jan/2007:01:02:35 +0100] "GET / HTTP/1.1" 200 - "-" "Mozilla/3.0 (compatible; Indy Library)"
66.249.72.233 - - [14/Jan/2007:01:02:37 +0100] "GET /doc/php-en/ref.mysqli.php HTTP/1.1" 200 22174 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Jednym z robotów jest np. azjatycki, strasznie męczący bot Indy Library (czyli agent Mozilla/3.0 (compatible; Indy Library)). Chciałbym wiedzieć, do jakich zasobów sięgał, np.:

222.131.98.14 - - [16/Jan/2007:00:30:26 +0100] "GET / HTTP/1.1" 403 1 "-" "Mozilla/3.0 (compatible; Indy Library)"
222.131.98.14 - - [16/Jan/2007:00:30:34 +0100] "GET / HTTP/1.1" 403 1 "-" "Mozilla/3.0 (compatible; Indy Library)"
58.60.90.75 - - [16/Jan/2007:00:30:56 +0100] "GET / HTTP/1.1" 403 1 "-" "Mozilla/3.0 (compatible; Indy Library)"
58.60.90.75 - - [16/Jan/2007:00:31:08 +0100] "GET / HTTP/1.1" 403 1 "-" "Mozilla/3.0 (compatible; Indy Library)"
222.188.36.10 - - [16/Jan/2007:00:32:45 +0100] "GET / HTTP/1.1" 403 1 "-" "Mozilla/3.0 (compatible; Indy Library)"
222.188.36.10 - - [16/Jan/2007:00:32:48 +0100] "GET / HTTP/1.1" 403 1 "-" "Mozilla/3.0 (compatible; Indy Library)"
219.141.21.137 - - [16/Jan/2007:00:34:51 +0100] "GET / HTTP/1.1" 403 1 "-" "Mozilla/3.0 (compatible; Indy Library)"
219.141.21.137 - - [16/Jan/2007:00:34:57 +0100] "GET / HTTP/1.1" 403 1 "-" "Mozilla/3.0 (compatible; Indy Library)"
58.61.50.254 - - [16/Jan/2007:00:36:33 +0100] "GET / HTTP/1.1" 403 1 "-" "Mozilla/3.0 (compatible; Indy Library)"
219.134.145.53 - - [16/Jan/2007:00:36:36 +0100] "GET / HTTP/1.1" 403 1 "-" "Mozilla/3.0 (compatible; Indy Library)"
219.134.145.53 - - [16/Jan/2007:00:36:44 +0100] "GET / HTTP/1.1" 403 1 "-" "Mozilla/3.0 (compatible; Indy Library)"
58.61.50.254 - - [16/Jan/2007:00:36:44 +0100] "GET / HTTP/1.1" 403 1 "-" "Mozilla/3.0 (compatible; Indy Library)"
58.61.50.254 - - [16/Jan/2007:00:39:55 +0100] "GET / HTTP/1.1" 403 1 "-" "Mozilla/3.0 (compatible; Indy Library)"

Widać, że był niegrzeczny (już wcześniej go blokowałem, więc nic nie pobrał, stąd 403). Operuje z różnych IP i jest agresywny (zobacz jak często się łączy). Typowy kandydat do zablokowania.

Oto skrypt, który pokaże co robił określony agent i policzy ile razy odwoływał się do zasobów serwera:

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
UWAGA! To tylko fragment strony! Całą zobaczysz po opłaceniu abonamentu!

ZALOGUJ SIĘ I ZAMÓW ABONAMENT ABY KORZYSTAĆ Z TEJ CZĘŚCI SERWISU
login:
hasło:
przypomnij hasło
załóż konto użytkownika
(i zobacz kilka porad gratis)
Dostęp do oglądanej strony jest płatny.
Całą zawartość strony zobaczysz
po zalogowaniu się i opłaceniu abonamentu.
 
Jeżeli nie masz konta użytkownika, założ konto!
   
Oto garść powodów, dla których warto założyć konto użytkownika:
Założenie konta użytkownika jest proste i bezpłatne.
Od razu zobaczysz kilka wybranych porad gratis.
Po opłaceniu abonamentu otrzymasz dostęp do wszystkich porad.
Przystąpisz do Programu Partnerskiego, który pozwala uzyskać darmowy abonament!
Zaprenumerujesz przydatny newsletter z poradami i nowościami.
Będziesz mieć dostęp do własnej, wygodnej aktówki i profilu.
Zyskasz możliwość korzystania z różnych promocji i upustów dla klientów serwisu.
Oto garść powodów, dla których warto zamówić abonament:

W jednym miejscu znajdziesz tysiące fachowych porad, kursy, encyklopedię pojęć oraz przydatne narzędzia, dzięki czemu nie tracisz czasu, impulsów telefonicznych i pieniędzy na pozyskiwanie wiedzy. Tutaj dostaniesz gotowe i sprawdzone rozwiązania problemów, z którymi spotykasz się w praktyce.

Dzięki poradom dowiesz się, w jaki sposób wykorzystać najnowsze technologie, aby tworzyć profesjonalne serwisy i rozwiązania. Doradzę Ci, jak skonstruować i wypromować swoje strony, zwiększyć oglądalność, pozyskać klientów i rozwinąć biznes w Internecie, który będzie przynosił zyski!

Kody programów i skrypty działają natychmiast po wstawieniu ich na strony WWW. Tylko tutaj znajdziesz tak wiele unikatowych algorytmów, autorskich pomysłów i przydatnych artykułów. Dowiesz się, jak zapewnić bezpieczeństwo, zwiększyć wydajność oprogramowania i poprawić jakość serwisów WWW i baz danych.

Od kilkunastu lat zajmuję się zawodowo programowaniem oraz tworzeniem stron WWW, co gwarantuje bardzo wysoką jakość i skuteczność opisywanych rozwiązań. Potwierdzają to opinie użytkowników. Możesz też liczyć na pomoc i wsparcie przy wdrażaniu porad na własnej stronie.

Nie musisz wydawać kilku tysięcy złotych na programistów, konsultantów, promocję czy też reklamę swojej witryny. Te same efekty osiągniesz czytając porady i stosując się do konkretnej wiedzy, która podana jest w sposób przyjazny nawet dla laika.

Nigdzie nie kupisz książek, czasopism i publikacji, które w cenie abonamentu dostarczą Ci tak wiele gotowych rozwiązań. Na żadnych szkoleniach i kursach nie zdobędziesz tylu praktycznych umiejętności i wiadomości. Dzięki zdobytej wiedzy znacznie podniesiesz swoje kwalifikacje i znajdziesz o wiele lepszą pracę.

Z serwisu korzystają zarówno początkujący webmasterzy, jak i największe polskie firmy, banki, dostawcy usług internetowych, wykładowcy, webdeweloperzy oraz agencje interaktywne. To potwierdzenie jakości i wysokiego poziomu informacji - sprawdzanej i weryfikowanej w praktyce przez wielu niezależnych klientów.

Zamawiając abonament pomagasz rozwijać serwis, który będzie Ci służyć jeszcze większą ilością porad i rozwiązań, lepszym wsparciem technicznym oraz unikatowymi, fachowymi publikacjami, których realizacja wymaga ogromnych nakładów czasu i pracy.

Skorzystasz z Programu Partnerskiego - biorąc w nim udział możesz zapewnić sobie BEZPŁATNY dostęp do serwisu z poradami!

Słowa kluczowe dla porady

skrypt Perl, skrypty Perl, wyrażenia regularne, regexp, googlebot

 
  © 1996-2017 & Reporter.plo serwisieabonamentwarunki korzystaniaNocleg Dojazd MapaRSSCookieskontakt