Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.

recept za skidanje stranice sa propratnim sadržajem

[es] :: Linux :: recept za skidanje stranice sa propratnim sadržajem

[ Pregleda: 4452 | Odgovora: 1 ] > FB > Twit

Postavi temu Odgovori

Autor

Pretraga teme: Traži
Markiranje Štampanje RSS

indy
Nikola Knežević
EPFL
Lausanne

Član broj: 3152
Poruke: 144
*.lafantana.co.yu.

Jabber: indy@elitesecurity.org


Profil

icon recept za skidanje stranice sa propratnim sadržajem04.06.2003. u 19:51 - pre 232 meseci
Pozdrav,
pokušavam da automatizujem proces skidanja stranica sa slikama sa gugla, ali mi nikako ne ide.

Naime, format putanje do slike je tipa http://images.google.com/images?tbn:blahblah, ali kako se 'direktorijum' images nalazi u robots.txt fajlu, wget je nemoćan.

Zna li neko neki drugi način, ili da zasednem i napišem perl skripticu?

Da ne bude zabune, hoću da skinem stranicu (guglovu, sa rezultatima) sa svim slikama, ali ne onima na koje ukazuje, nego onima koje omogućavaju da se stranica normalno prikaže (-p opcija wget-a). URL stranice je tipa http://images.google.com/images?q=cube&hl=sr&start=xxx, gde je xxx neki broj od kojeg počinje prikaz narednih 20 slika (rezultata).

Hvala.
:*a programmer types in code, compiles it, runs it, and waits for
it to crash. Programs that don't crash are presumed to be running
correctly." - UNIX Haters Handbook
 
Odgovor na temu

tOwk
Danilo Šegan
Zemun/Beograd

Član broj: 94
Poruke: 2743
*.beograd-3.tehnicom.net

ICQ: 9344053
Sajt: alas.matf.bg.ac.yu/~mm011..


+2 Profil

icon Re: recept za skidanje stranice sa propratnim sadržajem05.06.2003. u 13:44 - pre 232 meseci
cat wget | sed s/robots\.txt/roboti.txt/ >wget-norobots
chmod +x wget-norobots

I šta je problem?
Možda se moje mišljenje promenilo, ali ne i činjenica da sam u pravu.
 
Odgovor na temu

[es] :: Linux :: recept za skidanje stranice sa propratnim sadržajem

[ Pregleda: 4452 | Odgovora: 1 ] > FB > Twit

Postavi temu Odgovori

Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.