Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.

robots.txt i google

[es] :: Pretraživači i SEO :: robots.txt i google

[ Pregleda: 5280 | Odgovora: 9 ] > FB > Twit

Postavi temu Odgovori

Autor

Pretraga teme: Traži
Markiranje Štampanje RSS

Gojko Vujovic
Amsterdam, NL

Administrator
Član broj: 1
Poruke: 13651



+165 Profil

icon robots.txt i google13.05.2003. u 01:31 - pre 254 meseci
Da li gugl sluša direktive iz robots.txt fajla?

Ipak je posetio i keširao ove stranice: http://216.239.33.104/search?q...itesecurity.org/tema/18589.txt

Iako mislim da sam lepo rekao pravilom da ih ne posećuje i ne kešira:
Disallow: .txt

Možda treba regexp ili nekako drugačije da se složi ovo?
Ili ću morati da zabranjujem svemu sa googlebot.com domena da pristupa tim txt adresama?
 
Odgovor na temu

Gojko Vujovic
Amsterdam, NL

Administrator
Član broj: 1
Poruke: 13651



+165 Profil

icon Re: robots.txt i google13.05.2003. u 01:32 - pre 254 meseci
I drugo pitanje, zašto ne kešira CSS i slike:

http://216.239.33.104/search?q...w.elitesecurity.org/tema/18589
 
Odgovor na temu

Veljko
Beograd

Član broj: 967
Poruke: 1172
*.absolutok.com

Sajt: veljko.net


+1 Profil

icon Re: robots.txt i google13.05.2003. u 11:21 - pre 254 meseci
Mislim da google-u ne mozes da bas objasnis sta da ne kesitra.
On je skoro postao najveci spy servis na netu.
Cak pretrazuje word i excel dokumente, a mozda i njih kesira.

Sto se tice css i slika i konkretno onog drugog linka meni prikazuje normalo mozda sto ih imam u kesu.
Evo sta sve google pretrazuje:
Adobe Portable Document Format (pdf)
Adobe PostScript (ps)
Lotus 1-2-3 (wk1, wk2, wk3, wk4, wk5, wki, wks, wku)
Lotus WordPro (lwp)
MacWrite (mw)
Microsoft Excel (xls)
Microsoft PowerPoint (ppt)
Microsoft Word (doc)
Microsoft Works (wks, wps, wdb)
Microsoft Write (wri)
Rich Text Format (rtf)
Text (ans, txt)
 
Odgovor na temu

Gojko Vujovic
Amsterdam, NL

Administrator
Član broj: 1
Poruke: 13651



+165 Profil

icon Re: robots.txt i google13.05.2003. u 12:06 - pre 254 meseci
+ sve to isto gzipovano!
 
Odgovor na temu

Shadowed
Vojvodina

Član broj: 649
Poruke: 12846



+4783 Profil

icon Re: robots.txt i google13.05.2003. u 17:25 - pre 254 meseci
Ma, bre, oni mlate lovu da bi unapredili spijunsku tehniku a cilj im je da izvuku sve moguce informacije. Koliko je samo nedozvoljenih pristupa bilo kad je postojao neki bug u serverskom software-u...

P.S. Ovo je moje misljenje nemam ama bas nikakvih dokaza ;)
 
Odgovor na temu

filmil
Filip Miletić
Oce Technologies B.V., inženjer
hardvera
Arcen, NL

Član broj: 243
Poruke: 2114
*.et.tudelft.nl

Jabber: filmil@jabber.org
ICQ: 36601391


+3 Profil

icon Re: robots.txt i google13.05.2003. u 18:45 - pre 254 meseci

Pa ajde da probamo da pronađemo posredan dokaz. Ako se prošetate do stranice tipa koji se zove Piter Norvig (Peter Norvig), a koji je inače vodeći svetski AI istraživač i koautor knjige Artificial Intelligence, A Modern Approach (u stručnim krugovima zvane kratko: the Bible), videćete da on radi u Guglu.

A šta je broj jedan istraživanje u modernoj veštačkoj inteligenciji? Upravo data mining, odnosno na našem: bunarenje podataka. Dakle pretraživanje svega i svačega i iz toga izvlačenje samo ključnih informacija. Ako se dakle pitate da li vas Veliki Brat posmatra, odgovor je potvrdan. Štaviše, veliki brat je življi i oseća se bolje nego ikad.

f
 
Odgovor na temu

turncoat
Bg, Kg, Va

Član broj: 4063
Poruke: 241
*.rcub.bg.ac.yu

Sajt: marko.uskokovic.name


Profil

icon Re: robots.txt i google13.05.2003. u 19:45 - pre 254 meseci
Citat:
Gojko Vujovic:
I drugo pitanje, zašto ne kešira CSS i slike:

http://216.239.33.104/search?q...w.elitesecurity.org/tema/18589


Pogledaj source tvoje strane:
Code:

(...)
<base href="http://www.elitesecurity.org/">
(...)
<link rel="stylesheet" title="new" href="stil1.css" type="text/css" />
(...)


A pogledaj šta je google keširao:
Code:

<base HREF="http://www.elitesecurity.org/tema/18589">
(...)
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
<base href="http://www.elitesecurity.org/">
(...)

Čini mi se da pošto je base element dvaputa ispisan i on traži css fajl relativno u odnosu na prvu adresu (adresu strane), umesto u odnosu na tvoju (adresu sajta)...
Ako pogledaš http://216.239.33.104/search?q=cache:http://insomnia.bgserver.com primetićeš da se css elementi lepo vide:
Code:

<base HREF="http://insomnia.bgserver.com/">
(...)
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html lang="sr">
<head>
<link rel="stylesheet" title="Paper (Default)" href="paper.css" type="text/css">

Kod mene i nema dva base elementa, ali pošto je stranica index.html google je za base useo korenu adresu...
Ne znam da li je u pitanju bug kod google-a ili nešto drugo...


"Ako hoćeš da saznaš, pristani na sve"
- Džoni Štulić
 
Odgovor na temu

Aleksandar Marković
Part Time Freelance Journalist

Član broj: 219
Poruke: 5220
*.mediaworksit.net.

Sajt: www.akcenat.info


+8 Profil

icon Re: robots.txt i google17.12.2004. u 12:41 - pre 234 meseci
http://www.robotstxt.org/wc/exclusion.html
http://hacks.oreilly.com/pub/h/220

http://www.google.com/custom?i...tesearch=www.elitesecurity.org
 
Odgovor na temu

shoba

Član broj: 9447
Poruke: 134
*.vdial.verat.net.



Profil

icon Re: robots.txt i google28.12.2004. u 01:31 - pre 234 meseci
Moguce da gresim, a mozda nesto od sledeceg i ima nekog rezona

Citat:
Gojko Vujovic: Da li gugl sluša direktive iz robots.txt fajla?


Googlovci kazu da nece kesirati ono sto mu kazes da ne kesira. Mozda to stavlja na posebno mesto (da se nadje )mada ne verujem! Ako je i kesirao nesto pre ce biti da je greska u algoritmu ili propust u podesavanjima sa klijentske strane.

Citat:
Veljko: Cak pretrazuje word i excel dokumente, a mozda i njih kesira.


Google se trudi da bude pretrazivac informacija a ne html/php/asp stranica, pa shodno tome sve sto sadrzi informaciju preuzme i pokusava da poveze u smislene celine.

Citat:
Shadowed: Ma, bre, oni mlate lovu da bi unapredili spijunsku tehniku a cilj im je da izvuku sve moguce informacije.


Ne bih bas rekao, mada ... Oni mlate lovu na reklamama (AdWords i AdSense). A za reklame koje su u vezi teksta u vasem mejlu na gmailu kazu da se generisu u hodu dok gmail salje mejl sa servera klijentu...

Pozdrav!
 
Odgovor na temu

Radovan__III
Radovan__III
Beograd

Član broj: 15669
Poruke: 1245
*.vdial.verat.net.



+26 Profil

icon Re: robots.txt i google28.12.2004. u 21:37 - pre 234 meseci
hmm http://www.google.com/robots.txt

oni ga koriste :)
Aj sad svi u biblioteku da nesto pojedemo i popijemo ...
--------------------------------
Knjigovodstvo

 
Odgovor na temu

[es] :: Pretraživači i SEO :: robots.txt i google

[ Pregleda: 5280 | Odgovora: 9 ] > FB > Twit

Postavi temu Odgovori

Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.