Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.

robots.txt i google

[es] :: Pretraživači i SEO :: robots.txt i google

[ Pregleda: 3345 | Odgovora: 9 ] > FB > Twit

Postavi temu Odgovori

Autor

Pretraga teme: Traži
Markiranje Štampanje RSS

Gojko Vujovic
Amsterdam, NL

Administrator
Član broj: 1
Poruke: 13394
*.elitesecurity.org.

Sajt: www.gojkovujovic.com


Profil

icon robots.txt i google13.05.2003. u 01:31

Da li gugl sluša direktive iz robots.txt fajla?

Ipak je posetio i keširao ove stranice: http://216.239.33.104/search?q...itesecurity.org/tema/18589.txt

Iako mislim da sam lepo rekao pravilom da ih ne posećuje i ne kešira:
Disallow: .txt

Možda treba regexp ili nekako drugačije da se složi ovo?
Ili ću morati da zabranjujem svemu sa googlebot.com domena da pristupa tim txt adresama?
13.05.2003. u 01:31 

Gojko Vujovic
Amsterdam, NL

Administrator
Član broj: 1
Poruke: 13394
*.elitesecurity.org.

Sajt: www.gojkovujovic.com


Profil

icon Re: robots.txt i google13.05.2003. u 01:32
I drugo pitanje, zašto ne kešira CSS i slike:

http://216.239.33.104/search?q...w.elitesecurity.org/tema/18589
13.05.2003. u 01:32 

Veljko
Beograd

Član broj: 967
Poruke: 1171
*.absolutok.com

Sajt: gizmo.rs


Profil

icon Re: robots.txt i google13.05.2003. u 11:21
Laptopovi

Mislim da google-u ne mozes da bas objasnis sta da ne kesitra.
On je skoro postao najveci spy servis na netu.
Cak pretrazuje word i excel dokumente, a mozda i njih kesira.

Sto se tice css i slika i konkretno onog drugog linka meni prikazuje normalo mozda sto ih imam u kesu.
Evo sta sve google pretrazuje:
Adobe Portable Document Format (pdf)
Adobe PostScript (ps)
Lotus 1-2-3 (wk1, wk2, wk3, wk4, wk5, wki, wks, wku)
Lotus WordPro (lwp)
MacWrite (mw)
Microsoft Excel (xls)
Microsoft PowerPoint (ppt)
Microsoft Word (doc)
Microsoft Works (wks, wps, wdb)
Microsoft Write (wri)
Rich Text Format (rtf)
Text (ans, txt)
13.05.2003. u 11:21 

Gojko Vujovic
Amsterdam, NL

Administrator
Član broj: 1
Poruke: 13394
*.elitesecurity.org.

Sajt: www.gojkovujovic.com


Profil

icon Re: robots.txt i google13.05.2003. u 12:06
+ sve to isto gzipovano!
13.05.2003. u 12:06 

Shadowed
.NET developer

Administrator
Član broj: 649
Poruke: 10608
*.etf.bg.ac.yu



Profil

icon Re: robots.txt i google13.05.2003. u 17:25
Ma, bre, oni mlate lovu da bi unapredili spijunsku tehniku a cilj im je da izvuku sve moguce informacije. Koliko je samo nedozvoljenih pristupa bilo kad je postojao neki bug u serverskom software-u...

P.S. Ovo je moje misljenje nemam ama bas nikakvih dokaza ;)
Against stupidity the gods themselves contend in vain
13.05.2003. u 17:25 

filmil
Filip Miletić
Oce Technologies B.V., inženjer
hardvera
Arcen, NL

Član broj: 243
Poruke: 2114
*.et.tudelft.nl

Jabber: filmil@jabber.org
ICQ: 36601391


Profil

icon Re: robots.txt i google13.05.2003. u 18:45

Pa ajde da probamo da pronađemo posredan dokaz. Ako se prošetate do stranice tipa koji se zove Piter Norvig (Peter Norvig), a koji je inače vodeći svetski AI istraživač i koautor knjige Artificial Intelligence, A Modern Approach (u stručnim krugovima zvane kratko: the Bible), videćete da on radi u Guglu.

A šta je broj jedan istraživanje u modernoj veštačkoj inteligenciji? Upravo data mining, odnosno na našem: bunarenje podataka. Dakle pretraživanje svega i svačega i iz toga izvlačenje samo ključnih informacija. Ako se dakle pitate da li vas Veliki Brat posmatra, odgovor je potvrdan. Štaviše, veliki brat je življi i oseća se bolje nego ikad.

f
13.05.2003. u 18:45 

turncoat
Marko Uskokovic
Bg, Kg, Va

Član broj: 4063
Poruke: 241
*.rcub.bg.ac.yu

Jabber: uskokovic@gmail.com
ICQ: 304009317
Sajt: marko.uskokovic.name


Profil

icon Re: robots.txt i google13.05.2003. u 19:45
Citat:
Gojko Vujovic:
I drugo pitanje, zašto ne kešira CSS i slike:

http://216.239.33.104/search?q...w.elitesecurity.org/tema/18589


Pogledaj source tvoje strane:
Code:

(...)
<base href="http://www.elitesecurity.org/">
(...)
<link rel="stylesheet" title="new" href="stil1.css" type="text/css" />
(...)


A pogledaj šta je google keširao:
Code:

<base HREF="http://www.elitesecurity.org/tema/18589">
(...)
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
<base href="http://www.elitesecurity.org/">
(...)

Čini mi se da pošto je base element dvaputa ispisan i on traži css fajl relativno u odnosu na prvu adresu (adresu strane), umesto u odnosu na tvoju (adresu sajta)...
Ako pogledaš http://216.239.33.104/search?q=cache:http://insomnia.bgserver.com primetićeš da se css elementi lepo vide:
Code:

<base HREF="http://insomnia.bgserver.com/">
(...)
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html lang="sr">
<head>
<link rel="stylesheet" title="Paper (Default)" href="paper.css" type="text/css">

Kod mene i nema dva base elementa, ali pošto je stranica index.html google je za base useo korenu adresu...
Ne znam da li je u pitanju bug kod google-a ili nešto drugo...


"Ako hoćeš da saznaš, pristani na sve"
- Džoni Štulić
13.05.2003. u 19:45 

Aleksandar Marković
Part Time Freelance Journalist

Član broj: 219
Poruke: 5223
*.mediaworksit.net.

Sajt: www.akcenat.info


Profil

icon Re: robots.txt i google17.12.2004. u 12:41
http://www.robotstxt.org/wc/exclusion.html
http://hacks.oreilly.com/pub/h/220

http://www.google.com/custom?i...tesearch=www.elitesecurity.org
17.12.2004. u 12:41 

shoba

Član broj: 9447
Poruke: 134
*.vdial.verat.net.



Profil

icon Re: robots.txt i google28.12.2004. u 01:31
Moguce da gresim, a mozda nesto od sledeceg i ima nekog rezona

Citat:
Gojko Vujovic: Da li gugl sluša direktive iz robots.txt fajla?


Googlovci kazu da nece kesirati ono sto mu kazes da ne kesira. Mozda to stavlja na posebno mesto (da se nadje )mada ne verujem! Ako je i kesirao nesto pre ce biti da je greska u algoritmu ili propust u podesavanjima sa klijentske strane.

Citat:
Veljko: Cak pretrazuje word i excel dokumente, a mozda i njih kesira.


Google se trudi da bude pretrazivac informacija a ne html/php/asp stranica, pa shodno tome sve sto sadrzi informaciju preuzme i pokusava da poveze u smislene celine.

Citat:
Shadowed: Ma, bre, oni mlate lovu da bi unapredili spijunsku tehniku a cilj im je da izvuku sve moguce informacije.


Ne bih bas rekao, mada ... Oni mlate lovu na reklamama (AdWords i AdSense). A za reklame koje su u vezi teksta u vasem mejlu na gmailu kazu da se generisu u hodu dok gmail salje mejl sa servera klijentu...

Pozdrav!
28.12.2004. u 01:31 

Radovan__III
Radovan__III
Beograd

Član broj: 15669
Poruke: 1189
*.vdial.verat.net.



Profil

icon Re: robots.txt i google28.12.2004. u 21:37
hmm http://www.google.com/robots.txt

oni ga koriste :)
Aj sad svi u biblioteku da nesto pojedemo i popijemo ...
--------------------------------
Knjigovodstvo

28.12.2004. u 21:37 

[es] :: Pretraživači i SEO :: robots.txt i google

[ Pregleda: 3345 | Odgovora: 9 ] > FB > Twit

Postavi temu Odgovori

Navigacija
Lista poslednjih: 16, 32, 64, 128 poruka.