Googlebot-image/1.0

Versiune printabilă

16th March 2006, 11:47
horatium

studiind log-ul am gasit urmatoarele:

2006-03-15 10:10:06 69.49.230.8 - 82.79.34.18 80 GET /index.asp - 200 - -
2006-03-15 10:27:54 66.249.65.16 - 82.79.34.18 80 HEAD /pics/catel.jpg - 404 Googlebot-Image/1.0 -

dupa care urmeaza o succesiune de "IP de google... HEAD ... 404 Googlebot-Image/1.0" la diferite intervale de timp (1h, 2h, 5h). fisierele pe care le cauta google cu HEAD sunt din vechea pagina care nu mai este de 2 luni.

69.49.230.8 apartine:
OrgName: Hosting-Network GmbH
OrgID: HOSTI-3
Address: 247 Mitch Lane
City: Hopkinsville
StateProv: KY
PostalCode: 42240
Country: US

observati metoda HEAD in loc de GET.

am cautat diferentele intre HEAD si GET si iata ce am gasit:

"The HEAD method is identical to GET except that the server MUST NOT return a message-body in the response. The metainformation contained in the HTTP headers in response to a HEAD request SHOULD be identical to the information sent in response to a GET request. This method can be used for obtaining metainformation about the entity implied by the request without transferring the entity-body itself. This method is often used for testing hypertext links for validity, accessibility, and recent modification.

The response to a HEAD request MAY be cacheable in the sense that the information contained in the response MAY be used to update a previously cached entity from that resource. If the new field values indicate that the cached entity differs from the current entity (as would be indicated by a change in Content-Length, Content-MD5, ETag or Last-Modified), then the cache MUST treat the cache entry as stale. "
sursa: http://www.w3.org

deci am tras concluzia ca googlebot a vrut numai sa vada daca mai sunt actuale referintele pe care le avea din vechea pagina si a vazut ca nu sunt. insa de azi pagina mea www.klin.ro nu mai apare pe pozitia fruntasa pe care o ocupa pana ieri dupa "incaltaminte copii". daca am dat cache:www.klin.ro am vazut varianta din 9 martie, dar dupa cum am mai lamurit pe alte threaduri din forum, exista mai multe datacentere ale google si se pare ca fiecare are alta varianta.

intrebare: are legatura .. HEAD .. 404 Googlebot-Image/1.0 cu faptul ca am cazut din search sau nu? fisierele care le cauta sunt mult mai vechi decat versiunea pe care o indexase ultima data.
16th March 2006, 12:21
serban

de obicei cu HEAD se verifica headerul, eu stiu ca un crawler face asta din urmatoarele motive: verifica HTTP response ca sa stie daca indexeaza sau sterge din index continutul, verifica paginile cu continut random pentru a le clasifica in acest fel, in functie de server verifica daca s-au efectuat modificari la pagina respectiva si daca mai are rost sa indexeze (If-Modified-Since).

nu cred ca are legatura faptul ca anumite poze nu mai exista pe pagina, cu caderea ta in google, ar fi absurd.
16th March 2006, 12:54
horatium

in principiu asa ma gandeam si eu, dar voiam sa fiu sigur :)

pe de alta parte, am cautat info despre Googlebot-image/1.0 si nu am gasit nimic relevant (cum a fost cazul Mediapartners-Google/2.1), de aceea ma gandeam ca e util topicul pentru a lamuri problema acestui bot.

ideea e ca dupa ce Googlebot-image/1.0 a studiat cu HEAD fisierele pe care le voia el, ma asteptam sa revina cu googlebot crawler clasic. se pare ca n-a fost asa.

pe de alta parte, dupa cum banuiam si mai devreme, acele mai multe datacentere ale Google au fiecare propria lor varianta, iar la cautare si rezultatele difera. acum sunt din nou pe pozitia fruntasa de ieri, deci singura concluzie pe care pot sa o trag este ca am ajuns cu requestul pe un alt server decat de dimineata.

ma gandesc insa la urmatorul aspect: daca raspunsurile difera intre servere, inseamna ca rezultatul la ceea ce cauti acum difera de rezultatul pe care l-ai primit in urma cu 1h si poate diferi si de cel de peste 1h. nu ar fi logic ca raspunsul unui motor de cautare cu mai multe baze de date sa fie relativ unitar intr-un interval de timp rezonabil (in care se presune ca nu a indexat alte pagini care sa schimbe clasamentul)? relativ unitar inseamna ca un site sa nu fie pe 7 ca acum 1h, sa fie pe 8 sau pe 10, in nici un caz sa nu fie deloc.