Pagina 2 din 2 PrimulPrimul 12
Rezultate 11 la 14 din 14

Subiect: Lista IP-uri boti

  1. #11
    Avatarul lui serban
    serban este deconectat Membru SeoPedia
    Reputatie:
    37
    Data înscrierii
    17th February 2006
    Locaţie
    Bucharest
    Posturi
    133
    Putere Rep
    37


    Implicit re

    tu pornesti de la premisa ca toti robotii preiau robots.txt , ceea ce nu e chiar asa de rau dar este falsa.
    1. ai sa observi niste semnaturi de roboti care nu viziteaza niciodata robots.txt, mai sunt si robotii de spam
    2. daca eu vizitez robots.txt si ma adaugi in lista nu mai imi calculezi traficul de la browserul X (cu care am vizitat atunci)

    oricum, in orice caz ai nevoie de o oarecare validare manuala.

    cea mai buna metoda la inceput este sa pornesti de la o lista de semnaturi de roboti existenta. uite un ex ft simplu si practic:


    daca vrei sa opresti 4 roboti like google, yahoo, msn si ask faci asa:
    Cod:
    if(preg_match("/googlebot|slurp|msnbot|ask[\s]+jeeves/im", $_SERVER['HTTP_USER_AGENT']) == true){
     
    //nu executi scriptul de contorizare
     
    }
    Cod:
     
    Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
    Mozilla/2.0 (compatible; Ask Jeeves/Teoma; +http://about.ask.com/en/docs/about/webmasters.shtml)
    msnbot/0.9 (+http://search.msn.com/msnbot.htm)

    si adaugi acolo in expresia regulata numele botilor, pe masura ce le descoperi numele.

    poti face treaba asta si automat sa zicem, cu o lista de asteptare. faci cu mod_rewrite un robots.txt, loghezi user-agent care acceseaza si il pui intr-un array pe disk. validezi regulat daca sa excluda user-agentul respectiv din contorizare (nu cred ca merge automat ca risti sa faci cum am spus la inceput).

    eu am 2 liste acolo, una cu roboti si niste semnaturi mai ciudate, care am presupus ca sunt de roboti, si una cu user-agents signature (adica de toate amestecate). eu nu consider orice semnatura de acolo ca si robot
    Serban Ghita - my website

  2. #12
    Avatarul lui mihaitha
    mihaitha este deconectat Junior SeoPedia
    Reputatie:
    0
    Data înscrierii
    12th September 2006
    Vârstă
    46
    Posturi
    3
    Putere Rep
    0


    Implicit

    Diferenta este ca eu nu preiau agentul cand mi se acceseaza robots.txt, ci adresa de IP. Astfel imi creez o lista cu ip-uri suspecte de a fi roboti, pe care le exclud din contorizare. Daca tu imi accesezi robots-ul, eu nu exclud toti vizitatorii care folosesc acelasi browser ca si tine, ci doar pe tine si cine mai intra de la ip-ul tau, in caz ca esti intr-o retea cu gateway.

    Intr-adevar, sunt roboti pe care ii doare undeva de robots.txt. Sincer la aia nu prea ai ce le face, nu de alta dar in mod sigur daca un programator e suficient de destept sa faca un spam bot, il va duce capul sa-l si mascheze ca mozilla sau ie, doar nu i-o seta agentu sa zica 'hello! i'm spam!'

    In rest, numai sporuri.

  3. #13
    Avatarul lui serban
    serban este deconectat Membru SeoPedia
    Reputatie:
    37
    Data înscrierii
    17th February 2006
    Locaţie
    Bucharest
    Posturi
    133
    Putere Rep
    37


    Implicit re

    Citat Postat în original de mihaitha Vezi Post
    Diferenta este ca eu nu preiau agentul cand mi se acceseaza robots.txt, ci adresa de IP. Astfel imi creez o lista cu ip-uri suspecte de a fi roboti, pe care le exclud din contorizare.
    am ocolit subiectul cu IP-ul pt asta e si mai greu.

    majoritatea robotilor lucreaza pe mai multe masini, asta banuiesc ca stiu toti de aci. dar ai sa observi ca numai 1 ip iti preia robots.txt si restul de calculatoare care lucreaza in acelasi sistem iti iau link-urile fiecare in functie de criterii, bazandu-se pe informatia preluata de primul robotzel

    adica salveaza bandwidth, adica 1 ip grab robots.txt and spread, si 1000 grab links.

    choose user-agent signature pt validare. robotii de spam au semnaturi normale, altii nu au deloc. aia care nu au deloc semnatura (ceva anormal) ii bagi in lista de asteptare. restul poti sa-i ignori linistit, ca nu iti indexeaza tot site-ul (majoritatea robotzeilor de spam ai limita mica)

    Serban Ghita - my website

  4. #14
    Avatarul lui mihaitha
    mihaitha este deconectat Junior SeoPedia
    Reputatie:
    0
    Data înscrierii
    12th September 2006
    Vârstă
    46
    Posturi
    3
    Putere Rep
    0


    Implicit

    Multzam fain. Am hotarat sa facem ceva combinat. O sa monitorizez in continuare accesele la robots.txt ca sa adun agentii, iar eliminarea o fac pe baza de agent. Sa vedem cum evolueaza lucrurile.

Pagina 2 din 2 PrimulPrimul 12

Informații subiect

Utilizatori care navighează în acest subiect

Momentan este/sunt 1 utilizator(i) care navighează în acest subiect. (0 membrii și 1 vizitatori)

Thread-uri Similare

  1. lista directoare seo
    De matican în forumul Directoare web straine
    Răspunsuri: 14
    Ultimul Post: 6th January 2011, 11:46
  2. Lista mea de directoare
    De tataraseni în forumul Directoare romanesti
    Răspunsuri: 4
    Ultimul Post: 26th June 2008, 10:27
  3. Fac lista keywords-uri
    De Popescu Marian în forumul Servicii web / Jobs
    Răspunsuri: 3
    Ultimul Post: 19th April 2008, 19:42
  4. Lista de Directoare
    De altec883 în forumul Google
    Răspunsuri: 11
    Ultimul Post: 9th April 2008, 12:58
  5. Cumpar clickuri/trafic catre site, inclusiv boti/autosurf
    De Serban Cristian în forumul Link-uri/Bannere
    Răspunsuri: 3
    Ultimul Post: 1st February 2008, 15:15

Permisiuni postare

  • Nu puteţi posta subiecte noi.
  • Nu puteţi răspunde la subiecte
  • Nu puteţi adăuga ataşamente
  • Nu puteţi modifica posturile proprii
  •