Sintaxa robots.txt?

**vivaldi** · 18th February 2010, 14:06

Vreau sa opresc indexarea tuturor paginilor dintr-un site ce reprezinta versiunile printabile ale paginilor de produs - toate url-urile care contin print.html (duplicate content). Ca sa fac asta prin robots.txt care ar fi sintaxa corecta?

Eu ma gandeam la ceva de genul:

Noindex: /*print.html$
(e corecta sintaxa asta daca vreau sa afecteze doar paginile din site care contin print.html?)

As folosi Noindex pentru ca vreau sa fie si scoase din indexul Google automat (stiu ca Noindex e inteles doar de Google).

E mai bine sa folosesc Disallow? Ce s-ar intampla daca as folosi si Noindex si Disallow cu aceeasi sintaxa in robots.txt? Ar fi scoase cele deja indexate in Google si in acelasi timp s-ar interzice accesul la cele noi?

Noindex: /*print.html$
Disallow: /*print.html$

Multumesc anticipat pentru raspunsuri

**martynesku** · 18th February 2010, 14:24

Cred ca poti pune in head-ul paginii print.html <meta name="robots" content="noindex, nofollow" /> si este de ajuns.

In robots.txt din cate stiu eu se foloseste numai Disallow, nu si Noindex... posibil sa ma insel.

**vivaldi** · 18th February 2010, 14:35

Se poate pune si noindex in robots.txt insa este inteles doar de Google.
Stiu ca se poate pune meta name="robots" in pagini, insa nu ma pricep asa bine la script-uri si cred ca e putin mai complex la site-ul de care vorbesc pentru ca pagina de produs e generata de un products.php (in care se genereaza meta-title si meta-description) iar versiunea printabila ia nastere printr-un rename rule in htaccess.
Nu stiu cum sa fac script-ul in asa fel incat sa puna meta-robots doar pe paginile printabile, si sunt foarte multe, peste 3000....

**martynesku** · 18th February 2010, 14:53

Se foloseste o conditie in php folosing variabila din url gen:

if($_REQUEST['name'] == 'print') {

echo '<meta name="robots" content="noindex, nofollow" />';

}

acum depinde de structura url-ului pentru a scrie corect partea asta: $_REQUEST['name'] == 'print'

**vivaldi** · 18th February 2010, 14:55

Uh, se pare ca Noindex ca directiva in robots.txt este (inca) experimentala la Google: "At the moment we will usually accept the noindex directive in the robots.txt, but we are not yet at a point where we are willing to set it into stone and announce full support."

**Cristi U** · 18th February 2010, 14:57

De ce ai pute in robots.txt si noindex si disallow? Eu unul nu vad sensul... E de ajuns disallow

**vivaldi** · 18th February 2010, 14:57

Postat în original de martynesku

Se foloseste o conditie in php folosing variabila din url gen:

if($_REQUEST['name'] == 'print') {

echo '<meta name="robots" content="noindex, nofollow" />';

}

acum depinde de structura url-ului pentru a scrie corect partea asta: $_REQUEST['name'] == 'print'

Ok, multumesc pentru raspuns, am sa incerc sa studiez in directia asta

**vivaldi** · 18th February 2010, 15:00

Postat în original de cristi

De ce ai pute in robots.txt si noindex si disallow? Eu unul nu vad sensul... E de ajuns disallow

Pai tocmai asta ar fi si intrebarea: daca existenta celor doua (presupunand ca noindex este luat in considerare) este permisa....
Ideea ar fi ca paginile print.html deja indexate sa fie scoase din index...

**Cristi U** · 18th February 2010, 15:36

Postat în original de vivaldi

Pai tocmai asta ar fi si intrebarea: daca existenta celor doua (presupunand ca noindex este luat in considerare) este permisa....
Ideea ar fi ca paginile print.html deja indexate sa fie scoase din index...

Pai disallow are eficienta maxima (teoretic cel putin, pt ca sunt si care ignora). Tot nu inteleg de ce sa pui si noindex in robots.txt

**vivaldi** · 18th February 2010, 16:35

Disallow are eficienta in blocarea crawling pe acele pagini, insa daca ele sunt deja indexate le lasa indexate.
Teoretic Noindex ar trebui sa le si deindexeze automat la urmatorul crawl pe acele pagini deja indexate.

Insa chiar daca Google le accepta pe amandoua in robots.txt, s-ar putea sa se bata cap in cap, exact asa cum e in cazul in care pui meta-robots noindex, follow de exemplu si in acelasi timp pui Disallow in robots.txt pe acele pagini cu meta-robots (meta-robots de pe acele pagini nu mai este citit pentru ca nu se mai face crawl pe ele).

Subiect: Sintaxa robots.txt?

Instrumente subiect

Afișează

Sintaxa corecta robots.txt?

Informații subiect

Utilizatori care navighează în acest subiect

Thread-uri Similare

Best robots.txt for Wordpress?

intrebare robots.txt

sintaxa domeniu

robots.txt

robots.txt

Permisiuni postare