Cine imi poate spune cum pot configura robots.txt astfel incat sa imi indexeze doar categoria/index dar nu si paginile interioare de articole (din categorie)?
Versiune printabilă
Cine imi poate spune cum pot configura robots.txt astfel incat sa imi indexeze doar categoria/index dar nu si paginile interioare de articole (din categorie)?
Ca sa blochezi un folder pentru toti robotii fol
User-agent: *
Disallow: /folder
daca folderul este deja indexat, nu il vei scoate din index pricun robots.txt. pentru a opri crawlerii cel mai bine folosesti meta robots cu noindex.
Depinde de structura pe care o ai tu la site. Eu iti arat exemplul in cazul site-ului meu.
Link-urile sunt de forma: domeniu.tld/categorie/nume_categorie/
Paginare: domeniu.tld/categorie/nume_categorie/page/2/
Pentru disalow folosesc:Iti recomand un articol interesant (in cazul in care nu l-ai citit deja) legat de continutul duplicat: Duplicate Content in a Post-Panda World | SEOmozCitat:
/categorie/*/page/*/
Cred ca nu m-am exprimat cum trebuie.
Deci,
-site-ul x.tld la care vreau sa imi indexez pagina de index (x.tld), categoriile (x.tld/category/avioane) si subcategoriile (x.tld/category/avioane/motoare) DAR nu si continutul lor.
-site-ul x.tld la care NU vreau sa imi indexez paginatia (x.tld/page2 , x.tld/page3, etc) sau (x.tld/category/avioane/page2 , x.tld/category/avioane/page3, etc) sau (x.tld/category/avioane/motoare/page2 , x.tld/category/avioane/motoare/page3, etc)
-site-ul x.tld la care NU vreau sa imi indexez continutul categoriilor si subcategoriilor.
Pentru restul din ce vreau sa blochez (search results, admin pages, etc..) am sa folosesc un plugin de robots.txt pt wordpress.
Sper ca am fost mai explicit.
folosesti <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> sa nu indexeze continutul
The Web Robots Pages
Aici zice ca ar ignora decat meta-tagurile, nu si ca nu ar vedea google pagina. Mai exista si alte variante?
Tare ma tem ca nu sunt sigur ce doresti sa spui.
Pentru restrictionare paginatie ar fi ce e mai jos, cu mica rezerva ca daca vei avea o subcategorie ce va contine "page" (de exemplu /category/electronice/pager) atunci va intra si ea in regula.
Si mai sunt cazuri nedorite ce pot intra sub incidenta regulii de mai sus, daca ai o structura de url specifica la anumite pagini. Se poate dezvolt structura si ptr exceptii, insa depinde contructia url-urilor din siteul tau.Citat:
User-agent: *
Disallow: /page*
Disallow: /category/*/page*
Am folosit intr-un final sintaxa asta:
in HeaderCitat:
<?php if ( is_single() || is_page() ) { ?>
<meta name="robots" content="noindex, nofollow"/>
<?php } ?>
pe care am luat-o de pe site-ul asta codegrad.hub.ph/ preventing-search-engines-from-indexing-certain-pages-or-posts-in-your-wordpress-powered-website-or-blog/
Marius Cristian nu am robots.txt pe hosting (cel putin nu il gasesc eu), am doar pluginul care are setari standard de unde pot selecta ce anume opresc sa fie indexat si ce nu.
Nu am unde sa pun:
User-agent: *
Disallow: /page*
Disallow: /category/*/page*
cu toate ca as vrea sa pun pentru Disallow: /category/*/page* pentru ca am lasat la liber doar categoriile si mi-a luat si paginile de la categorii, dupa cum ai spus si tu.
Adica MI-A indexat indexul (OK) + toate categoriile (OK) + paginile categoriilor (ceea ce nu e chiar ok).
NU mi-a indexat Continutul si paginatia (OK).
Daca stie cineva ce as putea seta sa nu imi i-a si paginatia de la categorii ar fi super.
Multumesc anticipat.
Pentru paginatie vezi aici WordPress SEO Tutorial si un plugin pe care il recomanda este WordPress › WP-PageNavi « WordPress Plugins