Cine imi poate spune cum pot configura robots.txt astfel incat sa imi indexeze doar categoria/index dar nu si paginile interioare de articole (din categorie)?
Versiune printabilă
Cine imi poate spune cum pot configura robots.txt astfel incat sa imi indexeze doar categoria/index dar nu si paginile interioare de articole (din categorie)?
Ca sa blochezi un folder pentru toti robotii fol
User-agent: *
Disallow: /folder
daca folderul este deja indexat, nu il vei scoate din index pricun robots.txt. pentru a opri crawlerii cel mai bine folosesti meta robots cu noindex.
Depinde de structura pe care o ai tu la site. Eu iti arat exemplul in cazul site-ului meu.
Link-urile sunt de forma: domeniu.tld/categorie/nume_categorie/
Paginare: domeniu.tld/categorie/nume_categorie/page/2/
Pentru disalow folosesc:Iti recomand un articol interesant (in cazul in care nu l-ai citit deja) legat de continutul duplicat: Duplicate Content in a Post-Panda World | SEOmozCitat:
/categorie/*/page/*/
Cred ca nu m-am exprimat cum trebuie.
Deci,
-site-ul x.tld la care vreau sa imi indexez pagina de index (x.tld), categoriile (x.tld/category/avioane) si subcategoriile (x.tld/category/avioane/motoare) DAR nu si continutul lor.
-site-ul x.tld la care NU vreau sa imi indexez paginatia (x.tld/page2 , x.tld/page3, etc) sau (x.tld/category/avioane/page2 , x.tld/category/avioane/page3, etc) sau (x.tld/category/avioane/motoare/page2 , x.tld/category/avioane/motoare/page3, etc)
-site-ul x.tld la care NU vreau sa imi indexez continutul categoriilor si subcategoriilor.
Pentru restul din ce vreau sa blochez (search results, admin pages, etc..) am sa folosesc un plugin de robots.txt pt wordpress.
Sper ca am fost mai explicit.
folosesti <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> sa nu indexeze continutul
The Web Robots Pages
Aici zice ca ar ignora decat meta-tagurile, nu si ca nu ar vedea google pagina. Mai exista si alte variante?
Tare ma tem ca nu sunt sigur ce doresti sa spui.
Pentru restrictionare paginatie ar fi ce e mai jos, cu mica rezerva ca daca vei avea o subcategorie ce va contine "page" (de exemplu /category/electronice/pager) atunci va intra si ea in regula.
Si mai sunt cazuri nedorite ce pot intra sub incidenta regulii de mai sus, daca ai o structura de url specifica la anumite pagini. Se poate dezvolt structura si ptr exceptii, insa depinde contructia url-urilor din siteul tau.Citat:
User-agent: *
Disallow: /page*
Disallow: /category/*/page*
Am folosit intr-un final sintaxa asta:
in HeaderCitat:
<?php if ( is_single() || is_page() ) { ?>
<meta name="robots" content="noindex, nofollow"/>
<?php } ?>
pe care am luat-o de pe site-ul asta codegrad.hub.ph/ preventing-search-engines-from-indexing-certain-pages-or-posts-in-your-wordpress-powered-website-or-blog/
Marius Cristian nu am robots.txt pe hosting (cel putin nu il gasesc eu), am doar pluginul care are setari standard de unde pot selecta ce anume opresc sa fie indexat si ce nu.
Nu am unde sa pun:
User-agent: *
Disallow: /page*
Disallow: /category/*/page*
cu toate ca as vrea sa pun pentru Disallow: /category/*/page* pentru ca am lasat la liber doar categoriile si mi-a luat si paginile de la categorii, dupa cum ai spus si tu.
Adica MI-A indexat indexul (OK) + toate categoriile (OK) + paginile categoriilor (ceea ce nu e chiar ok).
NU mi-a indexat Continutul si paginatia (OK).
Daca stie cineva ce as putea seta sa nu imi i-a si paginatia de la categorii ar fi super.
Multumesc anticipat.
Pentru paginatie vezi aici WordPress SEO Tutorial si un plugin pe care il recomanda este WordPress › WP-PageNavi « WordPress Plugins
Mersi Marius,
Am adaugat pana la urma un fisier robots.txt in root/ftp cu:
User-agent: *
Disallow: /page*
Disallow: /category/*/page*
+
<?php if ( is_single() ) { ?>
<meta name="robots" content="noindex"/>
<?php } ?>
in Header.
Iar acum imi arata asa daca dau site.tld/robots.txt
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /page*
Disallow: /category/*/page*
Am un plugin care imi arata ce anume e indexat si ce nu pentru META ROBOTS doar, pentru a vedea in timp real daca paginile categoriilor sunt indexate ori ba, n-am nici un plugin. Sper doar sa fie bun acel cod: Disallow: /page* , Disallow: /category/*/page* si sa nu imi indexeze paginile categoriilor.
Ba da Marius, asta doresc, stiu ca suna ciudat. :)
nu era un plugin in care puteai seta la fiecare post ce doresti sa apara? gen noindex, no follow, etc
Imi este neclara o chestie.
Daca pe un site am in felul urmator:
www.site.tld/page/2/
www.site.tld/categorie/page/2/
www.site.tld/categorie/subcategorie/page/2/
si vreau sa nu imi indexeze paginatia ci doar categoriile si subcategoriile, nu ar fi ok daca as pune:
User-agent: *
Disallow: /page/*/
atunci google nu ar stii ca nu trebuie sa indexeze orice incepe cu /page ?
asta ca sa nu mai stau si sa bag la mana toate categoriile si subcategoriile cu /page/*/ la urma
Care va pricepeti mai bine? Am cautat ceva legat de asta dar nu am gasit.
@Dani vezi ca ti-am trimis mai sus ceva documentatie de la Yoast cu paginatia. Odata ce anumite pagini sunt indexate, nu le poti scoate din index cu Robots.txt. URL-uri paginilor raman indexate in Google, dar in SERP's nu iti mai apar titluri si metadescrieri la paginile respective. O sa ti se listeze doar URL-urile simple. Daca pui rel prev, rel next cu acel plugin, nu cred ca o sa mai ai probleme de paginatie.
Daniel, site-ul nu e indexat inca, vreau mai intai sa reusesc sa configurez ce anume indexez si ce nu prin robots.txt sau meta robots, iar ce mi-ai dat tu de la Yoast nu ma ajuta.
A Deeper Look At Robots.txt
What should NOINDEX do?
Robots.txt Tutorial
Block or remove pages using a robots.txt file - Webmaster Tools Help
Poate te ajuta vreunul din acele articole, dar pentru ca paginatia sa nu iti fie indexata este cam greu sa faci din robots.txt. Cel mai bine este sa pui pe toate paginile de paginatie in meta robots noindex si follow. Daca faci cu rel prev, rel next nu o sa ai probleme in SERP's la rezultate, doar nu o sa ai sute de pagini de paginatie. Plus ca mai transmit si ele ceva PR prin site.
--- Later Edit --- (ca mi-a fost lene sa apas "Edit")
@ Dani, fii atent cum poti sa testezi daca acele pagini de paginatie, pe care vrei sa le blochezi din robots.txt (cu sintaxele pe care le scrii tu) vor fi crawlate sau nu de Google.
Intri in WMT -> Health -> Blocked URL's si acolo poti rescrie fisierul robots.txt, care este in prima casuta la http://www.site.tld/robots.txt content - edit to test changes, in casuta de mai jos poti testa un URL (unul din cele care nu vrei sa iti apara in index), mai exact in casuta URLs Specify the URLs and user-agents to test against. . Mai jos lasi la User-agents Googlebot : crawls pages for our web index and Google News.
Apesi test si o vezi rezultatele, daca pentru acele URL-uri googlebot are acces sau nu (allow sau disallow).
Acum ar trebui sa vezi cu siguranta, ce merge si ce nu pentru acele pagini care te "supara" :). Succes.
Se pare ca e buna sintaxa care mi-a dat-o Marius, astfel voi atasa ce imi arata in WMT, cand am scris url-urile pt verificat:
Ataşament 2237
Nu prea inteleg ultimul rand, acolo fiind un url a unui articol ce nu trebuie indexat. Din ce inteleg folderul respectiv e lasat la indexat dar doar unele fisiere sunt restrictionate (adica url-urile articolelor ce nu doresc sa fie indexate).
Mersi Mariu si Daniel pt ajutor. Am vrut sa dau la amandoi reputatie dar m-a lasat doar la unul dintre voi sa dau :shifty:.
Recunostinta ta este de ajuns .
@marius: reformulez. recunostinta ta pentru noi este de ajuns :)
Nu mai stiu la care am dat reputatie, dar de dat, am dat sigur la unul dintre voi. Oricum important este ca informatiile date de voi m-au ajutat, si poate in viitor si pe altii :).
Am si eu o problema si cum nu sunt as in domeniu m-am gandit sa intreb aici.
Am avut domeniu.ro/forum si dupa 1-2 sapt am decis sa scot forumul.Problema este ca au fost indexate ceva pagini si acum apar ca 404 in wmt. Am facut cateva redirecturi si am scapat de toate erorile dar am ramas cu pagini genul domeniu.ro/?action=help si altele.Acum am scos toate redirecturile,pentru a incerca o alta varianta, si am lasat doar domeniu.ro/index.html catre domeniu.ro si www catre non www
Cum pot sa scap de linkurile de genul celui prezentat mai sus sau cum pot sa fac un redirect corect in asa fel incat domeniu.ro/forum sa redirecteze catre domeniu.ro sau orice altceva prin care as scapa de 404 pentru ca problema a inceput de la redirect care probabil a fost facut incorect ca altfel nu ar mai fi aparut link-uri ca cel de mai sus.
Nasol este ca acum domeniu.ro si domeniu.ro/?action=help mi le vede ca duplicate si cred ca mai sunt cateva de acest gen.
Am ajuns pe acest topic pentru ca am crezut ca ma ajuta poate robots txt dar nu stiu mai nimic despre cum se poate face asa ca as aprecia ajutorul vostru.
Accept orice idee ce functioneaza.
Mentionez ca acum forumul este de forma forum.domeniu.ro(pot face redirect de la domeniu.ro/forum catre forum.domeniu.ro ? daca da, cum pot fac acest lucru?)
Daca nu reusesti cu 301 pune in meta robots noindex pe acele pagini.