Configureaza robots.txt neindexare pagini articole

Versiune printabilă

4th June 2012, 09:53
Dani

Configureaza robots.txt neindexare pagini articole

Cine imi poate spune cum pot configura robots.txt astfel incat sa imi indexeze doar categoria/index dar nu si paginile interioare de articole (din categorie)?
4th June 2012, 10:30
danielicb

Ca sa blochezi un folder pentru toti robotii fol
User-agent: *
Disallow: /folder

daca folderul este deja indexat, nu il vei scoate din index pricun robots.txt. pentru a opri crawlerii cel mai bine folosesti meta robots cu noindex.
4th June 2012, 10:51
crt

Depinde de structura pe care o ai tu la site. Eu iti arat exemplul in cazul site-ului meu.

Link-urile sunt de forma: domeniu.tld/categorie/nume_categorie/
Paginare: domeniu.tld/categorie/nume_categorie/page/2/

Pentru disalow folosesc:

Citat:

/categorie/*/page/*/

Iti recomand un articol interesant (in cazul in care nu l-ai citit deja) legat de continutul duplicat: Duplicate Content in a Post-Panda World | SEOmoz
4th June 2012, 11:30
Dani

Cred ca nu m-am exprimat cum trebuie.

Deci,
-site-ul x.tld la care vreau sa imi indexez pagina de index (x.tld), categoriile (x.tld/category/avioane) si subcategoriile (x.tld/category/avioane/motoare) DAR nu si continutul lor.

-site-ul x.tld la care NU vreau sa imi indexez paginatia (x.tld/page2 , x.tld/page3, etc) sau (x.tld/category/avioane/page2 , x.tld/category/avioane/page3, etc) sau (x.tld/category/avioane/motoare/page2 , x.tld/category/avioane/motoare/page3, etc)
-site-ul x.tld la care NU vreau sa imi indexez continutul categoriilor si subcategoriilor.

Pentru restul din ce vreau sa blochez (search results, admin pages, etc..) am sa folosesc un plugin de robots.txt pt wordpress.

Sper ca am fost mai explicit.
4th June 2012, 11:35
avram

folosesti <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> sa nu indexeze continutul
9th June 2012, 11:51
edy12006

The Web Robots Pages
Aici zice ca ar ignora decat meta-tagurile, nu si ca nu ar vedea google pagina. Mai exista si alte variante?
9th June 2012, 12:30
Marius Cristian

Tare ma tem ca nu sunt sigur ce doresti sa spui.
Pentru restrictionare paginatie ar fi ce e mai jos, cu mica rezerva ca daca vei avea o subcategorie ce va contine "page" (de exemplu /category/electronice/pager) atunci va intra si ea in regula.

Citat:

User-agent: *
Disallow: /page*
Disallow: /category/*/page*

Si mai sunt cazuri nedorite ce pot intra sub incidenta regulii de mai sus, daca ai o structura de url specifica la anumite pagini. Se poate dezvolt structura si ptr exceptii, insa depinde contructia url-urilor din siteul tau.
11th June 2012, 12:27
Dani

Am folosit intr-un final sintaxa asta:

Citat:

<?php if ( is_single() || is_page() ) { ?>
<meta name="robots" content="noindex, nofollow"/>
<?php } ?>

in Header

pe care am luat-o de pe site-ul asta codegrad.hub.ph/ preventing-search-engines-from-indexing-certain-pages-or-posts-in-your-wordpress-powered-website-or-blog/

Marius Cristian nu am robots.txt pe hosting (cel putin nu il gasesc eu), am doar pluginul care are setari standard de unde pot selecta ce anume opresc sa fie indexat si ce nu.
Nu am unde sa pun:
User-agent: *
Disallow: /page*
Disallow: /category/*/page*

cu toate ca as vrea sa pun pentru Disallow: /category/*/page* pentru ca am lasat la liber doar categoriile si mi-a luat si paginile de la categorii, dupa cum ai spus si tu.

Adica MI-A indexat indexul (OK) + toate categoriile (OK) + paginile categoriilor (ceea ce nu e chiar ok).
NU mi-a indexat Continutul si paginatia (OK).

Daca stie cineva ce as putea seta sa nu imi i-a si paginatia de la categorii ar fi super.

Multumesc anticipat.
11th June 2012, 15:13
danielicb

Pentru paginatie vezi aici WordPress SEO Tutorial si un plugin pe care il recomanda este WordPress › WP-PageNavi « WordPress Plugins
11th June 2012, 17:24
Marius Cristian

Citat:

Postat în original de Dani

Marius Cristian nu am robots.txt pe hosting (cel putin nu il gasesc eu), am doar pluginul care are setari standard de unde pot selecta ce anume opresc sa fie indexat si ce nu.
Nu am unde sa pun:
User-agent: *
Disallow: /page*
Disallow: /category/*/page*

cu toate ca as vrea sa pun pentru Disallow: /category/*/page* pentru ca am lasat la liber doar categoriile si mi-a luat si paginile de la categorii, dupa cum ai spus si tu.

Creeaza un fisier robots.txt pe calculatorul tau, pune in el codul dorit (cel de mai sus) si incarca-l pe server (prin ftp cel mai usor) in radacina siteului.
Codul este operational daca WP-ul este instalat si el in radacina siteului.
12th June 2012, 17:28
Dani

Mersi Marius,

Am adaugat pana la urma un fisier robots.txt in root/ftp cu:

User-agent: *
Disallow: /page*
Disallow: /category/*/page*

+

<?php if ( is_single() ) { ?>
<meta name="robots" content="noindex"/>
<?php } ?>

in Header.

Iar acum imi arata asa daca dau site.tld/robots.txt

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /page*
Disallow: /category/*/page*

Am un plugin care imi arata ce anume e indexat si ce nu pentru META ROBOTS doar, pentru a vedea in timp real daca paginile categoriilor sunt indexate ori ba, n-am nici un plugin. Sper doar sa fie bun acel cod: Disallow: /page* , Disallow: /category/*/page* si sa nu imi indexeze paginile categoriilor.
12th June 2012, 20:33
Marius Cristian

Citat:

Postat în original de Dani

+

<?php if ( is_single() ) { ?>
<meta name="robots" content="noindex"/>
<?php } ?>

in Header.

Acel cod php nu-ti va indexa articolele luate individual. Nu cred ca asta doresti, trebuie scos.
13th June 2012, 09:21
Dani

Ba da Marius, asta doresc, stiu ca suna ciudat. :)
24th June 2012, 11:46
Serban Cristian

nu era un plugin in care puteai seta la fiecare post ce doresti sa apara? gen noindex, no follow, etc
24th June 2012, 12:04
Bogdan Calin

Citat:

Postat în original de Kidu

nu era un plugin in care puteai seta la fiecare post ce doresti sa apara? gen noindex, no follow, etc

Ba, SEO Ultimate are de exemplu si optiunea asta.
4th July 2012, 15:38
Dani

Imi este neclara o chestie.

Daca pe un site am in felul urmator:

www.site.tld/page/2/
www.site.tld/categorie/page/2/
www.site.tld/categorie/subcategorie/page/2/

si vreau sa nu imi indexeze paginatia ci doar categoriile si subcategoriile, nu ar fi ok daca as pune:

User-agent: *
Disallow: /page/*/

atunci google nu ar stii ca nu trebuie sa indexeze orice incepe cu /page ?

asta ca sa nu mai stau si sa bag la mana toate categoriile si subcategoriile cu /page/*/ la urma

Care va pricepeti mai bine? Am cautat ceva legat de asta dar nu am gasit.
4th July 2012, 16:03
danielicb

@Dani vezi ca ti-am trimis mai sus ceva documentatie de la Yoast cu paginatia. Odata ce anumite pagini sunt indexate, nu le poti scoate din index cu Robots.txt. URL-uri paginilor raman indexate in Google, dar in SERP's nu iti mai apar titluri si metadescrieri la paginile respective. O sa ti se listeze doar URL-urile simple. Daca pui rel prev, rel next cu acel plugin, nu cred ca o sa mai ai probleme de paginatie.
4th July 2012, 16:12
Dani

Daniel, site-ul nu e indexat inca, vreau mai intai sa reusesc sa configurez ce anume indexez si ce nu prin robots.txt sau meta robots, iar ce mi-ai dat tu de la Yoast nu ma ajuta.
4th July 2012, 16:23
Marius Cristian

Citat:

Postat în original de Dani

www.site.tld/page/2/
www.site.tld/categorie/page/2/
www.site.tld/categorie/subcategorie/page/2/

Cam asa ar fi noua structura:

Citat:

User-agent: *
Disallow: /page/*/
Disallow: /*/page/*/
5th July 2012, 23:47
danielicb

A Deeper Look At Robots.txt
What should NOINDEX do?
Robots.txt Tutorial
Block or remove pages using a robots.txt file - Webmaster Tools Help

Poate te ajuta vreunul din acele articole, dar pentru ca paginatia sa nu iti fie indexata este cam greu sa faci din robots.txt. Cel mai bine este sa pui pe toate paginile de paginatie in meta robots noindex si follow. Daca faci cu rel prev, rel next nu o sa ai probleme in SERP's la rezultate, doar nu o sa ai sute de pagini de paginatie. Plus ca mai transmit si ele ceva PR prin site.

--- Later Edit --- (ca mi-a fost lene sa apas "Edit")

@ Dani, fii atent cum poti sa testezi daca acele pagini de paginatie, pe care vrei sa le blochezi din robots.txt (cu sintaxele pe care le scrii tu) vor fi crawlate sau nu de Google.

Intri in WMT -> Health -> Blocked URL's si acolo poti rescrie fisierul robots.txt, care este in prima casuta la http://www.site.tld/robots.txt content - edit to test changes, in casuta de mai jos poti testa un URL (unul din cele care nu vrei sa iti apara in index), mai exact in casuta URLs Specify the URLs and user-agents to test against. . Mai jos lasi la User-agents Googlebot : crawls pages for our web index and Google News.

Apesi test si o vezi rezultatele, daca pentru acele URL-uri googlebot are acces sau nu (allow sau disallow).

Acum ar trebui sa vezi cu siguranta, ce merge si ce nu pentru acele pagini care te "supara" :). Succes.
7th July 2012, 17:55
Dani

1 Ataşament(e)

Se pare ca e buna sintaxa care mi-a dat-o Marius, astfel voi atasa ce imi arata in WMT, cand am scris url-urile pt verificat:

Ataşament 2237

Nu prea inteleg ultimul rand, acolo fiind un url a unui articol ce nu trebuie indexat. Din ce inteleg folderul respectiv e lasat la indexat dar doar unele fisiere sunt restrictionate (adica url-urile articolelor ce nu doresc sa fie indexate).

Mersi Mariu si Daniel pt ajutor. Am vrut sa dau la amandoi reputatie dar m-a lasat doar la unul dintre voi sa dau :shifty:.
7th July 2012, 23:05
danielicb

Recunostinta ta este de ajuns .
8th July 2012, 20:06
Marius Cristian

Citat:

Postat în original de danielicb

Recunostinta ta este de ajuns .

Replica asta trebuia sa vina de la mine. ;)
8th July 2012, 22:56
danielicb

@marius: reformulez. recunostinta ta pentru noi este de ajuns :)
8th July 2012, 23:42
Nichita

Citat:

Postat în original de danielicb

@marius: reformulez. recunostinta ta pentru noi este de ajuns :)

Cred ca trebuia sa spui "multumesc pentru vot." :))
9th July 2012, 01:48
danielicb

Citat:

Postat în original de Dani

Mersi Mariu si Daniel pt ajutor. Am vrut sa dau la amandoi reputatie dar m-a lasat doar la unul dintre voi sa dau :shifty:.

@ Nichita, nu am fost eu cel care a primit votul de la Dani.
9th July 2012, 15:55
Marius Cristian

Citat:

Postat în original de danielicb

@ Nichita, nu am fost eu cel care a primit votul de la Dani.

Nici eu, cred ca ne-a tras in piept pe amandoi. ;)
Mai era putin si ne certam pe votul lui. :))
9th July 2012, 16:10
Dani

Nu mai stiu la care am dat reputatie, dar de dat, am dat sigur la unul dintre voi. Oricum important este ca informatiile date de voi m-au ajutat, si poate in viitor si pe altii :).
27th July 2012, 21:40
barzafurioasa

Problema redirect

Am si eu o problema si cum nu sunt as in domeniu m-am gandit sa intreb aici.
Am avut domeniu.ro/forum si dupa 1-2 sapt am decis sa scot forumul.Problema este ca au fost indexate ceva pagini si acum apar ca 404 in wmt. Am facut cateva redirecturi si am scapat de toate erorile dar am ramas cu pagini genul domeniu.ro/?action=help si altele.Acum am scos toate redirecturile,pentru a incerca o alta varianta, si am lasat doar domeniu.ro/index.html catre domeniu.ro si www catre non www
Cum pot sa scap de linkurile de genul celui prezentat mai sus sau cum pot sa fac un redirect corect in asa fel incat domeniu.ro/forum sa redirecteze catre domeniu.ro sau orice altceva prin care as scapa de 404 pentru ca problema a inceput de la redirect care probabil a fost facut incorect ca altfel nu ar mai fi aparut link-uri ca cel de mai sus.
Nasol este ca acum domeniu.ro si domeniu.ro/?action=help mi le vede ca duplicate si cred ca mai sunt cateva de acest gen.
Am ajuns pe acest topic pentru ca am crezut ca ma ajuta poate robots txt dar nu stiu mai nimic despre cum se poate face asa ca as aprecia ajutorul vostru.
Accept orice idee ce functioneaza.
Mentionez ca acum forumul este de forma forum.domeniu.ro(pot face redirect de la domeniu.ro/forum catre forum.domeniu.ro ? daca da, cum pot fac acest lucru?)
28th July 2012, 19:46
danielicb

Daca nu reusesti cu 301 pune in meta robots noindex pe acele pagini.