Blackhat360 despre Duplicate Content

Versiune printabilă

6th August 2008, 18:24
Tudi

Blackhat360 despre Duplicate Content

Destul de interesant articolul:

http://blackhat360.com/2008/08/05/th...-content-myth/

Imi ridica niste semne de intrebare, mai ales experimentul lui cu wikipedia, dar e interesant de citit si comentariul cu rosu al lui Anty
6th August 2008, 22:10
w!ll

Nu am inteles mare lucru din acel articol, poate ne explici tu mai pe scurt la ce se refera.
Autorul acelui articol vrea cumva sa spuna ca Google nu poate face fata intre un text copiat de un alt site?
6th August 2008, 22:33
Danielu

Interesant articol. Si eu inclin sa cred ca nici un motor nu face diferenta intre site-uri duplicate, sa nu mai vorbim de articole duplicat sau imagini. Multi chiar de pe seopedia s-au plans ca unele din site-urile care le-au fost copiate au fost mai bine pozitionate in motorul de cautare. E ca la scoala, de obicei cel care copiaza ia nota mai mare pentru ca scrie mai frumos si fara taieturi.
6th August 2008, 22:34
pustiu

Si care ar fi semnele de intrebare? E clar ca Google nu poate compara fiecare pagina cu celalte n -> infinit pagini de pe internet pentru a descoperi daca sunt sau nu duplicate. De aceea, mai plauzibila mi se pare varianta lui anty, dar nici asta nu stim daca sta in picioare.
Una peste alta nu putem zice decat ca... incurcate sunt caile Google-ului. :)
7th August 2008, 00:05
w!ll

Eu am vazut site-uri care pe parcurs au pierdut din paginile indexate de Google, din cauza continutului duplicat. Ca sa nu mai mentionez ca dupa o simpla cautare a unei portiuni de text copiate de pe un anumit site, Google afiseaza doar site-ul original (din pacate in multe cazuri se intampla sa-l afiseze chiar pe cel care a copiat textul), restul rezultatelor putand fi vizibile doar dupa click pe:
Pentru a vă prezenta cele mai relevante rezultate, am omis câteva înregistrări foarte asemănătoare celor 5 deja afişate.
Dacă doriţi, puteţi repeta căutarea cu rezultatele omise incluse.
7th August 2008, 03:32
Alex Dumitru

Citat:

Postat în original de pustiu

Si care ar fi semnele de intrebare? E clar ca Google nu poate compara fiecare pagina cu celalte n -> infinit pagini de pe internet pentru a descoperi daca sunt sau nu duplicate. De aceea, mai plauzibila mi se pare varianta lui anty, dar nici asta nu stim daca sta in picioare.
Una peste alta nu putem zice decat ca... incurcate sunt caile Google-ului. :)

ba e simplu sa vada continutul duplicat. atunci cand indexeaza o pagina noua cauta dupa fragmente din ea sa vada daca sunt deja indexate. mai departe doar ei stiu cum se descurca sa-si dea seama cine e plagiatoru.
7th August 2008, 08:53
Nic

Citat:

Postat în original de Sandossu

ba e simplu sa vada continutul duplicat. atunci cand indexeaza o pagina noua cauta dupa fragmente din ea sa vada daca sunt deja indexate. mai departe doar ei stiu cum se descurca sa-si dea seama cine e plagiatoru.

Nici eu nu cred ca e asa simplu, avand in vedere numarul imens de pagini indexate zilnic pentru a le compara cu un numar si mai mare de pagini deja indexate anterior.... o groaza de resurse.

Chestia cu compararea unor fragmente nu mi se pare nici pe departe adevarata, daca tu copiezi din 100 de articole diferite cate o fraza , si creezi astfel un articol nou, acesta in teorie e duplicate content, -fiecare fraza deja regasindu-se in alte articole din google- dar practic google il va vedea content fresh/original si se va fi indexat destul de bine din experienta mea.(s-ar putea sa gresesc)

Eu am avut o data un director de articole funneled de siteuri de distributie de articole (isnare, article marketer) -deci practic acelasi articol care-l aveam eu se regasea in alte mii de directoare de articole abonate la acelasi flux- si totusi primeam ceva trafic- putin cei drept- din google. In mod normal, avand in vedere miile de siteuri si de duplicate content ar fi trebuit sa nu am nici o sansa.

Da, subiectul e interesant cu duplicate content. Uite insa o intrebare si mai interesanta, daca iau un articol din engleza, il trec prin google translator in limba germana si pun articolul pe un site in germana (ipotetic vorbind), google se prinde ca e duplicate content?
7th August 2008, 10:17
Consumatorul

Citat:

Postat în original de Nic

Uite insa o intrebare si mai interesanta, daca iau un articol din engleza, il trec prin google translator in limba germana si pun articolul pe un site in germana (ipotetic vorbind), google se prinde ca e duplicate content?

Iti pot da eu un raspuns verificat, NU, Google va lua de bun noul text tradus si il va indexa ca original. Am incercat eu cu traducera din mai multe limbi, printre care si romana, in limba engleza, iar textul astfel produs este 100% unic (verificat si cu copyscape). Oricum, nu abuzati de chestia asta, aviz amatorilor! :)
7th August 2008, 17:57
deadworldisee

Tema de gandire:
Siturile cu poezii si versuri.

Eu am 2 astfel de situri,contentul lor se rezuma doar la poezia in sine cat si versurile unor piese,evident rankez destul de bine....

Duplicate content vede doar in situl tau, nu compara cu altele.
10th August 2008, 16:22
Tudi

Deadworld, da-mi un PM cu site-ul sa fac un test :D
9th September 2008, 13:45
Mircea Budean

Fiind la baza programator nu mi se pare foarte greu sa se identifice continutul duplicat indiferent de cate miliarde de pagini sunt indexate.

Solutia ar fi ca fiecare text indexat sa aiba niste caracteristici cum ar fi densitatea si probabil altele care nu ar fi foarte greu de compus. Odata ce se stie densitatea se reduce enorm numarul de texte\pagini cu care se compara noua pagina indexata, comparatia facandu-se numai intre pagini\texte cu densitati asemanatoare.
9th September 2008, 14:06
Tudi

Oricum, daca ar fi o astfel de comparatie, nu o face crawler-ul direct. Se face undeva in spatele usilor inchise :) Crawler-ul nu are cum sa sara din link in link si la fiecare sa compare de fiecare data caracteristicile pentru ca ar incetini prea mult indexarea si ar fi impotriva logicii unui crawler (care are scopul de a indexa rapid).

Dar e un punct de vedere valid Mircea.
9th September 2008, 15:14
Broscoi

Desi identificarea duplicate content-ului este o prioritate pentru motoarele de cautare principale , acest scop este foarte greu de atins din cauza gradului mare de relativitate a subiectului . E foarte greu de stabilit care este bucata de text ce trebuie e analizata de un motor de cautare pantru a da siguranta depistarii unui duplicate content . Paragraful? Pai pe netul asta cat e de mare ( si cat o sa mai cresca ) nu e chiar imposibil sa formulez o propozitie identica sau aprope identica cu altcineva pe un alt site fara sa am in intentie duplicate content .Mai multe paragrafe? Ce inseamna aprope identic ?
Intr-un articol de critica literara este o obisnuinta prezentarea de parti din textul literar la care face referire , intr-un articol stiintific se prezinta teorii mai vechi care au stat la baza descoperirilor stiintifice etc .Acesta practica nu este duplicate content , dar poate contine bucati de text foarte mari care se regasesc si pe paginile altor situri .
Concluzie :judecata de duplicate content nu este la indemana motoarelor de cautare .
9th September 2008, 16:00
Tudi

Broscoi ai foarte mare dreptate, asta e problema, cum delimiteaza un motor de cautare continutul dublu care e dublu pentru ca e furat de continutul dublu produs de citari de exemplu.

Pentru ca eu, sa scriu un articol de exemplu, nu as avea nimic in potriva daca un alt webmaster l-ar copia pentru a-l cita, dar as avea o problema daca l-ar pune la el pe site ca fiind al lui.
9th September 2008, 17:31
forapathy

eu am facut mai multe site-uri (aceasi structura) cu continut luat de la site-urile la care ma afiliasem..
am luat textele alea si pozele si le-am pus asa.. (cautand prin google am gasit sute de alte site-uri cu acelasi continut).. si nu mi-au fost banate site-urile ba chiar unele din ele au luat si PR 1- 2 ..

asta cam in 4 luni.. apoi m-am gandit sa adaug o propozitie unica la inceputul paragrafului si inca una unica la final.. dar nu am mai adaugat pagini noi..
traficul a crescut in aproximativ 2 luni cu 300%.. si de atunci doar asa le fac :P

ahh si e vb de site-uri cu afilieri adult.. deci e vb de milioane de site-uri cu acelasi continut..
9th September 2008, 17:35
Tudi

Nu stiu, eu la mine am avut rezultate foarte contradictorii cu duplicate-ul. Pe unele pagini-uri am fost trimis in supplemental index, desi eu avam continutul original. Pe altele sunt primul si cel care a copiat e al doilea, sau in supplemental. Pe altele suntem amandoi in supplemental >.<
9th September 2008, 23:08
w!ll

@forapathy, daca Google gaseste continut duplicat pe un site, asta nu inseamna ca o sa-l baneze din start, ci este posibil ca site-ul respectiv sa fie mai prost clasat in rezultatele cautarilor din Google
10th September 2008, 09:28
forapathy

Citat:

Postat în original de w!ll

@forapathy, daca Google gaseste continut duplicat pe un site, asta nu inseamna ca o sa-l baneze din start, ci este posibil ca site-ul respectiv sa fie mai prost clasat in rezultatele cautarilor din Google

exact.. defapt asta vroiam sa zic.. avand site-urile alea cu acelasi continut.. nu erau clasate deloc bine..
sincer eu unul nu mi-am gasit site-urile alea in cautari insa aveam vreo 200 de vizite de pe google..
dar dupa ce am pus propozitie unica la inceputul si sfarsitul acelor paragrafe.. site-urile au crescut foarte tare..
asta inseamna ca nu trebuie sa modifici prea multe pentru a te ascunde de duplicate content :D