Fiind la baza programator nu mi se pare foarte greu sa se identifice continutul duplicat indiferent de cate miliarde de pagini sunt indexate.
Solutia ar fi ca fiecare text indexat sa aiba niste caracteristici cum ar fi densitatea si probabil altele care nu ar fi foarte greu de compus. Odata ce se stie densitatea se reduce enorm numarul de texte\pagini cu care se compara noua pagina indexata, comparatia facandu-se numai intre pagini\texte cu densitati asemanatoare.

