mai clar *.ro
*.ro
*.com.ro
*.nt.ro
*.org.ro
*.nom.ro
*.info.ro
*.rec.ro
*.arts.ro
*.store.ro
*.www.ro
*.firm.ro
*.tm.ro
mai clar *.ro
*.ro
*.com.ro
*.nt.ro
*.org.ro
*.nom.ro
*.info.ro
*.rec.ro
*.arts.ro
*.store.ro
*.www.ro
*.firm.ro
*.tm.ro
atata timp cat toate au .ro la urma nu mai trebuie construit nici un filtru special pentru acestea.
cele mentionate de mine se iau prin rnc, cu alte cuvinte rnc iti aloca direct un subdomeniu, iar tu iti faci sub-subdomenii
ex:
ceva.domeniu.arts.ro
ceva este subsubdomeniu.
iar domeniu este suddomeniu
arts este domeniul
.ro este TLD-ul.
Eu inteleg prin "pagini romanesti" toate site-urile care au continut in limba romana ... Nu conteaza TLD-ul sau domeniul... continutul este important ... Si murfi are adresa murfi.com ... desi continutul este romanesc... daca iau doar cele cu .ro sau .com.ro s-ar putea sa ratez niste site-uri bune doar pt simplul fapt ca nu au TLD-ul .ro si nu e bine nici corect ...
In viitorul apropiat se va folosi un filtru pentru determinarea limbii ... prin analiza cuvintelor din pagina respectiva, cu ajutorul unui "mic" dictionar ce contine deocamdata peste 420.000 de cuvinte...
în mod normal ar trebui să fie specificat și charset=iso-8859-2 iar chestia asta ar ușura munca dar dacă e charset=iso-8859-1 și nu are diacritice... e mai greu de căutat dupa caracterele specifice șțăîâ
dacă domeniul este cu .com și se află găzduit în afara româniei... sa fie sănătos. dacă e găzduit in ro atunci merită indexat. folosește ip2nation pentru a afla țara.
UTF-8 include iso-8859-2 si iso-8859-1. Iar unii din ei au inceput sa il foloseasca. Cu astia ce faci?
Nu stiu daca asta e un element de baza.
![]()
Krumel - apeleaza la serviciile oferite de mine prin formularul de pe blog.
da așa este. rămâne să faci după domeniu .ro și dacă nu e .ro faci după țară.
mai rămâne treaba cu pagini din romania scrise complet in engleză
Cred ca cea mai buna metoda este analiza continutului ... dupa cum am spus, folosind un dictionar de cuvinte romanesti ... Cel mai usor ar fi daca toata lumea ar respecta standardele si ar pune si ei meta language =ro , etc ... dar... Acum mai e o problema .. exista site-uri, ce-i drept nu chiar demne de bagat in seama care folosesc mai mult imagini decat text .. sau mai rau tot site-ul e facut in flash .. aici chiar nu am ce analiza sau indexa ...Cred ca aici solutia este interventia umana... voi ce credeti ? se poate si altfel ?
O clasa de Ip-uri (dedicata partii .ro a netului) nu ar putea rezolva o parte din treaba?
Krumel - apeleaza la serviciile oferite de mine prin formularul de pe blog.
Momentan este/sunt 1 utilizator(i) care navighează în acest subiect. (0 membrii și 1 vizitatori)