Stiu dar in ambele cazuri trebuie sa faca o verificare.
Versiune printabilă
Salutare,
Probabil ca acesta nu este nici primul si nici ultimul crawler care cauta si conturile de adsense & analytics asa ca cel mai util ar fi ca cei ce doresc sa-si pastreze un anumit grad de anonimitate sa caute solutii. Prima care imi vine in minte (nu rezolva complet problema) este mutarea codurilor respective in fisiere externe; macar stim ca scapam de crwlerul lui starnet... care pentru moment nu parseaza si js-urile :)
crawler custom facut de mine de la 0
pai momentan e doar optiunea de meta, nici ea nu e inca implementata cap coada dar pana la lansare va fi. A doua optiune pentru o stergere mai rapida e submit la un form cu verificare existenta un fisier in root-ul domeniului. Cel mai probabil voi implementa si acest lucru.
Update despre proiect: cand am facut crawler nu am luat in considerare domenii de forma: com.ro, co.uk, etc ... asa ca acuma lucrez la acest lucru :)
ok ... un scurt update ... doar o ora mai tarziu si am reusit sa iau in considerare si tld-urile de forma com.ro, co.uk, etc ... adica daca pana acuma, spre exemplu, pentru domeniul: curs.com.ro inregistram in baza de date tld: ro iar cand afisam pe site ziceam ca curs.com.ro e subdomeniu al domeniului principal com.ro acuma curs.com.ro e tratat ca si domeniu principal cu tld-ul com.ro ... la fel se aplica si pentru restu de cateva sute ( sau mii .. naiba stie ) de astfel de combinatii de genul com.ro, net.ro, arts.ro, co.uk, , gov.tl .. etc ...
Pagina de detalii domeniu e gata .. urmeaza sa se implementeze detalii de la alexa dar aia va fi dupa lansare
Pagina de cautare domenii e gata, inclusiv cele cu detalii tld
Urmeaza pagina pentru cautare dupa ip-uri, analytics si adsense.
cel mai probabil in maxim 2 saptamani proiectul va fi lansat, intre timp va las cu un screenshot de la pagina de domenii
Optiunea cu meta nu mi se pare deloc ok. Daca mai sunt 100 ca tine, eu ce fac, pun 100 de metauri in header? Ti se pare normal? Dar daca am sa zicem vreo 300 de siteuri, ce fac? Cat imi ia sa pun meta-uri pe fiecare?
Stelian, nu e primul, nici ultimul, corect. Dar vezi tu, celelalte sunt pe extern si foarte putine sau aproape niciunul nu reuseste sa acopere piata din romania, ceea ce pt noi e ok :) Acum intelegi pericolului unui astfel de crawler local? De ce sa gasesc eu solutii, cand exista una general valabila numita robots.txt ?
Rares ... ai inteles gresit, eu nu fac pentru piata locala. Target-ul meu e global si cele cateva zeci de mii de site-uri din ro sunt a mia parte din baza de date pe care vreau sa o construiesc. Dupa cum vezi in screenshot crawl s-a dus pe o gramada de tld-uri ... oricum baza asta de date de acum este doar de test si o sa o sterg iar la lansare pornesc cu una fresh in care seed-urile o sa fie cate un site din fiecare tld existent.
Pe de o parte ai dreptate cu meta-urile. Cred ca voi renunta pana la urma la acea implementare si voi ramane doar pe cea cu fisier. Gandul meu e urmatorul:
vrei sa scotide pe wsidb un site. Intri pe wsidb, dai click pe deindexare, bagi urlul tau, iti da un fisier sa downlodezi, incarci fisierul pe root, in aceeasi pagina de unde descarci fisierul apesi pe butonul check, se face verificarea ca exista fisierul si odata ce verificarea este facuta, site-ul e deindexat iar fisierul poate fi sters si astfel acel site nu va mai fi indexat niciodata. La fel si daca se doreste reindexarea dupa deindexare.
La fel cred ca pot face si pentru ip, vrei deindexat complet un ip si toate site-urile care sunt pe acel ip sa nu mai fie indexate .. foarte simplu adaugi fisierul in root-ul htdocs-ului astfel incat http://12.34.56.78/nume-fisier-wsidb.html sa fie vizibil pe internet .. si totul e ok ...
Cu asta cred ca impac destul de multa lume ...
La lansare prima varianta o voi face, a doua urmand sa apara dupa lansare la o perioada relativ scurta.
--- Later Edit --- (ca mi-a fost lene sa apas "Edit")
LE: si pentru a usura munca celor care doresc sa deindexeze mai multe site-uri fisierul downlodat va fi unic de genul: nowsidb.html ... si o sa ofer si un formular de bulk deindex .. practic downlodezi odata fisierul, il pui pe toate site-urile pe care vrei sa le deindexezi, bagi toate url-urile intr-o casuta, se verifica existenta fisierului si gata.
Oricum ... de apreciat ca ofer aceasta posibilitate de deindexare deoarece multe alte site-uri similare nu ofera aceasta posibilitate.
Macar din discutia care am avut-o asta e al doilea lucru bun pe care l-am scos ... o metoda ok pentru deindexare ... ( dupa statisticile dupa nameservere )
Alte sugestii ?
--- Later Edit --- (ca mi-a fost lene sa apas "Edit")
Inca un small update:
- estimare: 20 de milioane de site-uri crawluite = baza de date 4 GB in formatul actual
- statistica, din crawlul de test in care am crawluit 20624 site-uri:
Sites that use Adsense: 17%
Sites that use Analytics: 39%
Domains that returned a webpage: 87%
Redirected domains: 8%
Poate-i faci si un API cu acces pe baza de abonament ;).
M-am gandit si la monetizare.
Treaba sta in felul urmator. Voi oferi maxim 60 de domenii pentru fiecare aspect. De genul: maxim 60 de domenii hostate pe un singur ip sau o singura clasa sau un singur cont de analytics, adsense, etc ... restul va fi pe bani. 1 cent pe domeniu.
De exemplu daca pe un cont de adsense sunt tinute 400 de domenii, 60 le afisez gratuit, restul de 440 costa 4,4 usd.
Plata va fi exclusiv prin paypal.
Nu va fi la lansare aceasta optiune dar va aparea pe parcurs.
Intre timp cam tot proiectul incepe sa prinda forma. Se poate cauta deja dupa site, ip, analytics si adsense. Mai urmeaza dupa titlu si e gata. Statisticile sunt si ele toate gata inclusiv pentru fiecare domeniu principal se afiseaza toate subdomeniile ( in aceeasi limita de 60 mentionata anterior ).
Urmeaza sa introduc dupa lansare cel putin pentru versiunea in romana, urmand ca dupa sa ma extind si pe alte limbi, o facilitate de keyworduri. Practic va fi ceva de genul: ro.wsidb.com sau wsidb.com/ro/ in care se vor prezenta top 100/200/500/1000 sau cine stie cate cuvinte cheie folosite pe site-urile in limba romana si se va putea vedea 60 de site-uri care folosesc acel cuvant/acele cuvinte. Partea aceasta inca e in faza de concept deoarece pentru cuvinte cheie formate dintr-un singur cuvant scriptul este gata dar pentru combinatii de 2 sau mai multe cuvinte ... inca nu stiu cum sa realizez acest aspect.
Problema ta se cheama "terminology extraction"(Terminology extraction - Wikipedia, the free encyclopedia), si daca te intereseaza putem vorbi despre subiect ca eu cam am idee cum se implementeaza.