27th June 2015, 14:21
#10
1 out of 1 members found this post helpful.

Postat în original de
centro.ro
Chiar ma intreb daca a citit cineva ceva de pe pagina aia HTML atat de mult criticata: "Centro.ro cauta si analizeaza milioane de produse si oferte de pe toate magazinele online si site-urile de anunturi din Romania."
In Romania sunt sub 10.000 de magazine online (undeva in jur de 5.000) cu un total de 10 - 15 milioane de produse (cel mai probabil sunt sub 10 dar hai sa fim generosi). Siteuri de anunturi probabil de ordinul zecilor iar cele mai importante le numeri pe degete (olx dupa cum chiar ei spun au cam 4 milioane de anunturi). Sa zicem ca restul siteurilor mai au inca pe atat. Deci ar fi in total in jur de 15 + 8 = 23 de milioane de pagini de crawluit. Hai sa zicem rotund 30 de milioane incluzand pagini de categorii, etc. (Google.ro in total arata ca are in index pe romania "site:ro" 164 de milioane deci cel mai probabil 30 de milioane cat am calculat doar cu pagini de anunturi si produse e destul de exagerat)
250 de milioane de pagini (adica de aproape 10 ori mai mult) pot fi crawluite cu 20 de instante amazon EC2 in 39 de ore (How to crawl a quarter billion webpages in 40 hours | DDI).
Daca voi folositi de 10 ori mai multe masini pentru de 10 ori mai putine pagini inseamna ca sunteti cam de 100 de ori mai ineficienti decat ati putea fi, folosind 200 de masini acolo unde ati putea folosi 2-3, hai sa zicem 4 si ca aveti costuri de sustinere a instalatiei pentru o luna cat ar trebui sa aveti pentru 8 ani. Sau mai exista explicatia mult mai plauzibila ca ati exagerat cand ati mentionat acest numar.
In rest ideea nu am cum sa zic ca nu ar fi buna pentru ca lucrez la un proiect oarecum similar doar ca putin mai nisat, orientat mai mult pe relevanta si particularitatile limbii romane si mai putin pe volum. Am incercat sa vad cat de relevant e centro.ro dar inca nu prea am reusit pentru ca de cele mai multe ori primesc inapoi backtraceuri de erori de sql asa ca nu imi pot da inca cu parerea.