Pagina 3 din 14 PrimulPrimul 1234513 ... UltimulUltimul
Rezultate 21 la 30 din 137

Subiect: Centro.ro - cum il vedeti si cum sa progreseze?

  1. #21
    Avatarul lui casperel
    casperel este deconectat Membru SeoPedia
    Reputatie:
    42
    Data înscrierii
    10th February 2007
    Locaţie
    Bucuresti
    Posturi
    838
    Putere Rep
    42


    Implicit

    Da, e complex, si se lucreaza la el de ani de zile cu o armata de oameni si pe o armata de servere.
    Daca in stadiul in care este... se lucreaza de ani de zile, atunci estimarea lui Tom e realista. Whatever, ce tehnologii folositi pt crawling, ce hardware ?

  2. #22
    Avatarul lui centro
    centro este deconectat Membru SeoPedia
    Reputatie:
    17
    Data înscrierii
    25th June 2015
    Posturi
    34
    Putere Rep
    17


    Implicit

    Citat Postat în original de casperel Vezi Post
    Daca in stadiul in care este... se lucreaza de ani de zile, atunci estimarea lui Tom e realista. Whatever, ce tehnologii folositi pt crawling, ce hardware ?
    Da, estimarea este realista, ba chiar optimista. Pentru absolut tot ce vreau sa scot din aceasta platforma, sigur, este mai mult decat optimista.

    Tehnologiile de crawling sunt putin mai speciale, sunt facute in-house (part C++, part C#), pentru ca se doreste o indexare focusata, organizata, near real-time fara sa streseze serverele site-urilor deloc. Se utilizeaza o combinatie de crawling pseudo-clasic (asemanator Google), plus ajutor partial de la API-uri oferite de Google si Bing pentru a nu stresa site-urile (mici) prin overloading. Ca hardware, sunt in jur de 200 de VPS-uri din EU (AWS si Azure), insumand in jur de 500 000 de IP-uri dinamice (obtinute secunda de secunda crawluind sute de site-uri de proxy-uri cu acelasi motor) de pe care se indexeaza si pe care se tine baza de date distribuita (combinatie intre Oracle, SQL Server si MySQL - fiecare cu atuurile sale). Produsele se localizeaza geografic si se pun pe categorii detectate automat, iar in cazul site-urilor de anunturi, se obtin automat date legate de ele (e.g. date de contact), chiar daca nu sunt in plain-sight (vezi olx.ro).

    Asta, plus multe alte detalii tehnice de administrare, monitorizare, crawling, infrastructura (toate facute evitand orice superficialitate, si cu long-term in cap) = vreo 3 ani de munca, din care 1 an numai pe studii de piata si arhitectura sistemelor.

    Sunt deschis in a share-ui detaliile tehnice ca sa nu creada cineva ca e vreo urma de neseriozitate aici, sau pentru cei care fac comparatii cu proiecte "asemanatoare".

    Cum ziceam si mai devreme: eu sunt aici pentru a vedea feedback-ul fata de idee (ce v-ar placea sa vedeti, sa contina, sa puna in fata, ce nu v-ar placea etc.), nu fata de pagina HTML facuta in 2 ore care nu exprima nimic din ce este in spate deja. Aceasta a fost pusa pentru pura informare. E adevarat ca deja am primit unele indicatii de lucruri rele, multumesc inca o data pentru ele, dar ar fi excelent daca am ramane pe subiect, si nu pe "baah ce stii tu de proiecte si API-uri ... nu esti in stare sa faci asa ceva ca e backgroundu naspa si l inkurile stricate de blog si forum, si in plus a mai fost deja un proiect ca asta neterminat si a murit".
    Ultima modificare făcută de centro; 27th June 2015 la 01:18.

  3. #23
    Avatarul lui Cristi U
    Cristi U este deconectat Super Moderator
    Reputatie:
    50
    Data înscrierii
    26th January 2008
    Locaţie
    Oradea
    Vârstă
    36
    Posturi
    3.172
    Putere Rep
    50


    Implicit

    Pentru initiator: Schimba-ti username-ul, conform regulamentului. Fa o solicitare in acest thread: Doresc sa-mi schimb userul de pe forum

    Despre idee: Este una buna. Nu stiu la ce te-ai astepta sa-ti spunem insa cata vreme nu vedem aproape nimic concret. Abia am reusit sa gasesc niste link-uri functionale jos in footer pentru a avea o idee despre ce ar vrea sa fie. Ce ai tu in spate suna impresionant, mai ales pentru cei care nu suntem nu stiu cat de familiarizati cu backendul, dar nu stiu cat te ajuta asta la a primi feedback concret.

    Repet: Mai mult decat: ideea este una foarte buna, nu stiu ce as putea sa-ti spun momentan. Am facut 2-3 cautari si imi place ce gaseste. Ideea de a nu te limita la magazinele online este una buna. Dar as vrea sa o vad pusa in practica inainte de a-ti putea oferi un feedback concret. Ce-as putea sa-ti spun daca nu vad efectiv functionalitatea?

    Daca nu vreau sa-mi indexezi produsele, ce am de facut?

    Pentru ceilalti: Ce sariti, fratilor, asa pe om? Pe unii parca v-ar fi injurat de toate cele sfinte, asa reactii ati avut. Mai calm...
    Mai dau cate-un sfat juridic aici, uneori chiar despre online. Nu-l rata! :) Vezi și sfaturi de nutritie.

  4. #24
    Avatarul lui MariusS
    MariusS este deconectat Membru SeoPedia
    Reputatie:
    21
    Data înscrierii
    22nd February 2014
    Posturi
    75
    Putere Rep
    21


    1 out of 1 members found this post helpful.

    Implicit

    Eu cand am intrat pe site prima data, pe langa faptul ca mi s-a incarcat greu, nici nu am vazut unde pot da search. Am stat 30 de secunde si am iesit, vazusem chestii irelevante acolo, asa cum deja s-a amintit. Asta a fost experienta mea. Acum site-ul nici nu merge, ca sa ma mai uit o data.

    Legat de ce intrebi tu, de idee, nu am ce sa iti zic, dar tot sunt sceptic in legatura cu ce ai zis legat de ce ai in spate. Nu inteleg de ce ar folosi cineva si C++ si C#, cand doar C++ ar fi ideal aici, e super rapid. C# cand ai zis ca il folosesti deja imi suna a ceva "necurat" in sensul ca am impresia ca doar vrei sa impresionezi pe cei care habar nu au. Eu nu vad la ce ai folosi tu C#, sincer.

    Apoi la fel si la bazele de date. "combinatie intre Oracle, SQL Server si MySQL - fiecare cu atuurile sale" - sa fim sinceri, suna ciudat, adica cine ar folosi la un singur proiect asa ceva. DACA imi spuneai ca folosesti o combinatie intre apache si nginx fiecare cu atuurile sale, DA, te credeam si ma gandeam, bai cam stie ce face. Dar asa ? Nicidecum, am impresia ca ai scris aia ca un necunoscator care vrea sa impresioneze pe alti necunoscatori.

    In fine, nu vreau sa zic ca minti sau sa "dau" in tine. Am vrut doar sa iti zic parerea mea, mai sunt pe aici si oameni care stiu si altceva, nu doar SEO
    Oricum, lasand la o parte ceea ce intrebi tu legat de ideea in sine, cred ca problemele spuse mai inainte sunt toate reale si trebuie rezolvate. Daca foloseai 200 VPS aka CDN sincer mi se incarca site-ul instant, nu in 1 secunda.
    Am vrut sa iti zic parerea mea, tu ia ce e bun din ea

    Multa bafta!

  5. #25
    Avatarul lui casperel
    casperel este deconectat Membru SeoPedia
    Reputatie:
    42
    Data înscrierii
    10th February 2007
    Locaţie
    Bucuresti
    Posturi
    838
    Putere Rep
    42


    Implicit

    Citat Postat în original de centro.ro Vezi Post
    Da, estimarea este realista, ba chiar optimista. Pentru absolut tot ce vreau sa scot din aceasta platforma, sigur, este mai mult decat optimista.

    Tehnologiile de crawling sunt putin mai speciale, sunt facute in-house (part C++, part C#), pentru ca se doreste o indexare focusata, organizata, near real-time fara sa streseze serverele site-urilor deloc. Se utilizeaza o combinatie de crawling pseudo-clasic (asemanator Google), plus ajutor partial de la API-uri oferite de Google si Bing pentru a nu stresa site-urile (mici) prin overloading. Ca hardware, sunt in jur de 200 de VPS-uri din EU (AWS si Azure), insumand in jur de 500 000 de IP-uri dinamice (obtinute secunda de secunda crawluind sute de site-uri de proxy-uri cu acelasi motor) de pe care se indexeaza si pe care se tine baza de date distribuita (combinatie intre Oracle, SQL Server si MySQL - fiecare cu atuurile sale). Produsele se localizeaza geografic si se pun pe categorii detectate automat, iar in cazul site-urilor de anunturi, se obtin automat date legate de ele (e.g. date de contact), chiar daca nu sunt in plain-sight (vezi olx.ro).

    Asta, plus multe alte detalii tehnice de administrare, monitorizare, crawling, infrastructura (toate facute evitand orice superficialitate, si cu long-term in cap) = vreo 3 ani de munca, din care 1 an numai pe studii de piata si arhitectura sistemelor.

    Sunt deschis in a share-ui detaliile tehnice ca sa nu creada cineva ca e vreo urma de neseriozitate aici, sau pentru cei care fac comparatii cu proiecte "asemanatoare".

    Cum ziceam si mai devreme: eu sunt aici pentru a vedea feedback-ul fata de idee (ce v-ar placea sa vedeti, sa contina, sa puna in fata, ce nu v-ar placea etc.), nu fata de pagina HTML facuta in 2 ore care nu exprima nimic din ce este in spate deja. Aceasta a fost pusa pentru pura informare. E adevarat ca deja am primit unele indicatii de lucruri rele, multumesc inca o data pentru ele, dar ar fi excelent daca am ramane pe subiect, si nu pe "baah ce stii tu de proiecte si API-uri ... nu esti in stare sa faci asa ceva ca e backgroundu naspa si l inkurile stricate de blog si forum, si in plus a mai fost deja un proiect ca asta neterminat si a murit".
    Si la cate site-uri faceti crawling de aveti nevoie de 200 de instante ? Incerc sa-mi fac o imagine a ceea ce intreprindeti voi acolo.

  6. #26
    Avatarul lui centro
    centro este deconectat Membru SeoPedia
    Reputatie:
    17
    Data înscrierii
    25th June 2015
    Posturi
    34
    Putere Rep
    17


    Implicit

    Daca nu vreau sa-mi indexezi produsele, ce am de facut?
    Nu sunt sigur inca. Probabil se va pune la dispozitie si optiunea asta. Exista vreo implicatie legala daca nu prea ai ce sa faci?

    De ce ar folosi cineva si C++ si C#
    Un proiect de o astfel anvergura, are nevoie de o mentenanta foarte buna, pentru ca altfel pica in cap. Mentenanta are multe de suferit daca toate s-ar face intr-un limbaj low level. Acolo unde performantele nu sunt cu mult diferite, s-a preferat C#, si bagat banii in hardware care se ieftineste pe zi ce trece nowadays, decat cheltuit mult pe putinii oameni ramasi pe aici care stiu sa debuguiasca low level. Si in plus, sunt si chestii high level in centro.ro, ce au nevoie de RAD, nu de C++ (aplicatii accesorii de monitorizare, administrarea datelor, administrarea VPS-urilor si alte interfete). Motive similare si pentru alegerea bazelor de date, dar nu e cazul sa explic acum, decat daca tii neaparat.

    Daca foloseai 200 VPS aka CDN sincer mi se incarca site-ul instant
    Serverul web e unul singur. Momentan. Si in plus, pentru cei ca tine care stiu si altceva inafara de SEO, sunt convins ca s-a vazut clar ca nu e vorba de viteza de transfer. Si deci puteam sa pun pagina aia si pe 2000 de servere in CDN, ca tot la fel s-ar misca, atata timp cat codul din spate este facut la plezneala (asa cat pentru un DEMO de idee in versiune pre-incipienta).

    Si la cate site-uri faceti crawling
    La toate
    Sistemul e design-uit sa faca crawling la toate site-urile posibile de pe la noi (inclusiv thread-uri de bursa din forumuri si bloguri), chiar daca momentan e doar un subset din ele.
    Chiar ma intreb daca a citit cineva ceva de pe pagina aia HTML atat de mult criticata: "Centro.ro cauta si analizeaza milioane de produse si oferte de pe toate magazinele online si site-urile de anunturi din Romania."
    Ultima modificare făcută de centro; 27th June 2015 la 13:02.

  7. #27
    Avatarul lui casperel
    casperel este deconectat Membru SeoPedia
    Reputatie:
    42
    Data înscrierii
    10th February 2007
    Locaţie
    Bucuresti
    Posturi
    838
    Putere Rep
    42


    Implicit

    @centro.ro: cred ca am citit, dar "toate" nu inseamna un numar. Pentru tine "toate" poate insemna 50 de site-uri, pentru mine... 1.000 de site-uri, iar in realitate sa fie cateva zeci de mii de site-uri care se potrivesc profilului (magazin online / site anunturi). Whatever, succes pe mai departe.

  8. #28
    Avatarul lui koobie
    koobie este deconectat Membru SeoPedia
    Reputatie:
    19
    Data înscrierii
    24th October 2014
    Vârstă
    28
    Posturi
    152
    Putere Rep
    19


    Implicit

    Server Error in '/' Application.

    This SqlTransaction has completed; it is no longer usable.

    Description: An unhandled exception occurred during the execution of the current web request. Please review the stack trace for more information about the error and where it originated in the code.

    Exception Details: System.InvalidOperationException: This SqlTransaction has completed; it is no longer usable.

    Source Error:

    An unhandled exception was generated during the execution of the current web request. Information regarding the origin and location of the exception can be identified using the exception stack trace below.

    Stack Trace:


    [InvalidOperationException: This SqlTransaction has completed; it is no longer usable.]
    System.Data.SqlClient.SqlTransaction.ZombieCheck() +991813
    System.Data.SqlClient.SqlTransaction.get_Isolation Level() +9
    Telerik.OpenAccess.Runtime.Logging.LoggingDbComman d.set_DbTransaction(DbTransaction value) +91
    System.Data.Common.DbCommand.set_Transaction(DbTra nsaction value) +10
    Telerik.OpenAccess.Data.Common.OACommand.set_Trans action(OATransaction value) +91
    Telerik.OpenAccess.Data.Common.OAConnection.Create Command() +38
    Telerik.OpenAccess.OpenAccessContextBase.ExecuteQu ery(String commandText, CommandType commandType, DbParameter[] parameters) +90
    Centro.Data.Entities.CentroEntities.GetFeaturedPro ducts() in d:\proj\Sysgram\Sources\centro.ro\Centro.Data\Cent ro.Data.Entities\Entities\CentroEntities.cs:1392
    Centro.Web.GUI.HomePage.Page_Load(Object sender, EventArgs e) in d:\proj\Sysgram\Sources\centro.ro\Centro.Web\Centr o.Web.GUI\Default.aspx.cs:17
    System.Web.Util.CalliEventHandlerDelegateProxy.Cal lback(Object sender, EventArgs e) +51
    System.Web.UI.Control.OnLoad(EventArgs e) +92
    System.Web.UI.Control.LoadRecursive() +54
    System.Web.UI.Page.ProcessRequestMain(Boolean includeStagesBeforeAsyncPoint, Boolean includeStagesAfterAsyncPoint) +77

  9. #29
    Avatarul lui centro
    centro este deconectat Membru SeoPedia
    Reputatie:
    17
    Data înscrierii
    25th June 2015
    Posturi
    34
    Putere Rep
    17


    Implicit

    Server Error in '/' Application.

    This SqlTransaction has completed; it is no longer usable.

    Description: An unhandled exception occurred during the execution of the current web request. Please review the stack trace for more information about the error and where it originated in the code.

    Exception Details: System.InvalidOperationException: This SqlTransaction has completed; it is no longer usable.

    Source Error:

    An unhandled exception was generated during the execution of the current web request. Information regarding the origin and location of the exception can be identified using the exception stack trace below.

    Stack Trace:


    [InvalidOperationException: This SqlTransaction has completed; it is no longer usable.]
    System.Data.SqlClient.SqlTransaction.ZombieCheck() +991813
    System.Data.SqlClient.SqlTransaction.get_Isolation Level() +9
    Telerik.OpenAccess.Runtime.Logging.LoggingDbComman d.set_DbTransaction(DbTransaction value) +91
    System.Data.Common.DbCommand.set_Transaction(DbTra nsaction value) +10
    Telerik.OpenAccess.Data.Common.OACommand.set_Trans action(OATransaction value) +91
    Telerik.OpenAccess.Data.Common.OAConnection.Create Command() +38
    Telerik.OpenAccess.OpenAccessContextBase.ExecuteQu ery(String commandText, CommandType commandType, DbParameter[] parameters) +90
    Centro.Data.Entities.CentroEntities.GetFeaturedPro ducts() in d:\proj\Sysgram\Sources\centro.ro\Centro.Data\Cent ro.Data.Entities\Entities\CentroEntities.cs:1392
    Centro.Web.GUI.HomePage.Page_Load(Object sender, EventArgs e) in d:\proj\Sysgram\Sources\centro.ro\Centro.Web\Centr o.Web.GUI\Default.aspx.cs:17
    System.Web.Util.CalliEventHandlerDelegateProxy.Cal lback(Object sender, EventArgs e) +51
    System.Web.UI.Control.OnLoad(EventArgs e) +92
    System.Web.UI.Control.LoadRecursive() +54
    System.Web.UI.Page.ProcessRequestMain(Boolean includeStagesBeforeAsyncPoint, Boolean includeStagesAfterAsyncPoint) +77
    Eh.. Păţăşti.. La tăţi ni greu..

  10. #30
    Avatarul lui puthre
    puthre este deconectat Ambasador
    Reputatie:
    80
    Data înscrierii
    21st February 2011
    Locaţie
    București
    Posturi
    2.154
    Putere Rep
    80


    1 out of 1 members found this post helpful.

    Implicit

    Citat Postat în original de centro.ro Vezi Post
    Chiar ma intreb daca a citit cineva ceva de pe pagina aia HTML atat de mult criticata: "Centro.ro cauta si analizeaza milioane de produse si oferte de pe toate magazinele online si site-urile de anunturi din Romania."
    In Romania sunt sub 10.000 de magazine online (undeva in jur de 5.000) cu un total de 10 - 15 milioane de produse (cel mai probabil sunt sub 10 dar hai sa fim generosi). Siteuri de anunturi probabil de ordinul zecilor iar cele mai importante le numeri pe degete (olx dupa cum chiar ei spun au cam 4 milioane de anunturi). Sa zicem ca restul siteurilor mai au inca pe atat. Deci ar fi in total in jur de 15 + 8 = 23 de milioane de pagini de crawluit. Hai sa zicem rotund 30 de milioane incluzand pagini de categorii, etc. (Google.ro in total arata ca are in index pe romania "site:ro" 164 de milioane deci cel mai probabil 30 de milioane cat am calculat doar cu pagini de anunturi si produse e destul de exagerat)
    250 de milioane de pagini (adica de aproape 10 ori mai mult) pot fi crawluite cu 20 de instante amazon EC2 in 39 de ore (How to crawl a quarter billion webpages in 40 hours | DDI).
    Daca voi folositi de 10 ori mai multe masini pentru de 10 ori mai putine pagini inseamna ca sunteti cam de 100 de ori mai ineficienti decat ati putea fi, folosind 200 de masini acolo unde ati putea folosi 2-3, hai sa zicem 4 si ca aveti costuri de sustinere a instalatiei pentru o luna cat ar trebui sa aveti pentru 8 ani. Sau mai exista explicatia mult mai plauzibila ca ati exagerat cand ati mentionat acest numar.

    In rest ideea nu am cum sa zic ca nu ar fi buna pentru ca lucrez la un proiect oarecum similar doar ca putin mai nisat, orientat mai mult pe relevanta si particularitatile limbii romane si mai putin pe volum. Am incercat sa vad cat de relevant e centro.ro dar inca nu prea am reusit pentru ca de cele mai multe ori primesc inapoi backtraceuri de erori de sql asa ca nu imi pot da inca cu parerea.
    Caut cu jingle.ro.

Pagina 3 din 14 PrimulPrimul 1234513 ... UltimulUltimul

Informații subiect

Utilizatori care navighează în acest subiect

Momentan este/sunt 1 utilizator(i) care navighează în acest subiect. (0 membrii și 1 vizitatori)

Thread-uri Similare

  1. Răspunsuri: 9
    Ultimul Post: 9th January 2015, 19:44
  2. Unde va vedeti peste 5 ani?
    De No_name în forumul Bar, lobby...
    Răspunsuri: 4
    Ultimul Post: 29th September 2013, 02:39
  3. Cum vedeti online-ul cu astfel de extensii?
    De haos în forumul Bar, lobby...
    Răspunsuri: 15
    Ultimul Post: 6th September 2012, 13:18
  4. Cum definiti si vedeti Spamul
    De RoManiac în forumul SPAM made in .RO
    Răspunsuri: 6
    Ultimul Post: 2nd March 2011, 08:33

Etichete pentru acest subiect

Permisiuni postare

  • Nu puteţi posta subiecte noi.
  • Nu puteţi răspunde la subiecte
  • Nu puteţi adăuga ataşamente
  • Nu puteţi modifica posturile proprii
  •