Salut, vreau si eu un PM sa vad varianta BEATA, multumesc.
Studiu de caz pentru un magazin online, FashionLand, Bld, Bulevardul Regele Mihai I 55, Baia Mare 430012
Mi-ar place placere sa testez si eu proiectul. Daca am asentimentul tau lasa-mi si mie un pm cand va fi cazul.
.
Scuze, am tastat de pe mobil, fiind ecranul mic mi-a scapat, as vrea sa testez si eu varianta BETA daca se poate, mersi mult.
Studiu de caz pentru un magazin online, FashionLand, Bld, Bulevardul Regele Mihai I 55, Baia Mare 430012
M-am gandit sa postez un mic update despre proiect, intrucat multi s-au aratat interesati.
Deocamdata s-a incheiat cu succes prima faza, cea mai dificila, si anume spiderul. Aici au fost probleme zdravene de optimizare, din mai multe motive:
- Softul este gandit deocamdata sa ruleze single server, nu in cluster (asta va fi poate pe viitor)
- Cantitatea de date procesata este evident mare, si o viteza de procesare decenta cat si spatiul de stocare, impun optimizare "la sange"
- Cu cresterea bazei de date, pot aparea probleme mari de scalare. Sper din tot sufletul, ca aceste probleme sunt acum rezolvate.
Nota importanta: Deocamdata NU se poate testa nimic, intrucat ceea ce este acum disponibil sunt niste fisiere binare, intr-o baza de date, care n-ar spune nimic nimanui.
Acum urmeaza inca 2 etape (din fericire mult mai scurte):
- indexerul - este un alt serviciu, care proceseaza datele stocate si genereaza factorii de ranking. Din motive de performanta, ruleaza independent de spider (ritmul lor de lucru este foarte diferit).
- partea de front-end pentru search engine (interfata), care face si selectia si sortarea propriu-zisa a datelor, si afiseaza practic ceea ce vede utilizatorul, cand face o cautare.
Pot spune ca greul a trecut; indexerul si front-endul sunt mai mult distractie pentru un coder.
Dupa ce aceste 2 module sunt gata, voi putea lansa prima parte a proiectului, care este evident free, si anume motorul de cautare. Nu ma astept sa fie chiar un succes comercial, sau sa-l inlocuiasca pe Google. Sper insa ca va oferi o alternativa de cautare informatii relevante, si ca se va dovedi util in acest mod.
Partea de front-end are si ea un task chiar greu: relevanta search-ului, si suportul lingvistic. Aici dau chix mai toate motoarele de cautare. Varianta initiala a proiectului va avea suport mai limitat pentru diacritice (rezultatele cu/fara diacritice vor fi identice). Mai problematice sunt flexiunile; inca nu am o solutie perfecta pentru asta. Probabil prima varianta beta va folosi mai mult exact match si suport pentru "flexiuni posibile", dar e posibil sa intoarca si unele rezultate nu tocmai precise.
Urmatorul pas ar fi partea a doua, cea care va oferi informatii de tip webmaster utilizatorilor, care va fi mult mai interesanta pentru membrii de pe forum.
Aici, este loc de o multime de lucruri, dar idei inca trebuiesc adunate. Deocamdata prima idee este furnizarea de informatii privind link structure, link-urile inbound, outbound, rank intern, "PR" transmis de fiecare site, nofollow si dofollow, statistici site etc.
Ulterior sper sa pot oferi si alte informatii avansate. Nu voi vorbi inca despre ele, dar sper sa fie o surpriza placuta. Sunt ceva idei interesante pe rol, sa vedem daca voi gasi si solutiile tehnice de implementare.
Nota: la partea de avansate va fi foarte mult de munca; nu stiu daca nu cumva va trebui sa existe si o versiune paid a proiectului. Intentia mea este sa fie pe cat posibil un proiect free, dar s-ar putea ca partea de avansate sa necesite o echipa de dezvoltare, caz in care costurile vor trebui suportate cumva. Dar chiar si in acest caz, probabil va exista un acces free si la informatiile avansate, cu limita de utilizare, pentru ca fiecare sa-si dea seama daca chiar ii este util sau nu).
Sper ca aceste 2 sub-proiecte (search engine si webmaster/seo info) sa fie live, in faze beta, in termen de 1-2 luni maxim.
Pentru ultimul proiect, si anume analiza de nisa, nu am inca un termen. Aici va trebui sa asamblez o echipa de coderi care sa-mi continue munca. Nu mai e o treaba pentru un singur dezvoltator.
informatii relevante = cuvantul magic
Toti suntem intersati de asa ceva si la o adica si investitorii.
Daca te ajuta la ceva, am inceput sa numar paginile indexate la statistici retele sociale.
Ulterior m-am gandit ca e interesanta o comparatie cu yahoo, bing sau actualele motoare de cautare romanesti.
Daca am timp data viitoare...
Ca idee continua si asteptam vesti bune.
Credinta la institutiile specializate. Aici facem Servicii de seo
Mi se spunea 1nesco
Multumesc, 1nesco!
Dealtfel, orice idee de functie utila, primita in acest thread, pentru care gasesc solutie tehnica, voi cauta sa o implementez.
De remarcat insa ca pentru mine, partea de search engine este un proiect secundar (celelalte 2 sunt mai importante din punctul meu de vedere). E pur si simplu o rezultanta logica a utilizarii datelor. Nu voi sta sa fac foarte mari investitii in relevanta, ci doar sa o aduc la un nivel decent... pe cat posibil.
--- Later Edit --- (ca mi-a fost lene sa apas "Edit")
Asta pentru ca este destul de greu sa ii iei painea de la gura lui Google (mult trambitata relevanta).
--- Later Edit --- (ca mi-a fost lene sa apas "Edit")
Si un comentariu despre relevanta si spam:
Google are probleme cu spam-ul, dupa parerea mea, tocmai pentru ca spam-filtering-ul se face mai ales automatic. De aici, probleme mari cu relevanta, intrucat algoritmii lor sunt din ce in ce mai orientati pe trust si mai putin pe relevanta. Practic spammerii castiga teren, in lupta cu G. De aici, faptul ca rezultatele relevante sunt de multe ori pe pozitia 462.
Acest motor de cautare este mult mai mic ca domeniu (pagini ro). Daca va fi suficient de bun din punct de vedere comercial, va avea o echipa full-option de manual ban, si dezvoltatori care sa implementeze filtre conform tentativelor de spam detectate. Poate sortarea nu va fi perfecta (ranking-ul), dar macar sper sa nu apara rezultate complet anapoda in index.
Lucru care imi da oarecari sperante cu relevanta. Dar, fireste, e devreme sa stiu sigur.
Ba cred ca poti concura cu google.
Personal, cand chiar ma intereseaza ceva, utilizez MetaCrawler
Credinta la institutiile specializate. Aici facem Servicii de seo
Mi se spunea 1nesco
foloseste Levenshtein distance - Wikipedia, the free encyclopedia pentru similaritatea cuvintelor Reusable Code: Levenshtein distance
Momentan este/sunt 1 utilizator(i) care navighează în acest subiect. (0 membrii și 1 vizitatori)