Pagina 4 din 4 PrimulPrimul ... 234
Rezultate 31 la 39 din 39

Subiect: Proiect triplu (motor de cautare si nu numai)

  1. #31
    Avatarul lui emm
    emm
    emm este deconectat Ambasador
    Reputatie:
    56
    Data înscrierii
    11th November 2006
    Posturi
    829
    Putere Rep
    56


    Implicit

    Citat Postat în original de avram Vezi Post
    Multumesc mult, este util. Totusi implementarea nu va fi atat de simpla. Dar este un punct bun de start.

    Iti dau si un exemplu: cuvantul "roata" si flexiunea "roti". Distanta Levenshtein este 3, totusi cuvintele sunt extrem de aproape unele de altele.
    Daca as accepta Levenshtein <=3 ca principiu, ar aparea o gramada de garbage in search results.

    Probabil ca va trebui sa folosesc o combinatie de Levenshtein si date statistice pe dictionarul master... si asta de obicei inseamna o gramada de consum CPU.

    --- Later Edit --- (ca mi-a fost lene sa apas "Edit")

    Ca si contraexemplu care arata ce spun: cuvantul "Roma" are distanta 2 fata de "roti", deci mai mic decat "roata", si totusi nu are nicio legatura cu acesta.

    --- Later Edit --- (ca mi-a fost lene sa apas "Edit")

    Nu stiu cum face Google, dar el intoarce totusi rezultate foarte diferite intre cele 2 cuvinte.

    Probabil ca o solutie simpla este sa las userul sa decida.... exact match sau distanta = 1, 2, 3.

  2. #32
    Avatarul lui c_n_m
    c_n_m este deconectat Ambasador
    Reputatie:
    38
    Data înscrierii
    25th February 2006
    Locaţie
    București / Ilfov
    Vârstă
    52
    Posturi
    622
    Putere Rep
    38


    Implicit

    Formele de plural (ex. roti pentru roata) sunt probabil usor de implementat ca sa tii cont de ele. Ideea este daca le poti gasi undeva pe toate, ca sa faci implementarea automat. Parca era o baza de date pentru DEX pe care poti sa arunci o privire sa vezi daca structura ei iti permite sa poti prelua aceasta informatie, adica forma de plural.

    O problema similara probabil ca exista la familiile de cuvinte (cuvinte care au o radacina comuna, insa prefixe si/sau sufixe diferite). Poate ca dexul te va ajuta si in aceasta privinta. Bafta!

  3. #33
    Avatarul lui emm
    emm
    emm este deconectat Ambasador
    Reputatie:
    56
    Data înscrierii
    11th November 2006
    Posturi
    829
    Putere Rep
    56


    Implicit

    Citat Postat în original de c_n_m Vezi Post
    Formele de plural (ex. roti pentru roata) sunt probabil usor de implementat ca sa tii cont de ele. Ideea este daca le poti gasi undeva pe toate, ca sa faci implementarea automat. Parca era o baza de date pentru DEX pe care poti sa arunci o privire sa vezi daca structura ei iti permite sa poti prelua aceasta informatie, adica forma de plural.

    O problema similara probabil ca exista la familiile de cuvinte (cuvinte care au o radacina comuna, insa prefixe si/sau sufixe diferite). Poate ca dexul te va ajuta si in aceasta privinta. Bafta!
    Multumesc. Nu sunt un expert in lingvistica/gramatica, dar incerc sa ma descurc.

    Din pacate, intentionez sa folosesc platforma ulterior si pentru alte tari/limbi. Implementarea custom a acestei chestiuni in n limbi, folosind o lista preluata de undeva, este destul de dificila, si nu o vad ca fiind cea mai buna solutie.

    Voi incerca sa folosesc un instrument automat pentru generarea familiei de cuvinte, folosind o combinatie de factori, de exemplu distanta Levenshtein + densitatea cuvintelor in paginile care contin cuvantul radacina. Analiza statistica ar trebui sa rezolve problema.

  4. #34
    Avatarul lui emm
    emm
    emm este deconectat Ambasador
    Reputatie:
    56
    Data înscrierii
    11th November 2006
    Posturi
    829
    Putere Rep
    56


    Implicit

    Update:

    Partea de calcul intern PR este acum gata (o prima versiune). Urmeaza indexul lingvistic... si partea de interfata search engine.

    (Nota: In timp ce scriu, tocmai imi nenoroceste temporar laptopul care sta cu CPU 100% si frige.)

    Revenind la subiect, ceva interesant:

    Am dat accidental peste o confirmare a faptului ca domeniile sunt mai valoroase decat subdomeniile in ce priveste rezultatele in motoarele de cautare, asta in timp ce aplicam propriul algoritm gen PR.

    In principiu, toate domeniile au un PR unitar by default (sa zicem PR=1 unit, atentie ma refer la PR-ul intern nu la cel de Google toolbar); acest default se foloseste in calculul total al PR-ului unei pagini, se divide la numarul de link-uri din pagina si se imprastie ca link juice in intregul sistem. (La care se adauga juice-ul extern primit.)

    Acest PR=1 unit default, nu se poate aplica si pentru subdomenii, pentru ca atunci ai putea face 1000 de subdomenii linking back catre domeniu, si ai avea 1000x1 unit = 1000 PR units trimise catre domeniu (ca si cum ai avea 1000 domenii linking in). Din acest motiv, subdomeniile nu primesc acel PR=1 unit default.

    In schimb, subdomeniile primesc o fractiune de PR de la domeniu, conform regulii pagerank (PR-ul paginii / numarul de link-uri din pagina), plus cele externe. Si evident transmit inapoi o parte din juice-ul primit din link-uri externe.

    (Nota: Sper ca e cat de cat inteligibil ce am scris mai sus.)

    --- Later Edit --- (ca mi-a fost lene sa apas "Edit")

    Ma uitam intr-un chunk de date, si urmaream siturile sortate dupa PR.

    Wow. Chestia asta (proiectul) pare sa iasa ceva destul de tare la final, in special subproiectul de webmaster/seo info.

  5. #35
    Avatarul lui lovelife
    lovelife este deconectat Ambasador
    Reputatie:
    100
    Data înscrierii
    8th July 2006
    Locaţie
    Galati
    Vârstă
    48
    Posturi
    5.993
    Putere Rep
    100


    Implicit

    Am dat accidental peste o confirmare a faptului ca domeniile sunt mai valoroase decat subdomeniile in ce priveste rezultatele in motoarele de cautare,
    Valabil poate pentru motorul tau, dar nu [putem sti cum gandeste google
    Nu ma pricep la SEO dar ma bag in seama

  6. #36
    Avatarul lui emm
    emm
    emm este deconectat Ambasador
    Reputatie:
    56
    Data înscrierii
    11th November 2006
    Posturi
    829
    Putere Rep
    56


    Implicit

    Si un update ceva mai dezamagitor:

    Abia acum cand proiectul este intr-o faza apropiata de final, am reusit sa-mi dau seama de performante... si ce implica.

    Problema este ritmul de indexare si dimensiunea web-ului romanesc, fata de puterile unui singur PC, fie el si unul performant.

    Pentru proiectul 1 (motor de cautare) si 2 (analiza seo) ar trebui indexate toate domeniile romanesti + cel putin 2-3 nivele de sub-pagini. Adica undeva peste 100 milioane pagini efectiv indexate, si probabil de filtrat cateva miliarde url-uri. Am calculat, pe un singur server, ar trebui intre 250 si 500 de zile pentru un refresh al intregului web ro.

    Singura solutie ar fi probabil un cluster cu vreo 50 de servere, ruland in paralel (cloud...), cu latime de banda serioasa, etc. Numai ca... investitia asta nu e rentabila oricum ai da-o, pentru un proiect gandit sa fie mai mult free.

    Ca atare:

    - pentru 1 (motor de cautare complet) nu am solutie momentan (si nu vreau sa lansez un "ceva" aproximativ, cum au tot fost lansate)

    - pentru 2, analiza seo, as putea incerca un refresh pe nivele. Adica domeniile si subdomeniile (home page) sa fie indexate frecvent, iar paginile secundare mult mai lent (functie si de PR). Proiectul ar putea furniza informatii utile, insa cu siguranta nu si complete. O actualizare completa care sa includa si cele mai obscure pagini, ar putea dura cateva luni.

    Ramane insa in picioare, proiectul 3 - analiza de nisa (care insa imi solicita sa adun o echipa, asa ca inca ma mai gandesc la partea de fezabilitate).

    Astept pareri, daca sunt, eventual pentru punctul 2.

    --- Later Edit --- (ca mi-a fost lene sa apas "Edit")

    ... Cu toate acestea, incep sa cred ca motorul de cautare va fi util, chiar daca nu va fi atat de complet, cel putin in prima varianta. Va oferi cu siguranta o selectie alternativa de rezultate utile, si in principiu, majoritatea siturilor importante pe un anumit domeniu pot fi cuprinse.

    Am facut cateva teste de moment si rezultatele sunt interesante. Sper sa pot lansa un beta cat de curand, moment in care voi anunta pe toti cei interesati de rezultatele proiectului, sa il poata testa.

  7. #37
    Avatarul lui centro
    centro este deconectat Membru SeoPedia
    Reputatie:
    18
    Data înscrierii
    25th June 2015
    Posturi
    34
    Putere Rep
    18


    Implicit

    Ai mai evoluat cu proiectul?

  8. #38
    Avatarul lui emm
    emm
    emm este deconectat Ambasador
    Reputatie:
    56
    Data înscrierii
    11th November 2006
    Posturi
    829
    Putere Rep
    56


    Implicit

    Da si nu. De ce?

  9. #39
    Avatarul lui emm
    emm
    emm este deconectat Ambasador
    Reputatie:
    56
    Data înscrierii
    11th November 2006
    Posturi
    829
    Putere Rep
    56


    Implicit

    Ca sa-ti raspund mai pe indelete totusi:

    Nu, in sensul ca am abandonat ideea originala, nu din motive tehnice, ci din motive de viabilitate financiara (proiectie). Imi trebuia un soi de critical mass/momentum mai greu de obtinut, pentru acel proiect.
    Codul exista si poate fi reluat oricand, dar nu mai lucrez la proiect in formatul original. Am luat decizia sa nu continui fara o idee cu adevarat originala, unica, si care sa creeze diferenta ceruta de piata. Aici e buba de obicei.

    Da, in sensul ca am acum o astfel de idee, dar inca nu m-am decis sa misc un deget, ci doar mai gandesc la asta. Investitia e mare, riscurile mari, dar ideea mea poate fi un game-changer, ar putea deveni viral, dezvoltat pe plan global... insa mai studiez, nu ma arunc in asa ceva. O idee noua in search nu apare asa usor si nici nu este usor de impus (n-am avut una timp de 15 ani). Dar lucrez la alte proiecte momentan, complet diferite ca nisa.

    Oricum -- n-are nicio legatura cu ce faci tu cu centro.ro, am aruncat un ochi, dar atat.

Pagina 4 din 4 PrimulPrimul ... 234

Informații subiect

Utilizatori care navighează în acest subiect

Momentan este/sunt 1 utilizator(i) care navighează în acest subiect. (0 membrii și 1 vizitatori)

Thread-uri Similare

  1. Cel mai bun motor de cautare romanesc
    De radupaco în forumul Motoare de cautare romanesti
    Răspunsuri: 27
    Ultimul Post: 4th May 2008, 10:19
  2. Motor cautare
    De radupaco în forumul Alte motoare de cautare
    Răspunsuri: 2
    Ultimul Post: 15th April 2008, 13:37
  3. Motor de cautare masini
    De mariusx în forumul Motoare de cautare romanesti
    Răspunsuri: 5
    Ultimul Post: 12th April 2007, 04:06
  4. Un nou motor de cautare romanesc
    De aricius2000 în forumul Motoare de cautare romanesti
    Răspunsuri: 5
    Ultimul Post: 15th November 2006, 03:15
  5. oare ce motor de cautare?
    De dexter în forumul Discutii generale privind optimizarea si motoarele de cautare
    Răspunsuri: 2
    Ultimul Post: 22nd May 2005, 15:36

Permisiuni postare

  • Nu puteţi posta subiecte noi.
  • Nu puteţi răspunde la subiecte
  • Nu puteţi adăuga ataşamente
  • Nu puteţi modifica posturile proprii
  •