Rezultate 1 la 10 din 39

Subiect: Proiect triplu (motor de cautare si nu numai)

Afișare hibrid

  1. #1
    Avatarul lui avram
    avram este deconectat Membru SeoPedia
    Reputatie:
    61
    Data înscrierii
    7th May 2011
    Posturi
    1.361
    Putere Rep
    61


    Implicit

    Citat Postat în original de emm Vezi Post


    Probabil prima varianta beta va folosi mai mult exact match si suport pentru "flexiuni posibile", dar e posibil sa intoarca si unele rezultate nu tocmai precise.

    .
    foloseste Levenshtein distance - Wikipedia, the free encyclopedia pentru similaritatea cuvintelor Reusable Code: Levenshtein distance

  2. #2
    Avatarul lui emm
    emm
    emm este deconectat Ambasador
    Reputatie:
    58
    Data înscrierii
    11th November 2006
    Posturi
    829
    Putere Rep
    58


    Implicit

    Citat Postat în original de avram Vezi Post
    Multumesc mult, este util. Totusi implementarea nu va fi atat de simpla. Dar este un punct bun de start.

    Iti dau si un exemplu: cuvantul "roata" si flexiunea "roti". Distanta Levenshtein este 3, totusi cuvintele sunt extrem de aproape unele de altele.
    Daca as accepta Levenshtein <=3 ca principiu, ar aparea o gramada de garbage in search results.

    Probabil ca va trebui sa folosesc o combinatie de Levenshtein si date statistice pe dictionarul master... si asta de obicei inseamna o gramada de consum CPU.

    --- Later Edit --- (ca mi-a fost lene sa apas "Edit")

    Ca si contraexemplu care arata ce spun: cuvantul "Roma" are distanta 2 fata de "roti", deci mai mic decat "roata", si totusi nu are nicio legatura cu acesta.

    --- Later Edit --- (ca mi-a fost lene sa apas "Edit")

    Nu stiu cum face Google, dar el intoarce totusi rezultate foarte diferite intre cele 2 cuvinte.

    Probabil ca o solutie simpla este sa las userul sa decida.... exact match sau distanta = 1, 2, 3.

  3. #3
    Avatarul lui c_n_m
    c_n_m este deconectat Ambasador
    Reputatie:
    40
    Data înscrierii
    25th February 2006
    Locaţie
    București / Ilfov
    Vârstă
    53
    Posturi
    622
    Putere Rep
    40


    Implicit

    Formele de plural (ex. roti pentru roata) sunt probabil usor de implementat ca sa tii cont de ele. Ideea este daca le poti gasi undeva pe toate, ca sa faci implementarea automat. Parca era o baza de date pentru DEX pe care poti sa arunci o privire sa vezi daca structura ei iti permite sa poti prelua aceasta informatie, adica forma de plural.

    O problema similara probabil ca exista la familiile de cuvinte (cuvinte care au o radacina comuna, insa prefixe si/sau sufixe diferite). Poate ca dexul te va ajuta si in aceasta privinta. Bafta!

  4. #4
    Avatarul lui emm
    emm
    emm este deconectat Ambasador
    Reputatie:
    58
    Data înscrierii
    11th November 2006
    Posturi
    829
    Putere Rep
    58


    Implicit

    Citat Postat în original de c_n_m Vezi Post
    Formele de plural (ex. roti pentru roata) sunt probabil usor de implementat ca sa tii cont de ele. Ideea este daca le poti gasi undeva pe toate, ca sa faci implementarea automat. Parca era o baza de date pentru DEX pe care poti sa arunci o privire sa vezi daca structura ei iti permite sa poti prelua aceasta informatie, adica forma de plural.

    O problema similara probabil ca exista la familiile de cuvinte (cuvinte care au o radacina comuna, insa prefixe si/sau sufixe diferite). Poate ca dexul te va ajuta si in aceasta privinta. Bafta!
    Multumesc. Nu sunt un expert in lingvistica/gramatica, dar incerc sa ma descurc.

    Din pacate, intentionez sa folosesc platforma ulterior si pentru alte tari/limbi. Implementarea custom a acestei chestiuni in n limbi, folosind o lista preluata de undeva, este destul de dificila, si nu o vad ca fiind cea mai buna solutie.

    Voi incerca sa folosesc un instrument automat pentru generarea familiei de cuvinte, folosind o combinatie de factori, de exemplu distanta Levenshtein + densitatea cuvintelor in paginile care contin cuvantul radacina. Analiza statistica ar trebui sa rezolve problema.

Informații subiect

Utilizatori care navighează în acest subiect

Momentan este/sunt 1 utilizator(i) care navighează în acest subiect. (0 membrii și 1 vizitatori)

Thread-uri Similare

  1. Cel mai bun motor de cautare romanesc
    De radupaco în forumul Motoare de cautare romanesti
    Răspunsuri: 27
    Ultimul Post: 4th May 2008, 09:19
  2. Motor cautare
    De radupaco în forumul Alte motoare de cautare
    Răspunsuri: 2
    Ultimul Post: 15th April 2008, 12:37
  3. Motor de cautare masini
    De mariusx în forumul Motoare de cautare romanesti
    Răspunsuri: 5
    Ultimul Post: 12th April 2007, 03:06
  4. Un nou motor de cautare romanesc
    De aricius2000 în forumul Motoare de cautare romanesti
    Răspunsuri: 5
    Ultimul Post: 15th November 2006, 02:15
  5. oare ce motor de cautare?
    De dexter în forumul Discutii generale privind optimizarea si motoarele de cautare
    Răspunsuri: 2
    Ultimul Post: 22nd May 2005, 14:36

Permisiuni postare

  • Nu puteţi posta subiecte noi.
  • Nu puteţi răspunde la subiecte
  • Nu puteţi adăuga ataşamente
  • Nu puteţi modifica posturile proprii
  •