Proiect triplu (motor de cautare si nu numai)

**emm** · 22nd February 2012, 20:27

Postat în original de avram

foloseste Levenshtein distance - Wikipedia, the free encyclopedia pentru similaritatea cuvintelor Reusable Code: Levenshtein distance

Multumesc mult, este util. Totusi implementarea nu va fi atat de simpla. Dar este un punct bun de start.

Iti dau si un exemplu: cuvantul "roata" si flexiunea "roti". Distanta Levenshtein este 3, totusi cuvintele sunt extrem de aproape unele de altele.
Daca as accepta Levenshtein <=3 ca principiu, ar aparea o gramada de garbage in search results.

Probabil ca va trebui sa folosesc o combinatie de Levenshtein si date statistice pe dictionarul master... si asta de obicei inseamna o gramada de consum CPU.

--- Later Edit --- (ca mi-a fost lene sa apas "Edit")

Ca si contraexemplu care arata ce spun: cuvantul "Roma" are distanta 2 fata de "roti", deci mai mic decat "roata", si totusi nu are nicio legatura cu acesta.

--- Later Edit --- (ca mi-a fost lene sa apas "Edit")

Nu stiu cum face Google, dar el intoarce totusi rezultate foarte diferite intre cele 2 cuvinte.

Probabil ca o solutie simpla este sa las userul sa decida.... exact match sau distanta = 1, 2, 3.

**c_n_m** · 23rd February 2012, 10:22

Formele de plural (ex. roti pentru roata) sunt probabil usor de implementat ca sa tii cont de ele. Ideea este daca le poti gasi undeva pe toate, ca sa faci implementarea automat. Parca era o baza de date pentru DEX pe care poti sa arunci o privire sa vezi daca structura ei iti permite sa poti prelua aceasta informatie, adica forma de plural.

O problema similara probabil ca exista la familiile de cuvinte (cuvinte care au o radacina comuna, insa prefixe si/sau sufixe diferite). Poate ca dexul te va ajuta si in aceasta privinta. Bafta!

**emm** · 23rd February 2012, 11:48

Postat în original de c_n_m

Formele de plural (ex. roti pentru roata) sunt probabil usor de implementat ca sa tii cont de ele. Ideea este daca le poti gasi undeva pe toate, ca sa faci implementarea automat. Parca era o baza de date pentru DEX pe care poti sa arunci o privire sa vezi daca structura ei iti permite sa poti prelua aceasta informatie, adica forma de plural.

O problema similara probabil ca exista la familiile de cuvinte (cuvinte care au o radacina comuna, insa prefixe si/sau sufixe diferite). Poate ca dexul te va ajuta si in aceasta privinta. Bafta!

Multumesc. Nu sunt un expert in lingvistica/gramatica, dar incerc sa ma descurc.

Din pacate, intentionez sa folosesc platforma ulterior si pentru alte tari/limbi. Implementarea custom a acestei chestiuni in n limbi, folosind o lista preluata de undeva, este destul de dificila, si nu o vad ca fiind cea mai buna solutie.

Voi incerca sa folosesc un instrument automat pentru generarea familiei de cuvinte, folosind o combinatie de factori, de exemplu distanta Levenshtein + densitatea cuvintelor in paginile care contin cuvantul radacina. Analiza statistica ar trebui sa rezolve problema.

**emm** · 26th February 2012, 22:39

Update:

Partea de calcul intern PR este acum gata (o prima versiune). Urmeaza indexul lingvistic... si partea de interfata search engine.

(Nota: In timp ce scriu, tocmai imi nenoroceste temporar laptopul care sta cu CPU 100% si frige.)

Revenind la subiect, ceva interesant:

Am dat accidental peste o confirmare a faptului ca domeniile sunt mai valoroase decat subdomeniile in ce priveste rezultatele in motoarele de cautare, asta in timp ce aplicam propriul algoritm gen PR.

In principiu, toate domeniile au un PR unitar by default (sa zicem PR=1 unit, atentie ma refer la PR-ul intern nu la cel de Google toolbar); acest default se foloseste in calculul total al PR-ului unei pagini, se divide la numarul de link-uri din pagina si se imprastie ca link juice in intregul sistem. (La care se adauga juice-ul extern primit.)

Acest PR=1 unit default, nu se poate aplica si pentru subdomenii, pentru ca atunci ai putea face 1000 de subdomenii linking back catre domeniu, si ai avea 1000x1 unit = 1000 PR units trimise catre domeniu (ca si cum ai avea 1000 domenii linking in). Din acest motiv, subdomeniile nu primesc acel PR=1 unit default.

In schimb, subdomeniile primesc o fractiune de PR de la domeniu, conform regulii pagerank (PR-ul paginii / numarul de link-uri din pagina), plus cele externe. Si evident transmit inapoi o parte din juice-ul primit din link-uri externe.

(Nota: Sper ca e cat de cat inteligibil ce am scris mai sus.)

--- Later Edit --- (ca mi-a fost lene sa apas "Edit")

Ma uitam intr-un chunk de date, si urmaream siturile sortate dupa PR.

Wow. Chestia asta (proiectul) pare sa iasa ceva destul de tare la final, in special subproiectul de webmaster/seo info.

**lovelife** · 27th February 2012, 10:07

Am dat accidental peste o confirmare a faptului ca domeniile sunt mai valoroase decat subdomeniile in ce priveste rezultatele in motoarele de cautare,

Valabil poate pentru motorul tau, dar nu [putem sti cum gandeste google

**emm** · 6th March 2012, 02:54

Si un update ceva mai dezamagitor:

Abia acum cand proiectul este intr-o faza apropiata de final, am reusit sa-mi dau seama de performante... si ce implica.

Problema este ritmul de indexare si dimensiunea web-ului romanesc, fata de puterile unui singur PC, fie el si unul performant.

Pentru proiectul 1 (motor de cautare) si 2 (analiza seo) ar trebui indexate toate domeniile romanesti + cel putin 2-3 nivele de sub-pagini. Adica undeva peste 100 milioane pagini efectiv indexate, si probabil de filtrat cateva miliarde url-uri. Am calculat, pe un singur server, ar trebui intre 250 si 500 de zile pentru un refresh al intregului web ro.

Singura solutie ar fi probabil un cluster cu vreo 50 de servere, ruland in paralel (cloud...), cu latime de banda serioasa, etc. Numai ca... investitia asta nu e rentabila oricum ai da-o, pentru un proiect gandit sa fie mai mult free.

Ca atare:

- pentru 1 (motor de cautare complet) nu am solutie momentan (si nu vreau sa lansez un "ceva" aproximativ, cum au tot fost lansate)

- pentru 2, analiza seo, as putea incerca un refresh pe nivele. Adica domeniile si subdomeniile (home page) sa fie indexate frecvent, iar paginile secundare mult mai lent (functie si de PR). Proiectul ar putea furniza informatii utile, insa cu siguranta nu si complete. O actualizare completa care sa includa si cele mai obscure pagini, ar putea dura cateva luni.

Ramane insa in picioare, proiectul 3 - analiza de nisa (care insa imi solicita sa adun o echipa, asa ca inca ma mai gandesc la partea de fezabilitate).

Astept pareri, daca sunt, eventual pentru punctul 2.

--- Later Edit --- (ca mi-a fost lene sa apas "Edit")

... Cu toate acestea, incep sa cred ca motorul de cautare va fi util, chiar daca nu va fi atat de complet, cel putin in prima varianta. Va oferi cu siguranta o selectie alternativa de rezultate utile, si in principiu, majoritatea siturilor importante pe un anumit domeniu pot fi cuprinse.

Am facut cateva teste de moment si rezultatele sunt interesante. Sper sa pot lansa un beta cat de curand, moment in care voi anunta pe toti cei interesati de rezultatele proiectului, sa il poata testa.

**centro** · 30th August 2015, 13:50

Ai mai evoluat cu proiectul?

**emm** · 31st August 2015, 11:51

Da si nu. De ce?

**emm** · 31st August 2015, 12:09

Ca sa-ti raspund mai pe indelete totusi:

Nu, in sensul ca am abandonat ideea originala, nu din motive tehnice, ci din motive de viabilitate financiara (proiectie). Imi trebuia un soi de critical mass/momentum mai greu de obtinut, pentru acel proiect.
Codul exista si poate fi reluat oricand, dar nu mai lucrez la proiect in formatul original. Am luat decizia sa nu continui fara o idee cu adevarat originala, unica, si care sa creeze diferenta ceruta de piata. Aici e buba de obicei.

Da, in sensul ca am acum o astfel de idee, dar inca nu m-am decis sa misc un deget, ci doar mai gandesc la asta. Investitia e mare, riscurile mari, dar ideea mea poate fi un game-changer, ar putea deveni viral, dezvoltat pe plan global... insa mai studiez, nu ma arunc in asa ceva. O idee noua in search nu apare asa usor si nici nu este usor de impus (n-am avut una timp de 15 ani). Dar lucrez la alte proiecte momentan, complet diferite ca nisa.

Oricum -- n-are nicio legatura cu ce faci tu cu centro.ro, am aruncat un ochi, dar atat.

Subiect: Proiect triplu (motor de cautare si nu numai)

Instrumente subiect

Afișează

Informații subiect

Utilizatori care navighează în acest subiect

Thread-uri Similare

Cel mai bun motor de cautare romanesc

Motor cautare

Motor de cautare masini

Un nou motor de cautare romanesc

oare ce motor de cautare?

Permisiuni postare