30th August 2011, 01:45
#1
3 out of 3 members found this post helpful.
Proiect triplu (motor de cautare si nu numai)
Aduc aici in discutie un anumit concept la care lucrez de ceva timp.
Baza este un soft spider/indexer perfectionat in timp, optimizat in prezent pentru gasirea paginilor cu continut romanesc, folosind numai date publice. Caracteristicile sale sunt, deocamdata:
- compatibilitate robots.txt
- detectarea automata a limbii (deocamdata salvez continut ro cat si ceva continut si in principalele 5 limbi europene, en fr de, prezente pe situri ro).
- indexeaza atat domeniile .ro cat so .com, net org etc atata vreme cat continutul este in limba romana; poate fi portat (fireste) pe orice TLD;
- protectie de overload a siturilor la spidering, indexare dispersa
- control al adancimii de crawl si al numarului de pagini indexate per site cat si al linkurilor externe, eliminarea efectelor siturilor scraper asupra indexului
- compatibilitate nofollow/dofollow
- navigare frames, iframes, url redirects etc
Softul detine in prezent la o rulare test de cateva zile, aproximativ 100.000 domenii ro indexate si 5 mil url-uri in baza de date.
Nota: acest proiect nu a fost gandit pentru a fi un motor de cautare, desi poate fi si asta.
Ce pot genera cu acest sistem (si cer pareri privind utilitatea)
1. Un nou motor de cautare romanesc alternativ (colateral, importanta: nivel 3) .
Sistemul este scalabil ca si volum de date, este gandit sa poata indexa o cantitate relativ mare de date (suficienta pentru ro), desi ii lipseste o functie de clustering deocamdata. Ca si relevanta si ranking, procesarea va folosi o combinatie de full text search, combinata si post-filtrata(si re-sortata) cu analiza factorilor in-page(title, description, alt, bold text, images etc), un sistem de calcul al autoritatii gen pagerank si variabile suplimentare de ridicare in SERP bazata pe link-urile inbound cu cuvinte relevante pe nisa sitului/venind din siturile de nisa.
Problema pe care o vad: Nu stiu cat de mare nevoie este de un astfel de motor de cautare nou, sau care ar fi functiile care ar putea ajuta la utilitatea lui.
2. Un sistem de analiza SEO a web-ului romanesc (colateral si acesta, importanta: nivel 2).
Sistemul va genera rezultate care cred ca ar putea fi importante pentru cei pasionati de SEO, cum ar fi autoritatea fiecarei pagini, liste cu link-urile inbound (pagini si domenii/count), autoritatea fiecarui link inbound, un factor de relevanta procentuala comparativ cu nisa sitului, word count si alte gadgeturi; combinata cu unele functii existente uzual in softuri de SEO gen LinkAssistant, de exemplu comparatia factorilor in-page cu cele ale siturilor concurente, analiza comparativa a densitatilor, sugestii de optimizare si eventual puncte critice detectate in site/pagina.
3. Un sistem de analiza de nisa (principal - nivel 1) si data mining.
Punctele 1 si 2 sunt publice/free. Partea comerciala a ideii consta in analiza de nisa. Se selecteaza o anumita nisa, se face o analiza contextuala (keywords, fraze, se analizeaza subsetul de url-uri relevante etc). Se ruleaza un filtru preliminar pe baza de date master, ca o sursa de indicii privind locatiile de cautat, dupa care se face un spidering restrans pe domeniul/nisa ingusta aleasa, si la urma datele sunt analizate.
Ca un exemplu, pentru un site al unui producator de (exemplu) termopane, sistemul ar putea genera informatii gen:
- care sunt siturile din romania care vand termopane, cate au liste de situri de acest gen, si cate fac referiri la astfel de produse (cu date suplimentare despre prezenta web, situri si pagini, optimizari seo folosite etc)
- care sunt firmele care sunt atasate acestei nise/ informatii gen registrul comertului, finante, sortare dupa marime/prezenta web, etc
- informatii specifice, gen: cate din aceste situri au magazin virtual sau site de prezentare, cate au preturi afisate sau nu, liste de preturi colectate pentru un set de produse sau servicii cautate, cate din firmele respective se gasesc in judetul Harghita, cate comercializeaza acelasi model de produs ca "al meu", etc etc
- informatii valoroase gen: cuvinte cheie related (seo hints), dar si descoperirea de noi nise sau sub-nise
- alte interogari personalitate functie de necesitatile clientului.
Proiectul este 100% intern deocamdata, va fi folosit pentru analiza pe o singura nisa comerciala ingusta. Insa poate fi folosit practic pe aproape orice nisa. Ma intreb insa ce succes ar putea avea un astfel de sistem si daca poate avea valoare comerciala/poate fi vandut ca si serviciu/exista cerere potentiala pentru asa ceva.
Astept pareri, multumesc.