Pagina 1 din 4 123 ... UltimulUltimul
Rezultate 1 la 10 din 39

Subiect: Proiect triplu (motor de cautare si nu numai)

  1. #1
    Avatarul lui emm
    emm
    emm este deconectat Ambasador
    Reputatie:
    56
    Data înscrierii
    11th November 2006
    Posturi
    829
    Putere Rep
    56


    3 out of 3 members found this post helpful.

    Implicit Proiect triplu (motor de cautare si nu numai)

    Aduc aici in discutie un anumit concept la care lucrez de ceva timp.

    Baza este un soft spider/indexer perfectionat in timp, optimizat in prezent pentru gasirea paginilor cu continut romanesc, folosind numai date publice. Caracteristicile sale sunt, deocamdata:
    - compatibilitate robots.txt
    - detectarea automata a limbii (deocamdata salvez continut ro cat si ceva continut si in principalele 5 limbi europene, en fr de, prezente pe situri ro).
    - indexeaza atat domeniile .ro cat so .com, net org etc atata vreme cat continutul este in limba romana; poate fi portat (fireste) pe orice TLD;
    - protectie de overload a siturilor la spidering, indexare dispersa
    - control al adancimii de crawl si al numarului de pagini indexate per site cat si al linkurilor externe, eliminarea efectelor siturilor scraper asupra indexului
    - compatibilitate nofollow/dofollow
    - navigare frames, iframes, url redirects etc

    Softul detine in prezent la o rulare test de cateva zile, aproximativ 100.000 domenii ro indexate si 5 mil url-uri in baza de date.

    Nota: acest proiect nu a fost gandit pentru a fi un motor de cautare, desi poate fi si asta.

    Ce pot genera cu acest sistem (si cer pareri privind utilitatea)

    1. Un nou motor de cautare romanesc alternativ (colateral, importanta: nivel 3) .

    Sistemul este scalabil ca si volum de date, este gandit sa poata indexa o cantitate relativ mare de date (suficienta pentru ro), desi ii lipseste o functie de clustering deocamdata. Ca si relevanta si ranking, procesarea va folosi o combinatie de full text search, combinata si post-filtrata(si re-sortata) cu analiza factorilor in-page(title, description, alt, bold text, images etc), un sistem de calcul al autoritatii gen pagerank si variabile suplimentare de ridicare in SERP bazata pe link-urile inbound cu cuvinte relevante pe nisa sitului/venind din siturile de nisa.

    Problema pe care o vad: Nu stiu cat de mare nevoie este de un astfel de motor de cautare nou, sau care ar fi functiile care ar putea ajuta la utilitatea lui.

    2. Un sistem de analiza SEO a web-ului romanesc (colateral si acesta, importanta: nivel 2).

    Sistemul va genera rezultate care cred ca ar putea fi importante pentru cei pasionati de SEO, cum ar fi autoritatea fiecarei pagini, liste cu link-urile inbound (pagini si domenii/count), autoritatea fiecarui link inbound, un factor de relevanta procentuala comparativ cu nisa sitului, word count si alte gadgeturi; combinata cu unele functii existente uzual in softuri de SEO gen LinkAssistant, de exemplu comparatia factorilor in-page cu cele ale siturilor concurente, analiza comparativa a densitatilor, sugestii de optimizare si eventual puncte critice detectate in site/pagina.

    3. Un sistem de analiza de nisa (principal - nivel 1) si data mining.

    Punctele 1 si 2 sunt publice/free. Partea comerciala a ideii consta in analiza de nisa. Se selecteaza o anumita nisa, se face o analiza contextuala (keywords, fraze, se analizeaza subsetul de url-uri relevante etc). Se ruleaza un filtru preliminar pe baza de date master, ca o sursa de indicii privind locatiile de cautat, dupa care se face un spidering restrans pe domeniul/nisa ingusta aleasa, si la urma datele sunt analizate.

    Ca un exemplu, pentru un site al unui producator de (exemplu) termopane, sistemul ar putea genera informatii gen:
    - care sunt siturile din romania care vand termopane, cate au liste de situri de acest gen, si cate fac referiri la astfel de produse (cu date suplimentare despre prezenta web, situri si pagini, optimizari seo folosite etc)
    - care sunt firmele care sunt atasate acestei nise/ informatii gen registrul comertului, finante, sortare dupa marime/prezenta web, etc
    - informatii specifice, gen: cate din aceste situri au magazin virtual sau site de prezentare, cate au preturi afisate sau nu, liste de preturi colectate pentru un set de produse sau servicii cautate, cate din firmele respective se gasesc in judetul Harghita, cate comercializeaza acelasi model de produs ca "al meu", etc etc
    - informatii valoroase gen: cuvinte cheie related (seo hints), dar si descoperirea de noi nise sau sub-nise
    - alte interogari personalitate functie de necesitatile clientului.

    Proiectul este 100% intern deocamdata, va fi folosit pentru analiza pe o singura nisa comerciala ingusta. Insa poate fi folosit practic pe aproape orice nisa. Ma intreb insa ce succes ar putea avea un astfel de sistem si daca poate avea valoare comerciala/poate fi vandut ca si serviciu/exista cerere potentiala pentru asa ceva.

    Astept pareri, multumesc.

  2. #2
    Avatarul lui kleampa
    kleampa este deconectat Ambasador
    Reputatie:
    52
    Data înscrierii
    31st May 2006
    Locaţie
    Bucuresti
    Vârstă
    36
    Posturi
    1.583
    Putere Rep
    52


    Implicit

    mie cea mai profitabila mi se pare varianta 3
    Membru fondator al societății secrete Afiliatti.

  3. #3
    Avatarul lui lovelife
    lovelife este deconectat Ambasador
    Reputatie:
    101
    Data înscrierii
    8th July 2006
    Locaţie
    Galati
    Vârstă
    48
    Posturi
    5.993
    Putere Rep
    101


    Implicit

    Eu zic ca variantele 2 si 3 pot avea suces, nu stiu cat de mare, petnru ca cererea in RO petnru asa ceva este destul de mica, sunt putini oameni care stiu valoarea acestor informatii si stiu sa le foloseasca
    Nu ma pricep la SEO dar ma bag in seama

  4. #4
    Avatarul lui tymbark
    tymbark este deconectat Membru SeoPedia
    Reputatie:
    48
    Data înscrierii
    5th November 2010
    Locaţie
    Iasi
    Posturi
    1.355
    Putere Rep
    48


    Implicit

    si eu merg pe varianta 3... BTW, o intrebare... crawlerul tau merge si distribuit? nu de alta, dar ma gandesc ca sa ruleze pe un singur calculator e destul de greu. si eu am facut cu niste colegi un crawler web distribuit in C# pt un proiect la facultate
    Signatura lipsa

  5. #5
    Avatarul lui Mihai C
    Mihai C este deconectat Junior SeoPedia
    Reputatie:
    0
    Data înscrierii
    22nd February 2011
    Posturi
    139
    Putere Rep
    0


    Implicit

    Si eu as merge to pe varianta 3, dar te invit sa iti instalezi versiunea demo de la market samurai si sa mai furi de acolo idei.

  6. #6
    Avatarul lui Bogdan Ungureanu
    Bogdan Ungureanu este deconectat Membru SeoPedia
    Reputatie:
    30
    Data înscrierii
    17th September 2010
    Locaţie
    Craiova
    Vârstă
    33
    Posturi
    431
    Putere Rep
    30


    Implicit

    Ce ai zice de un motor de căutare care îți arată domeniile expirate cu linkuri, PR, etc? Le-ai putea inregistra tu sau diverși clienți pe site-ul tău. Un registrar, mai exact.
    Am un blog personal nou.

  7. #7
    Avatarul lui emm
    emm
    emm este deconectat Ambasador
    Reputatie:
    56
    Data înscrierii
    11th November 2006
    Posturi
    829
    Putere Rep
    56


    Implicit

    Citat Postat în original de lovelife Vezi Post
    Eu zic ca variantele 2 si 3 pot avea suces, nu stiu cat de mare, petnru ca cererea in RO petnru asa ceva este destul de mica, sunt putini oameni care stiu valoarea acestor informatii si stiu sa le foloseasca
    Asta este tocmai esenta intrebarii pe care mi-o pun. Daca poate fi un succes comercial, tocmai avand in vedere aceasta temere, daca o pot numi asa.

    --- Later Edit --- (ca mi-a fost lene sa apas "Edit")

    Citat Postat în original de tymbark Vezi Post
    si eu merg pe varianta 3... BTW, o intrebare... crawlerul tau merge si distribuit? nu de alta, dar ma gandesc ca sa ruleze pe un singur calculator e destul de greu. si eu am facut cu niste colegi un crawler web distribuit in C# pt un proiect la facultate
    Crawlerul merge pe o singura masina deocamdata. Fireste ca poate fi distribuit, dar nu este necesar.

    Pentru curiozitate tehnica, celor care o au, momentan lucreaza pe o masina Intel Core i7-2600K @ 3.40GHz, 8GB RAM, 2x1TB HDD, SSD de 64GB. SSD-ul nu este utilizat inca (va fi folosit in curand pentru interogarile SQL mai dificile). Pentru moment are o incarcare de 10-20% CPU si utilizeaza 2.5GB RAM din cei 8. Este loc de crestere inca foarte mult pentru rulajul pe o singura masina. In plus, procesarea lingvistica si contextuala este optimizata doar partial deocamdata.

    Am monitorizat performantele pe masura ce indexul creste, si scaderea de performanta este deocamdata zero. Majoritatea interogarilor se executa sub 0.1 ms. Repet, softul este gandit din start sa fie scalabil (utilizeaza buffere RAM personalizate in locul indecsilor clasici SQL, hash-uri si tehnici avansate de optimizare a interogarilor unde e necesar). Am lucrat in domeniul performantei pe baze de date foarte mari cu ani in urma - incarcam, filtram si sortam cativa GB de date complexe, in cateva secunde pe o masina chioara P3. Cu calculatoarele moderne, nu sunt probleme de performanta la un astfel de proiect, daca stii sa scrii soft.

    Oricum intrebarile pe care mi le pun sunt mai curand de viabilitate a proiectelor si de succesul pe care l-ar putea avea.

    Pot sa gandesc si altfel. Personal dispun de suficient in domeniul financiar, nu am nevoie neaparat sa scot bani la modul asta. Acest proiect triplu este mai mult o chestiune interesanta in domeniul web, sa zicem ca un hobby, ca un proiect personal in stadiu deja avansat, si am unele idei originale pe care le voi implementa in aceste 3 sub-proiecte. Daca ar putea fi un succes pe domeniul free, probabil ca il pot transforma in asa ceva. Ma gandesc insa ca punctul 3, facut public, ar putea crea destule controverse, pentru ca ar putea oferi puterea analizei de business, si date de sinteza pe practic orice nisa, oricarei persoane care ar dori sa afle asa ceva. Mi se pare cumva echivalent cu a da oricarui om permis de port arma, tradus in zona de afaceri....

    De fapt, ideea e de orientare a proiectului pe propria nisa, si nu neaparat de monetizare. Ma intereseaza sa dau valoare unor idei, atata tot.

    Bogdan Ungureanu: Ideea cu registrarul nu e rea deloc. Poate voi face si ceva de gen, daca nu te-ar deranja faptul ca as utiliza o idee care nu-mi apartine. Imi place sa realizez lucruri diferite, si se mai creeaza si locuri de munca, pe un proiect interesant, care ar putea fi dezvoltat si international. De altfel intregul soft si proiect poate fi portat international.

    --- Later Edit --- (ca mi-a fost lene sa apas "Edit")

    Citat Postat în original de Mihai C Vezi Post
    Si eu as merge to pe varianta 3, dar te invit sa iti instalezi versiunea demo de la market samurai si sa mai furi de acolo idei.
    Am deja unele softuri in genul market samurai, deci n-as duce lipsa de surse de idei. Dar o sa-l instalez si pe acesta. Iar daca e bun, poate mai tarziu iau si o licenta (folosesc tot felul de softuri de gen, pe proiecte comerciale ne-legate de subiectul acestui thread).

  8. #8
    Avatarul lui lovelife
    lovelife este deconectat Ambasador
    Reputatie:
    101
    Data înscrierii
    8th July 2006
    Locaţie
    Galati
    Vârstă
    48
    Posturi
    5.993
    Putere Rep
    101


    Implicit

    Daca te axezi doar pe .ro nu cred ca poti sa scoti profit, dar pe .com eu zic ca poti face treaba,
    Nu ma pricep la SEO dar ma bag in seama

  9. #9
    Avatarul lui RoManiac
    RoManiac este deconectat Membru SeoPedia
    Reputatie:
    48
    Data înscrierii
    31st March 2008
    Locaţie
    Bucuresti
    Posturi
    1.045
    Putere Rep
    48


    Implicit

    Daca tot ai capacitatea de a trimite spideri in tot internetul romanesc nu uita sa bagi si o functie ce arata back linkurile ( IBL-urile ). Nu de alta dar personal chiar as plati pentru asa ceva.

  10. #10
    Avatarul lui emm
    emm
    emm este deconectat Ambasador
    Reputatie:
    56
    Data înscrierii
    11th November 2006
    Posturi
    829
    Putere Rep
    56


    Implicit

    Citat Postat în original de lovelife Vezi Post
    Daca te axezi doar pe .ro nu cred ca poti sa scoti profit, dar pe .com eu zic ca poti face treaba,
    Banuiesc ca te referi la varianta 3. Intr-adevar, ar putea fi. Depinde si pe ro - daca reusesti sa prinzi clienti importanti, poti scoate sume semnificative din asa ceva. Aici rezultatul tine totusi mai mult de vanzari si marketing.

    Insa problema pe .com este ca este deja o alta tehnologie, mult mai puternica, si cred ca deja trebuie sa contractezi ceva putere semnificativa intr-un cloud. Cantitatea de informatie de indexat pentru a putea avea o idee despre o nisa de piata pe .com este mult mai mare.

    Citat Postat în original de RoManiac Vezi Post
    Daca tot ai capacitatea de a trimite spideri in tot internetul romanesc nu uita sa bagi si o functie ce arata back linkurile ( IBL-urile ). Nu de alta dar personal chiar as plati pentru asa ceva.
    Functia asta e deja inclusa in 2. Citeste ce am scris mai sus in post-ul original. Nu numai ca va arata IBL-urile, dar si valoarea fiecaruia, respectiv autoritatea primita (echivalent Pagerank) si relevanta (apropierea fata de nisa sitului, cuvinte similare etc).

    Insa nu as fi de acord ca acest serviciu sa fie platit (informatii despre IBL), o consider o functie care trebuie sa fie gratuita.

Pagina 1 din 4 123 ... UltimulUltimul

Informații subiect

Utilizatori care navighează în acest subiect

Momentan este/sunt 1 utilizator(i) care navighează în acest subiect. (0 membrii și 1 vizitatori)

Thread-uri Similare

  1. Cel mai bun motor de cautare romanesc
    De radupaco în forumul Motoare de cautare romanesti
    Răspunsuri: 27
    Ultimul Post: 4th May 2008, 09:19
  2. Motor cautare
    De radupaco în forumul Alte motoare de cautare
    Răspunsuri: 2
    Ultimul Post: 15th April 2008, 12:37
  3. Motor de cautare masini
    De mariusx în forumul Motoare de cautare romanesti
    Răspunsuri: 5
    Ultimul Post: 12th April 2007, 03:06
  4. Un nou motor de cautare romanesc
    De aricius2000 în forumul Motoare de cautare romanesti
    Răspunsuri: 5
    Ultimul Post: 15th November 2006, 02:15
  5. oare ce motor de cautare?
    De dexter în forumul Discutii generale privind optimizarea si motoarele de cautare
    Răspunsuri: 2
    Ultimul Post: 22nd May 2005, 14:36

Permisiuni postare

  • Nu puteţi posta subiecte noi.
  • Nu puteţi răspunde la subiecte
  • Nu puteţi adăuga ataşamente
  • Nu puteţi modifica posturile proprii
  •