Pagina 1 din 6 123 ... UltimulUltimul
Rezultate 1 la 10 din 57

Subiect: Proiect Domenii, Ip-uri, etc

  1. #1
    Avatarul lui StarNET
    StarNET este deconectat Membru SeoPedia
    Reputatie:
    35
    Data înscrierii
    5th March 2009
    Locaţie
    Brasov
    Posturi
    1.429
    Putere Rep
    35


    Implicit Proiect Domenii, Ip-uri, etc

    Urmeaza sa lansez un nou proiect/site.... un mic crawler care "navigheaza" pe internet din pagina in pagina si preia informatii despre fiecare domeniu. Momentan informatiile sunt: domeniu, ip, cont analytics si adsense ( daca exista ), titlu si unde a fost gasit link-ul catre domeniu

    se va putea cauta dupa ip, analytics si adsense la inceput

    Atasat aveti o imagine ...

    Astept pareri/sugestii/etc

    wsidb.jpg
    Vezi cum e vremea inainte sa iti faci planuri !
    Peste 4000 iconite in ORICE culoare, ORICE dimensiune si in 5 formate: iconsDB.com

  2. #2
    Avatarul lui tymbark
    tymbark este deconectat Membru SeoPedia
    Reputatie:
    48
    Data înscrierii
    5th November 2010
    Locaţie
    Iasi
    Posturi
    1.355
    Putere Rep
    48


    Implicit

    Hm.. Daca tot faci un mic crawler, n-ai putea retine informatii si despre backlink-uri (anchor text)? Folosesti pt storage AWS de la amazon si te ajunge f ieftin, in caz ca o sa creasca prea mare baza de date. Ar fi fain daca ar face cineva un crawler doar pt .ro (aici ma refer site-uri in romana, indiferent de tld). Eventual pe la IP-uri sa verifici si ce domenii sunt pe aceeasi clasa C. Asta-i simplu de facut.

    Si din ce inteleg eu este pt domenii. Nu merge si pt pagini? Sau doar root domains?
    Signatura lipsa

  3. #3
    Avatarul lui StarNET
    StarNET este deconectat Membru SeoPedia
    Reputatie:
    35
    Data înscrierii
    5th March 2009
    Locaţie
    Brasov
    Posturi
    1.429
    Putere Rep
    35


    Implicit

    Totu se rezuma la puterea de crawl si la puterea serverelor ... ca sa retin backlink-uri e criminal ...

    crawler-ul functioneaza pe principiu: eu i-am dat primu site, sa zicem trafic.ro, de acolo gaseste 10 link-uri catre alte site-uri care le adaug in asteptare la crawluit si "retin" in baza de date ca acele 10 site-uri au fost gasite pe trafic.ro ( dupa care si arat in pagina de detalii acest lucru ). Urmeaza sa crawluiasca cele 10 site-uri care au si ele link-uri la randul lor si asa mai departe ....

    Pentru subpagini nu este si nici nu va fi ... la fel .. ar fi criminal si nu ar fi util pentru ceea ce incerc eu sa construiesc, adica o baza de date in care poti vedea ce alte site-uri sunt pe acelasi ip, cu acelasi cod de adsense sau cu acelasi cod de analytics ... si alte criterii care vor fi adaugate ulterior... deci pe scurt este doar pentru domenii si subdomenii
    Vezi cum e vremea inainte sa iti faci planuri !
    Peste 4000 iconite in ORICE culoare, ORICE dimensiune si in 5 formate: iconsDB.com

  4. #4
    Avatarul lui tymbark
    tymbark este deconectat Membru SeoPedia
    Reputatie:
    48
    Data înscrierii
    5th November 2010
    Locaţie
    Iasi
    Posturi
    1.355
    Putere Rep
    48


    Implicit

    Aha.. Am inteles. Ceva asemanator am facut si eu pentru un proiect la facultate, un crawler distribuit care functiona pe acelasi principiu, ii dadeai 10 url-uri "seed" de unde sa inceapa sa crawler-easca, apoi cauta recursiv pe o adancime pe care o stabileam noi (daca-l lasam nelimitat, ar fi crapat) si punea link-urile pe care le gasea intr-o coada si apoi mai multe calculatoare care rulau aplicatia respectiva procesau in threaduri separate. Na, mai avea si niste bug-uri.. dar era decenta cat de cat.

    Oricum, asteptam varianta asta sa vedem ce stie sa faca practic
    Signatura lipsa

  5. #5
    Avatarul lui StarNET
    StarNET este deconectat Membru SeoPedia
    Reputatie:
    35
    Data înscrierii
    5th March 2009
    Locaţie
    Brasov
    Posturi
    1.429
    Putere Rep
    35


    Implicit

    Acuma lucrez la crawler sa poata "interpreta" toate codurile HTTP care le intalneste ... redirect-uri, 404 .. etc (chiar daca e standardizata toata chestie tot raspunsurile sunt diferite la redirect-uri si alte magarii ... deci e de munca ) ... mare parte sunt gata ... interfata e si ea in proportie de 70 % gata ... intr-o saptamana doua ar trebui sa fie up & running ...

    Nimeni altcineva ? Sugestii .. discutii .. vi se pare util ? etc
    Vezi cum e vremea inainte sa iti faci planuri !
    Peste 4000 iconite in ORICE culoare, ORICE dimensiune si in 5 formate: iconsDB.com

  6. #6
    Avatarul lui haos
    haos este deconectat Ambasador
    Reputatie:
    61
    Data înscrierii
    19th February 2008
    Locaţie
    Craiova
    Posturi
    2.239
    Putere Rep
    61


    Implicit

    Fiind un crawler eu iti recomand sa-l inveti sa respecte robots.txt. Eu am facut ceva asemanator si l-am lasat setat pe "nelimitat" si cand a gasit mai multe siteuri pe acelasi host a intrat pe toate si am primit reprosuri de abuz si mi-a fost banat ip-ul serverului in retelele respective. Asa o sa patesti si tu daca nu vei lua in considerare robots.txt

    La 4.000.000 de websiteuri, baza de date avea 16 GB, iti spun asta ca sa stii la ce sa te astepti, petru ca nu orice server poate duce o baza de date atat de mare.

    Si inca un sfat: fa-ti backup si protejeaza-ti baza de date daca ajungi sa strangi atat de multe informatii, firma de hosting de unde am rulat scripturile mi-a inchis contul pe motiv ca folosesc resursele serverelor excesiv fara sa-mi ofere posibilitatea sa recuperez baza de date iar un angajat al lor a vandut-o unei firme de telecomunicatii. Fa-ti backup pe calculatorul tau, nu pe server, daca nu vrei sa patesti ca mine.
    Citeste primul meu curs SEO - principii de baza. Vezi oferta mea de advertoriale PR5.

  7. #7
    Avatarul lui Nichita
    Nichita este deconectat Super Moderator
    Reputatie:
    92
    Data înscrierii
    19th February 2009
    Locaţie
    Bucuresti
    Vârstă
    44
    Posturi
    3.420
    Putere Rep
    92


    Implicit

    Stiu ca exista deja ceva similar. Poate iti vin idei studiind modul cum este realizat acesta. SpyOnWeb.com Research Tool — You Can Disclose Websites With The Same Google Adsense Code, Google Analytics Code, Ip Address etc.
    Siteul tau e in balarii, nu urca? Competitorii te bat de iti suna apa in cap? Ai fost penalizat si nu stii ce sa faci? Cel mai probabil ai nevoie de un audit SEO complet. :)

  8. #8
    Avatarul lui StarNET
    StarNET este deconectat Membru SeoPedia
    Reputatie:
    35
    Data înscrierii
    5th March 2009
    Locaţie
    Brasov
    Posturi
    1.429
    Putere Rep
    35


    Implicit

    @haos probleme de hosting nu vor fi , robots.txt ar insemna inca o accesare in plus la fiecare crawl ... pe de o parte e ok sa tii cont de robots.txt pe de alta parte 99.999% din site-uri nu vor sti de mine si nu se vor obosi sa ma adauge in robots.txt, prin urmare eu zic ca nu se merita

    @Nichita, draguta jucarie, vad ca are alexa de 16000 deci e utilizat destul de mult
    in minus am partea de nameservere care urmeaza sa o adaug
    in plus am partea de site-uri care apartin aceleeasi clase + design mult peste ce au ei acolo
    Vezi cum e vremea inainte sa iti faci planuri !
    Peste 4000 iconite in ORICE culoare, ORICE dimensiune si in 5 formate: iconsDB.com

  9. #9
    Avatarul lui tymbark
    tymbark este deconectat Membru SeoPedia
    Reputatie:
    48
    Data înscrierii
    5th November 2010
    Locaţie
    Iasi
    Posturi
    1.355
    Putere Rep
    48


    Implicit

    @starnet poate ca nu se merita sa citesti permisiunile din robots.txt, insa stiu ca sunt foarte importante si am auzit de un caz in care cineva a dat in judecata google pentru ca a crawlerit si indexat niste pagini pe care el le setade disallow in robots.txt si a castigat procesul. Era chestia ca persoana/firma respectiva pusese niste chestii confidentiale pe net si le-a dat disallow din robots.txt, dar google tocmai crawler-ise site-ul cu putin timp in urma si a cache-uit robots.txt-ul si din cauza asta a durat putin pana la urmatoarea citire a robots.txt si a indexat acele pagini care nu trebuiau.

    Acuma na, nu este cazul la tine, dar ziceam si eu asa.
    Signatura lipsa

  10. #10
    Avatarul lui Cristi U
    Cristi U este deconectat Super Moderator
    Reputatie:
    51
    Data înscrierii
    26th January 2008
    Locaţie
    Oradea
    Vârstă
    36
    Posturi
    3.172
    Putere Rep
    51


    Implicit

    Citat Postat în original de StarNET Vezi Post
    @haos probleme de hosting nu vor fi , robots.txt ar insemna inca o accesare in plus la fiecare crawl ... pe de o parte e ok sa tii cont de robots.txt pe de alta parte 99.999% din site-uri nu vor sti de mine si nu se vor obosi sa ma adauge in robots.txt, prin urmare eu zic ca nu se merita
    Nu s-o merita, dar ar fi etic sa o faci!
    Mai dau cate-un sfat juridic aici, uneori chiar despre online. Nu-l rata! :) Vezi și sfaturi de nutritie.

Pagina 1 din 6 123 ... UltimulUltimul

Informații subiect

Utilizatori care navighează în acest subiect

Momentan este/sunt 1 utilizator(i) care navighează în acest subiect. (0 membrii și 1 vizitatori)

Thread-uri Similare

  1. Vand un proiect pe .ro
    De vladc în forumul Website-uri
    Răspunsuri: 5
    Ultimul Post: 10th May 2011, 19:03
  2. Webdeveloper PHP pt un proiect
    De Popescu Marian în forumul Locuri de munca
    Răspunsuri: 3
    Ultimul Post: 17th January 2011, 14:08
  3. Proiect .CO
    De StarNET în forumul SEO
    Răspunsuri: 40
    Ultimul Post: 12th October 2010, 10:07
  4. Un proiect personal.
    De gloobal în forumul Studii de caz
    Răspunsuri: 9
    Ultimul Post: 24th September 2009, 19:49
  5. Proiect de licenta
    De deadworldisee în forumul SEO Soft
    Răspunsuri: 4
    Ultimul Post: 19th April 2008, 14:37

Permisiuni postare

  • Nu puteţi posta subiecte noi.
  • Nu puteţi răspunde la subiecte
  • Nu puteţi adăuga ataşamente
  • Nu puteţi modifica posturile proprii
  •