Back to Question Center
0

Semalt - Kako da obrišete web stranice?

1 answers:

Prekrasna supa je biblioteka Python koja se široko koristi za skrivanje web stranica kreiranjem iz XML i HTML dokumenata. Web skraćenje, tehnika ekstrakcije podataka sa web stranica i stranica, široko se koristi u oblastima analize podataka i upravljanja. U većini slučajeva, programski jezik Python-a je preduslov za istraživanje podataka - hospedagem 30 dias gratis ativacao imediata.

Python 3 ima alate za oštrenje i module koje možete primijeniti na svoj projekt upravljanja podacima. Trenutno radi kao Beautiful Soup 4, ovaj modul je kompatibilan sa Python 3 i Python 2. 7. Modul Beautiful Soup 4 takođe je u stanju da kreira razdvojeno stablo za neprilagođenu supu od tegova. U ovom vodiču naučićete kako skraćati stranicu i zapisati ošišane podatke u CSV datoteku.

Prvi koraci

Da biste započeli, podesite server ili lokalno Python kodiranje na vašem računalu. Trebalo bi da instalirate i modul Beautiful Soup and Requests na vašoj mašini. Poznavanje rada sa oba modula je takođe neophodan preduslov. Poznavanje HTML tagiranja i strukture takođe je dodatna prednost.

Razumevanje vaših podataka

U ovom kontekstu, stvarni podaci iz Nacionalne galerije umjetnosti će biti korišteni da vam pomognu da razumijete kako koristiti prekrasnu supu 4. Nacionalna galerija umetnosti obuhvata 120.000 komada koje obavlja oko 13.000 umetnika. Umetnost se nalazi u Washingtonu D. C, Sjedinjene Države.

Veb ekstrakcija podataka sa lijepom supom nije toliko komplikovana. Na primjer, ako se fokusirate na slovo Z, označite i zabeležite ime na spisku. U ovom slučaju, prvo ime je Zabaglia, Niccola. Za konzistentnost navedite broj stranica i ime poslednjeg izvođača na ovoj stranici.

Kako uveziti zahtjeve i biblioteku prelepe supe

Da biste uvezli biblioteke, aktivirajte programsko okruženje Python 3. Proverite da li ste u istom direktoriju sa programskim okruženjem. Pokrenite sledeću naredbu za početak. my_env / bin / aktivirati.

Napravite novu datoteku i počnite sa uvozom prelepe supe i zahteva biblioteke. Biblioteka zahteva će vam omogućiti da koristite HTTP unutar svojih Python programa u čitljivim formatima. Sjajna supa, s druge strane, brzo radi na brzi strani. Koristite bs4 za uvoz prelijepe supe.

Kako sakupljati i razdvojiti web stranicu

Korišćenje zahteva prikuplja URL adresu vaše prve stranice. URL prve stranice bit će dodeljena stranici varijable. Izgradite objekat BeautifulSoup iz Zahtjeva i razvrstajte objekat iz Python-ovog parsera.

U ovom vodiču cilj je prikupiti veze i imena umetnika. Na primjer, možete sakupiti datume umjetnika i nacionalnosti. Za korisnike Windowsa kliknite desnim klikom na ime umjetnika. U ovom slučaju koristite Zabagliju, Nikolu. Za korisnike Mac OS-a dodirnite "CTRL" i kliknite na ime. Kliknite na meni "Inspect Element" koji se pojavljuje na ekranu da biste pristupili alatima web programera. Odštampajte imena izvođača kako bi Beautiful Soup brzo pregledali drvo.

Uklanjanje donjih veza

Da biste uklonili donje veze na vašoj web stranici, pregledajte DOM tako što ćete desnim tasterom miša kliknuti na element. Identifikovali ćete da su linkovi pod HTML tablicom. Koristite prelepu supu, koristite "metod razgradnje" da biste uklonili oznake iz stabla razdvajanja.

Kako izvući sadržaj iz oznake

Ne morate da odštampate celu oznaku veze, koristite Beautiful Soup da biste uklonili materijal iz oznake. Takođe možete da uhvatite URL adrese povezane sa umetnicima koristeći Beautiful Soup 4.

Snimanje očišćenih podataka u CSV datoteku

CSV datoteka vam omogućava da skladištite strukturirane podatke u običnom tekstu, format koji se najviše koristi za tablice podataka. Preporučuje se poznavanje rukovanja tekstualnim datotekama u Python-u.

Veb izvlačenje podataka se koristi za skrivanje stranica i dobijanje informacija. Budite pažljivi od web lokacija koje ste podaci o izvlačenju. Neke dinamične web stranice ograničavaju ekstrakciju web podataka na svojim sajtovima. Da biste sakrili stranicu sa Beautiful Soup i Python 3, to je jednostavno.

December 22, 2017