Semalt: Udhëzuesi për Scraping HTML - Këshilla të mira

Përmbajtja në internet është kryesisht në formate të strukturuara ose HTML. Do faqe është e organizuar në mënyrën e saj unike në varësi të llojit të përmbajtjes në të. Nëse dikush dëshiron të nxjerrë informacione në internet, është dëshira e secilit që të marrë të dhënat në një mënyrë të strukturuar dhe të mirëorganizuar. Kjo do të ndihmojë në kursimin e kohës së kërkuar për rishikimin, analizimin dhe organizimin e dokumentit përpara se ta ndani. Sidoqoftë, marrja e një formati të strukturuar nuk është e lehtë pasi shumica e faqeve në internet nuk e ofrojnë atë mundësi për t'i parandaluar njerëzit të nxjerrin sasi të mëdha të të dhënave. Sidoqoftë, disa site ofrojnë API që u siguron njerëzve mundësi për nxjerrjen e informacionit në një proces të shpejtë dhe të lehtë.

Në ngjarje të tilla, nuk do të keni zgjidhje tjetër përveçse të përdorni ndihmën e një programimi softuer të njohur si scraping. Shtë një qasje që përdor programin kompjuterik duke ndihmuar përdoruesit të mbledhin informacione në një format të dobishëm dhe ruajnë strukturën e të dhënave.

Lxml dhe Kërkesë

Kjo është një bibliotekë e gjerë skrapesh që ndihmon në analizimin dhe vlerësimin e shpejtë të XML dhe HTML dhe ndihmon në kursimin e kohës. Isshtë gjithashtu e dobishme në trajtimin e etiketave të çrregullt në procesin e analizës. Në këtë procedurë, ju përdorni kërkesat Lxml sesa urllib2 inbuilt pasi që është më i shpejtë, i fortë dhe i disponueshëm. Shtë e thjeshtë ta instaloni atë duke përdorur kërkesat për instalimin e pipit Lxml dhe pip.

Për scraping HTML ndiqni këto hapa

Filloni me importe - këtu ju importoni HTML nga Lxml, dhe më pas kërkoni kërkesën. Përdorni kërkesën dhe më pas gjurmoni faqen në internet që përmban të dhënat që dëshironi të nxjerrni, analizoni atë me modul HTML dhe më pas ruani të dhënat e analizuara në pemë.

Ju do të duhet të përdorni përmbajtjen e faqes dhe jo tekstin pasi HTML pret që të marrë inputin në bajtë. Pema, ku i keni ruajtur të dhënat tuaja të analizuara, tani përmban dokumentin HTML në një strukturë peme. Ju mund të shkoni mbi strukturën e pemës në mënyra të ndryshme, XPath dhe CSSelect.

XPath ju ndihmon të merrni informacion ose të merrni atë në një format të strukturuar si HTML ose XML. Ka mënyra të ndryshme në të cilat mund të merrni elementet XPath. Këto përfshijnë Firebug për Firefox ose Chrome Inspector. Kur përdorni Chrome, inspektimi i informacionit është i lehtë pasi vetëm duhet të 'klikoni me të djathtën' mbi elementin që kërkon inspektim, zgjidhni 'Inspektoni elementin', nënvizoni kodin e dhënë dhe pastaj klikoni me të djathtën dhe zgjidhni kopjen XPath. Ky proces do t'ju ndihmojë të dini se cilat elemente gjenden në faqen tuaj dhe prej andej, është e lehtë të krijoni pyetjen e duhur XPath dhe të aplikoni saktë Lxml XPath.

Kalimi nëpër këto hapa siguron që të keni fshirë të gjitha të dhënat që keni dashur të nxirrni nga një ueb i veçantë duke përdorur Lxml dhe Kërkesat. Do të keni informacionin e ruajtur në një memorie me dy lista, dhe tani ai është gati për renditje. Ju mund ta analizoni atë duke përdorur një gjuhë programimi si Python ose ta ruani atë dhe ta ndani atë. Gjithashtu, ju mund të dëshironi të rishkruani ose modifikoni disa pjesë të informacionit përpara se t'i ndani.

mass gmail