Jsem docela dobře s Python, takže pseudo-code, postačí, když informace jsou bezvýznamné. Prosím, abych začal na úkol - jak jít o procházení internetu na hlemýždí mailové adresy kostelů v mém stavu. Jakmile mám jednu vložku jako „123 Old West Road # 3 Old Lyme City MD 01234“, mohu snad rozebere ho do města, státu, ulice, číslo, apt dostatek pokusů a omylů. Můj problém je - pokud mohu použít bílé stránky on-line, tak jak mám jednat s veškerou nevyžádanou HTML, HTML stoly, reklamy, atd? Nemyslím si, že musím své telefonní číslo, ale to nebude bolet - vždycky můžu vyhodit jednou analyzován. I když vaše řešení je polovina-manual (například uložit do formátu PDF, pak open akrobat, uložit jako text) - bych mohl být spokojený s tím pořád. Dík! Heck, i já přijímám Perl úryvky - jim mohu přeložit sám.
Získání seznam všech kostelů v určitém stavu pomocí Python
Zkuste lynx --dump <url>stáhnout webové stránky. Všechny rušivé HTML tagy budou odstraněny z výstupu, a všechny odkazy ze stránky se zobrazí společně.
Dalo by se použít Mechanize . Je to python knihovnu, která simuluje prohlížeč, takže si mohl prolézt bílé stránky (podobně jako to, co děláte ručně).
S cílem vypořádat se s python ‚html junk‘ má knihovnu pro to taky: BeautifulSoup Je to krásný způsob, jak získat data, která chcete z HTML (samozřejmě předpokládá, že víte něco o HTML, jak budete i nadále muset procházet derivační strom).
Aktualizace: V odpověď na Váš návazné otázky o tom, jak se proklikat více stránek. Mechanize je knihovna dělat jen to. Podívejme se blíže na jejich příkladech, esp. metoda follow_link. Jak jsem již řekl, že simuluje prohlížeč, takže ‚klikání‘ lze realizovat rychle pythonu.
Co se snažíte udělat, je nazýván Škrábání nebo web škrábání.
Máte-li dělat nějaké hledání na Python a škrábání , můžete najít seznam nástrojů , které vám pomohou.
(Já jsem nikdy nepoužíval scrapy, ale je to místo vypadá slibně :)
Krásná Polévka je ne přemýšlet. Zde je web, který by mohl začít na http://www.churchangel.com/ . Mají obrovský seznam a formátování je velmi pravidelné - překlad: snadné nastavení BSoup skřípání.
Python skripty nemusí být tím nejlepším nástrojem pro tuto práci, pokud jste právě hledají adresy kostelů v geografické oblasti, kterou.
Americké sčítání lidu poskytuje datový soubor kostelů pro použití s geografickými informačními systémy. -Li najít všechny xv územním obvodu je stále se opakující problém, investovat do učení GIS. Pak si můžete přinést své Python schopnosti aby se podílel na mnoha geografických úkolů.













