Získání seznam všech kostelů v určitém stavu pomocí Python

hlasů
-3

Jsem docela dobře s Python, takže pseudo-code, postačí, když informace jsou bezvýznamné. Prosím, abych začal na úkol - jak jít o procházení internetu na hlemýždí mailové adresy kostelů v mém stavu. Jakmile mám jednu vložku jako „123 Old West Road # 3 Old Lyme City MD 01234“, mohu snad rozebere ho do města, státu, ulice, číslo, apt dostatek pokusů a omylů. Můj problém je - pokud mohu použít bílé stránky on-line, tak jak mám jednat s veškerou nevyžádanou HTML, HTML stoly, reklamy, atd? Nemyslím si, že musím své telefonní číslo, ale to nebude bolet - vždycky můžu vyhodit jednou analyzován. I když vaše řešení je polovina-manual (například uložit do formátu PDF, pak open akrobat, uložit jako text) - bych mohl být spokojený s tím pořád. Dík! Heck, i já přijímám Perl úryvky - jim mohu přeložit sám.

Položena 14/12/2009 v 23:29
zdroj uživatelem
V jiných jazycích...                            


5 odpovědí

hlasů
2

Zkuste lynx --dump <url>stáhnout webové stránky. Všechny rušivé HTML tagy budou odstraněny z výstupu, a všechny odkazy ze stránky se zobrazí společně.

Odpovězeno 14/12/2009 v 23:36
zdroj uživatelem

hlasů
2

Dalo by se použít Mechanize . Je to python knihovnu, která simuluje prohlížeč, takže si mohl prolézt bílé stránky (podobně jako to, co děláte ručně).

S cílem vypořádat se s python ‚html junk‘ má knihovnu pro to taky: BeautifulSoup Je to krásný způsob, jak získat data, která chcete z HTML (samozřejmě předpokládá, že víte něco o HTML, jak budete i nadále muset procházet derivační strom).

Aktualizace: V odpověď na Váš návazné otázky o tom, jak se proklikat více stránek. Mechanize je knihovna dělat jen to. Podívejme se blíže na jejich příkladech, esp. metoda follow_link. Jak jsem již řekl, že simuluje prohlížeč, takže ‚klikání‘ lze realizovat rychle pythonu.

Odpovězeno 14/12/2009 v 23:42
zdroj uživatelem

hlasů
2

Co se snažíte udělat, je nazýván Škrábání nebo web škrábání.

Máte-li dělat nějaké hledání na Python a škrábání , můžete najít seznam nástrojů , které vám pomohou.

(Já jsem nikdy nepoužíval scrapy, ale je to místo vypadá slibně :)

Odpovězeno 14/12/2009 v 23:46
zdroj uživatelem

hlasů
2

Krásná Polévka je ne přemýšlet. Zde je web, který by mohl začít na http://www.churchangel.com/ . Mají obrovský seznam a formátování je velmi pravidelné - překlad: snadné nastavení BSoup skřípání.

Odpovězeno 15/12/2009 v 00:17
zdroj uživatelem

hlasů
1

Python skripty nemusí být tím nejlepším nástrojem pro tuto práci, pokud jste právě hledají adresy kostelů v geografické oblasti, kterou.

Americké sčítání lidu poskytuje datový soubor kostelů pro použití s geografickými informačními systémy. -Li najít všechny xv územním obvodu je stále se opakující problém, investovat do učení GIS. Pak si můžete přinést své Python schopnosti aby se podílel na mnoha geografických úkolů.

Odpovězeno 15/12/2009 v 00:34
zdroj uživatelem

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more