Zanurkuj w Pythonie/Wyciąganie danych z dokumentu HTML: Różnice pomiędzy wersjami

Usunięta treść Dodana treść
m dodanie 2 spacji
Beau (dyskusja | edycje)
sprzątanie kodu
Linia 1:
== Wyciąganie danych z dokumentu HTML ==
 
Aby wyciągnąć dane z dokumentu HTML, tworzymy podklasę klasy <code>SGMLParser</code> i definiujemy dla encji lub każdego znacznika, który nas interesuje, odpowiednią metodę.
 
Linia 53 ⟶ 52:
|8.6|Wprowadzenie do {{Python/Src|urllister.py}}
|tekst=
<nowikisource lang="python">from sgmllib import SGMLParser
class URLLister(SGMLParser):
def reset(self): #(1)
Linia 62 ⟶ 61:
href = [v for k, v in attrs if k=='href'] #(3) (4)
if href:
self.urls.extend(href)</nowikisource>
 
# <code>reset</code> jest wywoływany przez metodę <code>__init__</code> <code>SGMLParser</code>-a, a także można go wywołać ręcznie już po utworzeniu instancji parsera. Zatem, jeśli potrzebujemy powtórnie zainicjalizować instancję parsera, który był wcześniej używany, zrobimy to za pomocą <code>reset</code> (nie przez <code>__init__</code>). Nie ma potrzeby tworzenia nowego obiektu.
Linia 107 ⟶ 106:
[[../Wprowadzenie do BaseHTMLProcessor.py|Wprowadzenie do <tt>BaseHTMLProcessor.py</tt>]]|
}}
{{Podświetl|py}}
</noinclude>