Zanurkuj w Pythonie/Przetwarzanie HTML-a: Różnice pomiędzy wersjami
Usunięta treść Dodana treść
m do przetłumaczenia |
tłumaczenie |
||
Linia 1:
{{Podświetl|py}}
==
Na comp.lang.python często można zobaczyć pytania w stylu „jak można znaleźć wszystkie [nagłówki|obrazki|linki] w moim dokumencie HTML?”, „jak mogę sparsować/przetłumaczyć/przerobić tekst mojego dokumentu HTML tak, aby zostawić tagi w spokoju?” lub też “jak mogę natychmiastowo dodać/usunąć/zacytować atrybuty z wszystkich tagów mojego dokumentu HTML?”. Rozdział ten odpowiada na wszystkie te pytania.
Poniżej przedstawiono w dwóch częściach całkowicie działający program. Pierwsza część, <tt>BaseHTMLProcessor.py</tt> jest ogólnym narzędziem, który przetwarza pliki HTML przechodząc przez wszystkie taki i bloki tekstowe. Druga część, <tt>dialect.py</tt>, jest przykładem tego, jak wykorzystać <tt>BaseHTMLProcessor.py</tt>, aby przetłumaczyć tekst dokumentu HTML, lecz przy tym zostawiając tagi w spokoju. Przeczytaj napisy dokumentacyjne i komentarze w celu zorientowania się, co się tutaj właściwie dzieje. Duża część tego kodu wygląda jak czarna magia, ponieważ nie jest oczywiste w jaki sposób dowolna z metod klasy jest wywoływana. Jednak nie martw się, wszystko zostanie wyjaśnione w odpowiednim czasie.
'''
Możesz [http://diveintopython.org/download/diveintopython-examples-5.4.zip pobrać wszystkie przykłady użyte w tej książce], jeśli jeszcze tego nie zrobiłeś.
<nowiki>
from sgmllib import SGMLParser
Linia 83:
</nowiki>
'''
<nowiki>
Linia 241:
</nowiki>
'''
<nowiki>
|