Wersja z 21:41, 12 wrz 2007 edytuj Piotr (dyskusja \| edycje) 6422 edycje poprawki ← poprzednia edycja		Wersja z 22:22, 12 wrz 2007 edytuj anuluj edycję Piotr (dyskusja \| edycje) 6422 edycje Nie podano opisu zmian następna edycja →
Linia 92: \|tekst= <nowiki> #-- coding: utf-8 -- ~~import re~~ ~~from BaseHTMLProcessor import BaseHTMLProcessor~~ import re ~~class~~from BaseHTMLProcessor import ~~Dialectizer(~~BaseHTMLProcessor): ~~subs = ()~~ class Dialectizer(BaseHTMLProcessor): subs ~~def~~= ~~reset~~(~~self~~): ~~# extend (called from __init__ in ancestor)~~ def reset(self): ~~# Reset all data attributes~~ # dodatek (wywoływany przez __init__ klasy bazowej) ~~self.verbatim = 0~~ # ~~BaseHTMLProcessor.reset(self)~~Resetuje wszystkie atrybuty self.verbatim = 0 BaseHTMLProcessor.reset(self) ~~def start_pre(self, attrs):~~ ~~# called for every <pre> tag in HTML source~~ def start_pre(self, attrs): ~~# Increment verbatim mode count, then handle tag like normal~~ # wywoływane dla każdego znacznika <pre> w źródle HTML ~~self.verbatim += 1~~ # Zwiększa licznik trybu dosłowności verbatim, a następnie ~~self.unknown_starttag("pre", attrs)~~ # obsługuje ten znacznik normalnie self.verbatim += 1 ~~def end_pre(self):~~ ~~# called for every </~~self.unknown_starttag("pre~~> tag in HTML~~", ~~source~~attrs) ~~# Decrement verbatim mode count~~ def end_pre(self): ~~self.unknown_endtag("pre")~~ # wywoływane dla każdego znacznika </pre> ~~self.verbatim -= 1~~ # Zmiejsza licznik trybu dosłowności verbatim self.unknown_endtag("pre") ~~def handle_data(self, text):~~ self.verbatim #-= ~~override~~1 ~~# called for every block of text in HTML source~~ def handle_data(self, text): ~~# If in verbatim mode, save text unaltered;~~ # metoda nadpisana ~~# otherwise process the text with a series of substitutions~~ # wywoływane dla każdego bloku tekstu w źródle ~~self.pieces.append(self.verbatim and text or self.process(text))~~ # Jeśli jest w trybie dosłownym, zapisuje tekst niezmieniony; # inaczej przetwarza tekst za pomocą szeregu podstawień ~~def process(self, text):~~ self.pieces.append(self.verbatim and text or self.process(text)) ~~# called from handle_data~~ ~~# Process text block by performing series of regular expression~~ def process(self, text): ~~# substitutions (actual substitions are defined in descendant)~~ # wywoływane z handle_data ~~for fromPattern, toPattern in self.subs:~~ # Przetwarza każdy blok wykonując serie podstawień ~~text = re.sub(fromPattern, toPattern, text)~~ # za pomocą wyrażeń regularnych (podstawienia są definiowane przez klasy pochodne) ~~return text~~ for fromPattern, toPattern in self.subs: text = re.sub(fromPattern, toPattern, text) ~~class ChefDialectizer(Dialectizer):~~ ~~"""convert~~ ~~HTML~~ to ~~Swedish~~return ~~Chef-speak~~text class ChefDialectizer(Dialectizer): ~~based on the classic chef.x, copyright (c) 1992, 1993 John Hagerman~~ u"""konwertuje HTML na mowę szwedzkiego szefa kuchni ~~"""~~ ~~subs = ((r'a([nu])', r'u\1'),~~ oparte na klasycznym chef.x, copyright (c) 1992, 1993 John Hagerman ~~(r'A([nu])', r'U\1'),~~ """ ~~(r'a\B', r'e'),~~ subs = ((r'~~A\B~~a([nu])', r'Eu\1'), (r'~~en\b~~A([nu])', r'eeU\1'), (r'a\~~Bew~~B', r'ooe'), (r'A\~~Be\b~~B', r'~~e-a~~E'), (r'en\beb', r'iee'), (r'\bEBew', r'Ioo'), (r'\BfBe\b', r'ffe-a'), (r'\~~Bir~~be', r'uri'), (r'(\~~w?)i(\w?)$~~bE', r'~~\1ee\2~~I'), (r'\~~bow~~Bf', r'ooff'), (r'\boBir', r'oour'), (r'(\bOw?)i(\w?)$', r'Oo\1ee\2'), (r'~~the~~\bow', r'~~zee~~oo'), (r'~~The~~\bo', r'~~Zee~~oo'), (r'th\bbO', r'tOo'), (r'~~\Btion~~the', r'~~shun~~zee'), (r'~~\Bu~~The', r'ooZee'), (r'th\BUb', r'Oot'), (r'v\Btion', r'fshun'), (r'V\Bu', r'Foo'), (r'w\BU', r'wOo'), (r'Wv', r'Wf'), (r'~~([a-z])[.]~~V', r'~~\1. Bork Bork Bork!~~F')), (r'w', r'w'), (r'W', r'W'), ~~class FuddDialectizer(Dialectizer):~~ (r'([a-z])[.]', r'\1. Bork Bork Bork!')) ~~"""convert HTML to Elmer Fudd-speak"""~~ ~~subs = ((r'[rl]', r'w'),~~ class FuddDialectizer(Dialectizer): ~~(r'qu', r'qw'),~~ u"""konwertuje HTML na mowę Elmer Fudda""" ~~(r'th\b', r'f'),~~ subs = ((r'th[rl]', r'dw'), (r'~~n[.]~~qu', r'~~n, uh-hah-hah-hah.~~qw')), (r'th\b', r'f'), (r'th', r'd'), ~~class OldeDialectizer(Dialectizer):~~ (r'n[.]', r'n, uh-hah-hah-hah.')) ~~"""convert HTML to mock Middle English"""~~ ~~subs = ((r'i([bcdfghjklmnpqrstvwxyz])e\b', r'y\1'),~~ class OldeDialectizer(Dialectizer): ~~(r'i([bcdfghjklmnpqrstvwxyz])e', r'y\1\1e'),~~ u"""konwertuje HTML na pozorowany język średnioangielski""" ~~(r'ick\b', r'yk'),~~ subs = ((r'iai([bcdfghjklmnpqrstvwxyz])e\b', r'ey\1e1'), (r'~~e[ea]~~i([bcdfghjklmnpqrstvwxyz])e', r'ey\1\1e'), (r'~~([bcdfghjklmnpqrstvwxyz])y~~ick\b', r'~~\1ee~~yk'), (r'ia([bcdfghjklmnpqrstvwxyz])er', r'e\~~1re~~1e'), (r'e[ea]([~~aeiou~~bcdfghjklmnpqrstvwxyz])~~re\b~~', r'e\1r1e'), (r'ia([bcdfghjklmnpqrstvwxyz])y', r'i\1e1ee'), (r'~~tion\b~~([bcdfghjklmnpqrstvwxyz])er', r'~~cioun~~\1re'), (r'~~ion~~([aeiou])re\b', r'~~ioun~~\1r'), (r'~~aid~~ia([bcdfghjklmnpqrstvwxyz])', r'~~ayde~~i\1e'), (r'aition\b', r'eycioun'), (r'ayion\b', r'yioun'), (r'ayaid', r'eyayde'), (r'~~ant~~ai', r'~~aunt~~ey'), (r'eaay\b', r'eey'), (r'oaay', r'ooey'), (r'ueant', r'eaunt'), (r'oeea', r'oee'), (r'ouoa', r'owoo'), (r'owue', r'oue'), (r'~~\bhe~~oe', r'hio'), (r'~~ve\b~~ou', r'~~veth~~ow'), (r'~~se\b~~ow', r'eou'), (r"'s\b"bhe', r'eshi'), (r'icve\b', r'~~ick~~veth'), (r'~~ics~~se\b', r'~~icc~~e'), (r"'~~ical~~s\b'", r'~~ick~~es'), (r'~~tle~~ic\b', r'~~til~~ick'), (r'llics\b', r'licc'), (r'~~ould~~ical\b', r'~~olde~~ick'), (r'~~own~~tle\b', r'~~oune~~til'), (r'unll\b', r'~~onne~~l'), (r'~~rry~~ould\b', r'~~rye~~olde'), (r'~~est~~own\b', r'~~este~~oune'), (r'ptun\b', r'~~pte~~onne'), (r'thrry\b', r'~~the~~rye'), (r'chest\b', r'~~che~~este'), (r'sspt\b', r'~~sse~~pte'), (r'~~([wybdp])~~th\b', r'~~\1e~~the'), (r'~~([rnt])~~ch\b', r'~~\1\1e~~che'), (r'~~from~~ss\b', r'~~fro~~sse'), (r'~~when~~([wybdp])\b', r'~~whan~~\1e')), (r'([rnt])\b', r'\1\1e'), (r'from', r'fro'), ~~def translate(url, dialectName="chef"):~~ (r'when', r'whan')) ~~"""fetch URL and translate using dialect~~ def translate(url, dialectName="chef"): ~~dialect in ("chef", "fudd", "olde")"""~~ u"""pobiera plik na podstawie URL-a ~~import urllib~~ i tłumaczy korzystając z dialektu, gdzie ~~sock = urllib.urlopen(url)~~ dialekt in ("chef", "fudd", "olde")""" ~~htmlSource = sock.read()~~ import urllib ~~sock.close()~~ sock = urllib.urlopen(url) ~~parserName = "%sDialectizer" % dialectName.capitalize()~~ htmlSource = sock.read() ~~parserClass = globals()[parserName]~~ sock.close() ~~parser = parserClass()~~ parserName = "%sDialectizer" % dialectName.capitalize() ~~parser.feed(htmlSource)~~ parserClass = globals()[parserName] ~~parser.close()~~ parser ~~return~~= ~~parser.output~~parserClass() parser.feed(htmlSource) parser.close() ~~def test(url):~~ return parser.output() ~~"""test all dialects against URL"""~~ ~~for dialect in ("chef", "fudd", "olde"):~~ def test(url): ~~outfile = "%s.html" % dialect~~ u"""testuje wszystkie dialekty na pewnym URL-u""" ~~fsock = open(outfile, "wb")~~ for dialect in ("chef", "fudd", "olde"): ~~fsock.write(translate(url, dialect))~~ outfile ~~fsock~~= "%s.~~close()~~html" % dialect fsock ~~import~~= ~~webbrowser~~open(outfile, "wb") ~~webbrowser~~fsock.~~open_new~~write(~~outfile~~translate(url, dialect)) fsock.close() import webbrowser ~~if __name__ == "__main__":~~ webbrowser.open_new(outfile) ~~test("http://diveintopython.org/odbchelper_list.html")~~ if __name__ == "__main__": test("http://diveintopython.org/odbchelper_list.html") </nowiki> }}

Zanurkuj w Pythonie/Przetwarzanie HTML-a: Różnice pomiędzy wersjami