Zanurkuj w Pythonie/Wyciąganie danych z dokumentu HTML: Różnice pomiędzy wersjami
Usunięta treść Dodana treść
zaczynam tłumaczyć |
Nie podano opisu zmian |
||
Linia 30:
[...ciach...]</nowiki>
# Moduł <tt>urllib</tt> jest częścią standardowej biblioteki Pythona. Zawiera on funkcje służące do pobierania informacji o danych, a także pobierania danych z internetu na podstawie adresu URL (głównie strony web).
# Najprostszym sposobie wykorzystanie <tt>urllib</tt>-a, aby pobrać tekst ze strony web, jest wykorzystanie funkcji <tt>urlopen</tt>. Otworzenie URL-a jest równie proste, jak otworzenie pliku. Zwracana wartość funkcji <tt>urlopen</tt> przypomina normalny obiekt pliku i posiada niektóre identyczne metody.
# Najprostszą czynnością, którą możemy wykonać na obiekcie zwróconym przez <tt>urlopen</tt>, jest wywołanie <tt>read</tt>. Metoda ta odczyta cały HTML strony internetowej i zwróci go w postaci napisu, łańcucha znaków. Obiekt ten posiada także metodę <tt>readlines</tt>, która czyta tekst linia po linii, dodając kolejne linie do listy.
# Kiedy skończymy pracę na tym obiekcie, powinniśmy go jeszcze zamknąć za pomocą <tt>close</tt>, podobnie jak normalny plik.
#
'''
If you have not already done so, you can download this and other examples used in this book.
|