Wstępna charakterystyka bakteriofaga Serratia φOS10/Wstęp/Analiza bioinformatyczna genomów fagowych

Postęp w genomice wiążący się z udoskonaleniem technik sekwencjonowania klasów nukleinowych i białek (oraz spadku cen usług związanych z sekwencjonowaniem) przełożył się na powstanie ogromnych ilości danych w postaci sekwencji białkowych i nukleotydowych. Szybka analiza tych zasobów informatycznych możliwa jest tylko z użyciem komputerów oraz specjalnego oprogramowania przeznaczonego do analizy porównawczej tychże danych [Pennisi, 2011]. Dane obejmujące sekwencje nukleotydowe genów lub całych genomów oraz sekwencje aminokwasowe białek deponowane są w bazie NCBI (ang. The National Center for Biotechnology Information), będącej publicznie dostępnym repozytorium danych bioinformatycznych [Coordinators, 2017]. Wymienione w dalszych częściach Podrozdziału 1.6 programy wykorzystane na potrzeby niniejszej pracy dyplomowej są podstawowymi narzędziami do analizy bioinformatycznej wirusów, z czego niektóre (np. Virfam, Podrozdział 1.6.5) dedykowane są tylko przedstawicielom rzędu Caudovirales. Analiza genomów wirusowych wymaga specyficznej metodyki, ponieważ wiele sekwencjonowanych genomów wirusowych nie wykazuje podobieństwa do genomów innych organizmów i innych wirusów. Analogicznie wiele białkowych produktów genów wirusowych nie znajduje swoich homologów wśród produktów genów organizmów komórkowych, zaś efektem przeszukiwania bazy NCBI pod kątem sekwencji białkowych podobnych do sekwencji przewidywanych białek badanego wirusa jest długa lista dopasowań do białek wirusowych, których funkcji nie określono eksperymentalnie (ang. hypothetical protein) [Eisenstein i in., 2000]. Wyżej opisana trudność w przewidzeniu funkcji białka tylko na podstawie dopasowania do rekordów baz bioinformatycznych jest jedną z cech charakterystycznych dla genomiki i proteomiki wirusów. W ramach analiz bioinformatycznych wirusów znajdują zastosowanie programy do wyszukiwania domen funkcjonalnych, których obecność przewiduje się na podstawie motywów zawartych w badanych sekwencjach aminokwasowych (Podrozdział 1.6.4). Bywają sytuacje, w których wykrycie potencjalnej domeny funkcjonalnej nie jest tożsame z określeniem jej funkcji, co ma miejsce w przypadku rekordów oznaczanych jako „domeny o nieznanej funkcji” (ang. domain of unknown function, DUF) identyfikowanych u innych organizmów. Inną metodą przewidywania funkcji potencjalnych białek wirusowych jest wnioskowanie w oparciu o lokalizację badanego genu – białka uczestniczące w tym samym procesie kodowane są najczęściej przez geny kolinearne (tj. następujące jeden po drugim); w związku z czym, jeśli gen o nieznanej funkcji znajduje się pomiędzy dwoma o znanej funkcji, jest wówczas możliwe przewidzenie funkcji genu z dużą dozą prawdopodobieństwa (Podrozdział 1.3). Analiza genomiczna dostarcza przede wszystkim wskazówek co do dalszych kierunków badań, natomiast funkcję domniemanych białek wirusowych można zweryfikować dopiero na drodze eksperymentalnej [Eisenstein i in., 2000].

Program RAST (ang. Rapid Annotations using Subsystems Technology) wykorzystywany jest do wykrywania w sekwencji nukleotydowej potencjalnych otwartych ramek odczytu (ang. Open Reading Frame, ORF) w oparciu o występujące w zsekwencjonowanym genomie kodony START oraz kodony STOP. Program RAST umożliwia również wizualizację genomu i adnotację do rekordów z bazy NCBI [Aziz i in., 2008; Brettin i in., 2015; Overbeek i in., 2013].

Artemis jest programem funkcjonującym w oparciu o platformę Java. Dostosowany jest do użytku domowego i nie wymaga zakupu licencji na użytkowanie. Wykorzystywany jest w szczególności do adnotacji genomów prokariotycznych oraz genomów niższych eukariontów. [Rutherford i in., 2000]. Program Artemis w niniejszej pracy wykorzystano do wizualizacji sekwencji nukleotydowej zsekwencjonowanego genomu analizowanego bakteriofaga wraz z rozpoznanymi ORFami. W programie Artemis wygenerowano sekwencje aminokwasowe domniemanych produktów białkowych i zapisano w formacie FASTA. Sekwencje te poddano dalszej analizie z użyciem innych programów.

BLAST (ang. Basic Local Alignment Search Tool) jest programem, który w oparciu o algorytm Needleman’a-Wunsch’a porównuje zaimplementowaną przez użytkownika sekwencję nukleotydową lub białkową (sekwencja zapytania, ang. QUERY) z sekwencjami nukleotydowymi lub białkowymi zdeponowanymi w bazie NCBI (ang. SUBJECT). Wyniki wyszukiwania są wyświetlane w formie listy rekordów z bazy NCBI, dla których ma miejsce największe podobieństwo sekwencji nukleotydowych, jej pokrycie oraz „wartość E” (ang. e-value, expected value). Podobieństwo wyrażane jest w formie parametru SCORE (skr. S), którego wartość zależy od: przyjętej macierzy podstawieniowej (ang. substitution matrix) [Henikoff & Henikoff, 1992], od ilości kolejnych identycznych nukleotydów między sekwencją badaną a rekordem z bazy oraz od ilości kar za przerwy w ciągłości między tymi sekwencjami (karą nazywa się tu pewną wartość odejmowaną od sumy punktów przyznanych za identyczności między sekwencją badaną, a rekordem z bazy). Pokrycie jest wartością procentową, która wyraża odsetek fragmentów badanej sekwencji, dla których znaleziono przyporządkowanie do rekordu. Wartość E jest współczynnikiem zawierającym się w przedziale od 0 do 1 i wyraża prawdopodobieństwo, z jakim badana sekwencja została przyporządkowana do rekordu przez przypadek. Umownie przyjmuje się, że aby przypisanie do rekordu było istotne statystycznie, e-wartość nie może przekroczyć wartości 5 * 10-2. W wyborze odpowiedniego rekordu z listy dąży się do tego, aby wartość E była jak najmniejsza. Wartość E oblicza się według wzoru E = K*m*n*e– λ S [Altschul & Gish, 1996], gdzie:

  • K i λ są wartościami stałymi dla przyjętej macierzy podstawieniowej
  • m i n to długości sekwencji zapytania i sekwencji z bazy
  • e to liczba Eulera
  • S to wartość SCORE

Blast N (ang. Nucleotide Basic Local Alignment Search Tool) jest wariantem programu BLAST, który w oparciu o algorytm Needleman’a-Wunsch’a porównuje zaimplementowaną przez użytkownika sekwencję nukleotydową (QUERY) z sekwencjami nukleotydowymi zdeponowanymi w bazie NCBI. Program BLAST N wykorzystuje się do wyszukiwania sekwencji wykazujących homologię z badaną sekwencją [Altschul i in., 1990].
Blast P (ang. Protein Basic Local Alignment Search Tool) bazuje na tych samych parametrach co BLAST N, z jednym wyjątkiem – w sekwencji aminokwasowej do dyspozycji jest więcej liter (20 podstawowych aminokwasów) niż w sekwencji nukleotydowej (4 nukleotydy). Niektóre aminokwasy wykazują wzajemne podobieństwo strukturalne, w związku z czym podczas dopasowania sekwencji zapytania do rekordu z bazy przypisuje się temu podobieństwu wartość liczbową (ang. SCORE) na podstawie wybranej macierzy podstawieniowej (np. BLOSUM62) [Henikoff & Henikoff, 1992].
Blast X jest wariantem programu BLAST, służącym do dopasowywania wybranych sekwencji nukleotydowych z rekordami w bazie białek NCBI [Altschul i in., 1997; Johnson i in., 2008]. BLAST X wykorzystano w niniejszej pracy do dopasowania z rekordami bazy białek NCBI tych fragmentów sekwencji genomu badanego faga, które były homologiczne z sekwencjami genomów innych znanych fagów Serratia.

Jest to program wyszukujący ukryte modele Markowa (ang. HMMHidden Markow Models) w sekwencji aminokwasowej potencjalnego produktu białkowego, co umożliwia wykrycie potencjalnych domen funkcjonalnych [Rekapalli i in., 2009; Walters i in., 2007]. Program HMMER wykorzystano w niniejszej pracy jako narzędzie pomocnicze do wykrycia domen funkcjonalnych w potencjalnych produktach białkowych wykrytych ORF.

Virfam jest programem służącym do określania przynależności do rodziny taksonomicznej badanych bakteriofagów ogonkowych z rzędu Caudovirales. Przyporządkowanie do określonej rodziny ma miejsce w oparciu o analizę bioinformatyczną sekwencji aminokwasowych potencjalnych białek strukturalnych, które użytkownik implementuje do programu w postaci pliku FASTA. Program automatycznie wyszukuje sekwencje białek strukturalnych, które następnie wykorzystywane są jako zapytanie w globalnym dopasowaniu do rekordów bazy ACLAME (ang. A CLAssification of Mobile genetic Elements) zawierającej informacje o ruchomych elementach genetycznych, ze szczególnym uwzględnieniem plazmidów oraz bakteriofagów [Leplae i in., 2009]. Po przeszukaniu bazy program Virfam przewiduje morfotyp wirusa w oparciu o rozpoznane moduły główka-szyjka-ogonek, a następnie podaje przynależność do rodziny taksonomicznej [Lopes i in., 2014]. Jak wspomniano w Podrozdziale 1.2, kilka miesięcy temu ICTV wyodrębniło w rzędzie Caudovirales dwie nowe rodziny: Ackermannviridae i Herelleviridae; co nie jest jeszcze uwzględniane przez wiele programów bioinformatycznych, w tym Virfam. Wzięto pod uwagę w dyskusji rezultatów uzyskanych w niniejszej pracy (Rozdział 5.3.3). Wynik analizy prezentowany jest przez program Virfam w formie tzw. „drzewa przewodniego”, na którym badany bakteriofag jest umiejscawiany względem innych już scharakteryzowanych bakteriofagów ogonkowych zgodnie ze wzajemnym podobieństwem ich białek strukturalnych.

Serial Cloner (wersja 2.6.1) jest darmowym oprogramowaniem służącym do analizy sekwencji nukleotydowych, m. in: wizualizacji genomu, identyfikacji potencjalnych ORFów, tłumaczenia sekwencji nukleotydowej na sekwencję aminokwasową i symulacji cięć restrykcyjnych [Chandrakanth i in., 2010; Perez, 2004]. W niniejszej pracy program ten wykorzystano do: wyliczenia długości badanego genomu, określenia procentowego udziału nukleotydów i procentu par CG, symulacji cięć restrykcyjnych genomu badanego bakteriofaga oraz do pobierania wybranych fragmentów sekwencji genomu faga o znanych koordynatach w celu dalszych analiz z użyciem programu BLAST X.

Program ARAGORN służy do detekcji genów kodujących tRNA (ang. transfer RNA) oraz tmRNA (ang. transfer-messenger RNA) w zaimplementowanych sekwencjach nukleotydowych. Wyszukiwanie sekwencji genów kodujących tRNA odbywa się z użyciem algorytmu tRNA-CM bazującym na modelu kowariancji [Laslett & Canback, 2004]. W niniejszej pracy program ARAGORN wykorzystano do przeszukania sekwencji nukleotydowej genomu badanego bakteriofaga pod kątem obecności genów kodujących tRNA.



Tekst udostępniony jest na licencji Creative Commons Uznanie autorstwa-Na tych samych warunkach 3.0.
Dodatkowe informacje o autorach i źródle znajdują się na stronie dyskusji.