Bioinformatika adalah ilmu yang mempelajari penerapan teknik
komputasional untuk mengelola dan menganalisis informasi hayati. Bidang ini
mencakup penerapan metode-metode matematika, statistika, dan informatika untuk
memecahkan masalah-masalah biologi, terutama yang terkait dengan penggunaan
sekuens DNA dan asam amino. Contoh topik utama bidang ini meliputi pangkalan
data untuk mengelola informasi hayati, penyejajaran sekuens (sequence
alignment), prediksi struktur untuk meramalkan struktur protein atau pun
struktur sekunder RNA, analisis filogenetik, dan analisis ekspresi gen.
Penerapan Utama Bioinformatika
Sesuai dengan jenis informasi hayati yang disimpannya, pangkalan data sekuens biologi dapat berupa pangkalan
data primer untuk menyimpan sekuens primer asam nukleat dan protein,
pangkalan data sekunder untuk menyimpan motif sekuens protein, dan pangkalan
data struktur untuk menyimpan data struktur protein dan asam nukleat.
Pangkalan data utama untuk sekuens asam nukleat saat ini
adalah GenBank (Amerika
Serikat), EMBL (the European
Molecular Biology Laboratory, Eropa), dan DDBJ
(DNA Data Bank of Japan, Jepang).
Ketiga pangkalan data tersebut bekerja sama dan bertukar data secara
harian untuk menjaga keluasan cakupan masing-masing pangkalan data. Sumber
utama data sekuens asam nukleat adalah submisi (pengumpulan) langsung dari
peneliti individual, proyek sekuensing genom, dan
pendaftaran paten. Selain berisi
sekuens asam nukleat, entri dalam pangkalan data sekuens asam nukleat pada
umumnya mengandung informasi tentang jenis asam nukleat (DNA atau RNA),
nama organisme sumber asam nukleat tersebut, dan
pustaka yang berkaitan dengan sekuens asam nukleat tersebut.
Sementara itu, contoh beberapa pangkalan data penting yang
menyimpan sekuens primer protein adalah PIR
(Protein
Information Resource, Amerika Serikat), Swiss-Prot (Eropa), dan TrEMBL
(Eropa).
Ketiga pangkalan data tersebut telah digabungkan dalam UniProt, yang didanai terutama oleh Amerika Serikat. Entri
dalam UniProt mengandung informasi tentang sekuens protein, nama organisme
sumber protein, pustaka yang berkaitan, dan komentar yang pada umumnya berisi
penjelasan mengenai fungsi protein tersebut.
BLAST (Basic Local Alignment Search Tool) merupakan
perkakas bioinformatika yang berkaitan erat dengan penggunaan pangkalan data
sekuens biologi. Penelusuran BLAST (BLAST search) pada pangkalan data
sekuens memungkinkan ilmuwan untuk mencari sekuens baik asam nukleat maupun
protein yang mirip dengan sekuens tertentu yang dimilikinya. Hal ini berguna
misalnya untuk menemukan gen sejenis
pada beberapa organisme atau untuk memeriksa
keabsahan hasil sekuensing atau untuk
memeriksa fungsi gen hasil sekuensing. Algoritma
yang mendasari kerja BLAST adalah penyejajaran sekuens.
PDB (Protein Data Bank, Bank Data Protein) adalah
pangkalan data tunggal yang menyimpan model struktur tiga dimensi protein dan
asam nukleat hasil penentuan eksperimental (dengan kristalografi sinar-X,
spektroskopi NMR, dan mikroskopi elektron). PDB menyimpan data struktur sebagai
koordinat tiga dimensi yang menggambarkan posisi atom-atom dalam protein atau
pun asam nukleat.
2.
Penyejajaran sekuens
Penyejajaran sekuens (sequence alignment) adalah
proses penyusunan/pengaturan dua atau lebih sekuens sehingga persamaan
sekuens-sekuens tersebut nampak nyata. Hasil proses tersebut juga disebut
sebagai sequence alignment atau alignment saja. Baris sekuens
dalam suatu alignment diberi sisipan (umumnya dengan tanda
"–") sedemikian rupa sehingga kolom-kolomnya memuat karakter yang
identik atau sama di antara sekuens-sekuens tersebut. Berikut adalah contoh alignment
DNA dari dua sekuens pendek DNA yang berbeda, "ccatcaac" dan
"caatgggcaac" (tanda "|" menunjukkan kecocokan atau match
di antara kedua sekuens).
ccat---caac
| || ||||
caatgggcaac
Sequence alignment
merupakan metode dasar dalam analisis sekuens. Metode ini digunakan untuk
mempelajari evolusi
sekuens-sekuens dari leluhur yang sama (common ancestor). Ketidakcocokan
(mismatch) dalam alignment diasosiasikan dengan proses mutasi,
sedangkan kesenjangan (gap, tanda "–") diasosiasikan dengan
proses insersi atau delesi. Sequence alignment memberikan hipotesis atas
proses evolusi yang terjadi dalam sekuens-sekuens tersebut. Sebagai
contoh, kedua sekuens dalam contoh alignment di atas bisa jadi
berevolusi dari sekuens yang sama "ccatgggcaac". Dalam kaitannya
dengan hal ini, alignment juga dapat menunjukkan posisi-posisi yang
dipertahankan (conserved) selama evolusi dalam sekuens-sekuens protein,
yang menunjukkan bahwa posisi-posisi tersebut bisa jadi penting bagi struktur
atau fungsi protein tersebut.
Selain itu, sequence alignment juga digunakan untuk
mencari sekuens yang mirip atau sama dalam pangkalan data sekuens. BLAST adalah
salah satu metode alignment yang sering digunakan dalam penelusuran
pangkalan data sekuens.
Beberapa metode alignment lain yang merupakan
pendahulu BLAST adalah metode "Needleman-Wunsch" dan
"Smith-Waterman". Metode Needleman-Wunsch digunakan untuk menyusun alignment
global di antara dua atau lebih sekuens, yaitu alignment atas
keseluruhan panjang sekuens tersebut. Metode Smith-Waterman menghasilkan alignment
lokal, yaitu alignment atas bagian-bagian dalam sekuens. Kedua metode tersebut
menerapkan pemrograman dinamik (dynamic programming) dan hanya efektif
untuk alignment dua sekuens (pairwise alignment)
Clustal adalah program bioinformatika untuk alignment
multipel (multiple alignment), yaitu alignment beberapa sekuens
sekaligus. Dua varian utama Clustal adalah ClustalW dan ClustalX.
Metode lain yang dapat diterapkan untuk alignment
sekuens adalah metode yang berhubungan dengan Hidden Markov Model
("Model Markov Tersembunyi", HMM). HMM merupakan model statistika
yang pada mulanya digunakan dalam ilmu komputer untuk mengenali pembicaraan
manusia (speech recognition). Selain digunakan untuk alignment,
HMM juga digunakan dalam metode-metode analisis sekuens lainnya seperti
prediksi daerah penyandi protein dalam genom dan prediksi struktur sekunder
protein.
3. Prediksi struktur protein
Secara kimia/fisika, struktur protein diungkapkan dengan
kristalografi sinar-X atau pun spektroskopi NMR. Namun, kedua metode tersebut
sangat memakan waktu dan relatif mahal. Sementara itu, metode sekuensing
protein relatif lebih mudah mengungkapkan sekuens asam amino protein. Prediksi
struktur protein berusaha meramalkan struktur tiga dimensi protein berdasarkan
atas sekuens asam aminonya. Dengan perkataan lain, prediksi tersebut meramalkan
struktur sekunder dan struktur tersier berdasarkan atas struktur primer
protein.
Secara umum, metode prediksi struktur protein yang ada saat
ini dapat dikategorikan ke dalam dua kelompok, yaitu metode pemodelan protein
komparatif dan metode pemodelan de novo. Pemodelan protein komparatif (comparative
protein modelling) meramalkan struktur suatu protein berdasarkan atas
struktur protein lain yang telah diketahui. Salah satu penerapan metode ini
adalah pemodelan homologi (homology modelling), yaitu prediksi struktur
tersier protein berdasarkan atas kesamaan struktur primer protein. Pemodelan
homologi didasarkan atas teori bahwa dua protein yang homolog memiliki struktur
yang sangat mirip satu sama lain. Pada metode ini, struktur suatu protein
(disebut dengan protein target) ditentukan berdasarkan atas struktur protein
lain (protein templat) yang telah diketahui dan memiliki kemiripan sekuens
dengan protein target tersebut. Selain itu, penerapan lain pemodelan komparatif
adalah protein threading yang didasarkan atas kemiripan struktur tanpa
kemiripan sekuens primer. Latar belakang protein threading adalah bahwa
struktur protein lebih dikonservasi daripada sekuens protein selama evolusi;
daerah-daerah yang penting bagi fungsi protein dipertahankan strukturnya. Pada
pendekatan ini, struktur yang paling kompatibel untuk suatu sekuens asam amino
dipilih dari semua jenis struktur tiga dimensi protein yang ada. Metode-metode
yang tergolong dalam protein threading berusaha menentukan tingkat
kompatibilitas tersebut.
Dalam pendekatan de novo atau ab initio,
struktur protein ditentukan dari sekuens primernya tanpa membandingkan dengan
struktur protein lain. Terdapat banyak kemungkinan dalam pendekatan ini,
misalnya dengan menirukan proses pelipatan (folding) protein dari
sekuens primernya menjadi struktur tersiernya (misalnya dengan simulasi
dinamika molekular), atau dengan optimisasi global fungsi energi protein.
Prosedur-prosedur ini cenderung membutuhkan proses komputasi yang intens
sehingga saat ini hanya digunakan dalam menentukan struktur protein-protein
kecil. Beberapa usaha telah dilakukan untuk mengatasi kekurangan sumber daya
komputasi tersebut, misalnya dengan superkomputer (misalnya superkomputer Blue
Gene dari IBM)
atau komputasi terdistribusi atau pun komputasi grid.
4.
Analisis ekspresi gen
Ekspresi gen dapat ditentukan dengan mengukur kadar mRNA
dengan berbagai macam teknik, misalnya dengan microarray atau pun Serial
Analysis of Gene Expression atau Analisis Serial Ekspresi Gen (SAGE).
Teknik-teknik tersebut umumnya diterapkan pada analisis ekspresi gen skala
besar yang mengukur ekspresi banyak gen (bahkan genom) dan menghasilkan data skala besar. Metode-metode
penggalian data (data mining) diterapkan pada data tersebut untuk
memperoleh pola-pola informatif. Sebagai contoh, metode-metode komparasi
digunakan untuk membandingkan ekspresi di antara gen-gen, sementara
metode-metode klastering (clustering) digunakan untuk mempartisi data
tersebut berdasarkan atas kesamaan ekspresi gen.
Komentar : Dari penjelasan diatas dapat disimpulkan bahwa
bioinformatika sangat berperan penting didalam berbagai bidang. Dengan
bioinformatika manusia dapat memanfaatkan biokimia, mikrobiologi, dan rekayasa
genetika secara terpadu, untuk menghasilkan barang atau lainnya bagi
kepentingan manusia.
Ihsan Sulistio Hananto
53409543
4IA07
Tidak ada komentar:
Posting Komentar