Bioinformatika (bahasa
Inggris: bioinformatics) adalah (ilmu yang
mempelajari) penerapan teknik komputasionaluntuk
mengelola dan menganalisis informasi biologis.
Bidang ini mencakup penerapan metode-metode matematika,statistika,
dan informatika untuk
memecahkan masalah-masalah biologis, terutama dengan menggunakan sekuensDNA dan asam amino serta
informasi yang berkaitan dengannya. Contoh topik utama bidang ini
meliputi basis datauntuk mengelola informasi biologis,
penyejajaran sekuens (sequence alignment), prediksi struktur untuk
meramalkan bentuk struktur protein maupun struktur sekunder RNA, analisis filogenetik,
dan analisis ekspresi gen.
Sejarah
Istilah bioinformatics mulai
dikemukakan pada pertengahan era 1980-an untuk
mengacu pada penerapan komputer dalam biologi. Namun demikian, penerapan
bidang-bidang dalam bioinformatika (seperti pembuatan basis data dan
pengembangan algoritma untuk analisis sekuens biologis) sudah
dilakukan sejak tahun 1960-an.
Kemajuan teknik biologi
molekular dalam mengungkap sekuens biologis dari protein (sejak
awal 1950-an)
dan asam nukleat (sejak 1960-an) mengawali
perkembangan basis data dan teknik analisis sekuens biologis. Basis data
sekuens protein mulai dikembangkan pada tahun 1960-an di Amerika
Serikat, sementara basis data sekuens DNA dikembangkan pada akhir
1970-an di Amerika Serikat dan Jerman (pada European
Molecular Biology Laboratory, Laboratorium Biologi Molekular Eropa). Penemuan
teknik sekuensing DNA
yang lebih cepat pada pertengahan 1970-an menjadi landasan terjadinya ledakan
jumlah sekuens DNA yang berhasil diungkapkan pada 1980-an dan 1990-an,
menjadi salah satu pembuka jalan bagi proyek-proyek pengungkapan genom, meningkatkan
kebutuhan akan pengelolaan dan analisis sekuens, dan pada akhirnya menyebabkan
lahirnya bioinformatika.
Perkembangan Internet juga
mendukung berkembangnya bioinformatika. Basis data bioinformatika yang
terhubung melalui Internet memudahkan ilmuwan mengumpulkan hasil sekuensing ke
dalam basis data tersebut maupun memperoleh sekuens biologis sebagai bahan
analisis. Selain itu, penyebaran program-program
aplikasi bioinformatika melalui Internet memudahkan ilmuwan mengakses
program-program tersebut dan kemudian memudahkan pengembangannya.
Basis data sekuens biologis
Sesuai
dengan jenis informasi biologis yang disimpannya, basis data sekuens
biologis dapat berupa basis data primer untuk menyimpan sekuens primer asam nukleat maupun protein,
basis data sekunder untuk menyimpan motif sekuens protein, dan basis data
struktur untuk menyimpan data struktur protein maupun asam nukleat.
Basis data
utama untuk sekuens asam nukleat saat ini adalah GenBank (Amerika
Serikat), EMBL (Eropa),
dan DDBJ(Inggris) (DNA
Data Bank of Japan, Jepang). Ketiga basis data tersebut bekerja sama dan bertukar
data secara harian untuk menjaga keluasan cakupan masing-masing basis data.
Sumber utama data sekuens asam nukleat adalah submisi langsung dari periset
individual, proyek sekuensing genom, dan pendaftaran paten. Selain berisi
sekuens asam nukleat, entri dalam basis data sekuens asam nukleat umumnya
mengandung informasi tentang jenis asam nukleat (DNA atau RNA), nama organisme sumber
asam nukleat tersebut, dan pustaka yang berkaitan dengan sekuens asam nukleat
tersebut.
Sementara
itu, contoh beberapa basis data penting yang menyimpan sekuens primer protein
adalah PIR (Protein
Information Resource, Amerika Serikat), Swiss-Prot (Eropa), dan TrEMBL(Eropa). Ketiga basis data tersebut
telah digabungkan dalam UniProt (yang
didanai terutama oleh Amerika Serikat). Entri dalam UniProt mengandung
informasi tentang sekuens protein, nama organisme sumber protein, pustaka yang
berkaitan, dan komentar yang umumnya berisi penjelasan mengenai fungsi protein
tersebut.
BLAST (Basic
Local Alignment Search Tool) merupakan perkakas bioinformatika yang
berkaitan erat dengan penggunaan basis data sekuens biologis. Penelusuran BLAST
(BLAST search) pada basis data sekuens memungkinkan ilmuwan untuk
mencari sekuens asam nukleat maupun protein yang mirip dengan sekuens tertentu
yang dimilikinya. Hal ini berguna misalnya untuk menemukan gen sejenis pada
beberapa organisme atau
untuk memeriksa keabsahan hasil sekuensing maupun
untuk memeriksa fungsi gen hasil sekuensing. Algoritma yang
mendasari kerja BLAST adalah penyejajaran sekuens.
PDB (Protein Data Bank, Bank
Data Protein) adalah basis data tunggal yang menyimpan model struktural tiga
dimensi protein dan asam nukleat hasil
penentuan eksperimental (dengankristalografi sinar-X, spektroskopi NMR dan mikroskopi elektron). PDB
menyimpan data struktur sebagai koordinat tiga dimensi yang
menggambarkan posisi atom-atom dalam protein ataupun asam nukleat.
Penyejajaran sekuens
Penyejajaran
sekuens (sequence
alignment) adalah proses penyusunan/pengaturan dua atau lebih sekuens sehingga
persamaan sekuens-sekuens tersebut tampak nyata. Hasil dari proses tersebut
juga disebut sebagai sequence alignment atau alignment saja.
Baris sekuens dalam suatu alignment diberi sisipan (umumnya
dengan tanda "–") sedemikian rupa sehingga kolom-kolomnya memuat
karakter yang identik atau sama di antara sekuens-sekuens tersebut. Berikut
adalah contoh alignment DNA dari dua sekuens pendek DNA yang
berbeda, "ccatcaac" dan "caatgggcaac" (tanda "|"
menunjukkan kecocokan atau match di antara kedua sekuens).
Sequence
alignment merupakan
metode dasar dalam analisis sekuens. Metode ini digunakan untuk
mempelajari evolusi sekuens-sekuens
dari leluhur yang sama (common ancestor). Ketidakcocokan (mismatch)
dalam alignment diasosiasikan dengan proses mutasi, sedangkan
kesenjangan (gap, tanda "–") diasosiasikan dengan proses
insersi atau delesi. Sequence alignment memberikan hipotesis atas
proses evolusi yang
terjadi dalam sekuens-sekuens tersebut. Misalnya, kedua sekuens dalam
contoh alignment di atas bisa jadi berevolusi dari sekuens
yang sama "ccatgggcaac". Dalam kaitannya dengan hal ini, alignment juga
dapat menunjukkan posisi-posisi yang dipertahankan (conserved) selama
evolusi dalam sekuens-sekuens protein,
yang menunjukkan bahwa posisi-posisi tersebut bisa jadi penting bagi struktur
atau fungsi protein tersebut.
Selain
itu, sequence alignment juga digunakan untuk mencari sekuens
yang mirip atau sama dalam basis data sekuens.
BLAST adalah salah satu metode alignment yang sering digunakan
dalam penelusuran basis data sekuens. BLAST menggunakan algoritma heuristik dalam
penyusunan alignment.
Beberapa
metode alignment lain yang merupakan pendahulu BLAST adalah
metode "Needleman-Wunsch" dan "Smith-Waterman". Metode
Needleman-Wunsch digunakan untuk menyusunalignment global di
antara dua atau lebih sekuens, yaitu alignment atas
keseluruhan panjang sekuens tersebut. Metode Smith-Waterman menghasilkan alignment lokal,
yaitu alignment atas bagian-bagian dalam sekuens. Kedua metode tersebut
menerapkan pemrograman dinamik (dynamic
programming) dan hanya efektif untuk alignment dua sekuens
(pairwise alignment)
Clustal
adalah program bioinformatika untuk alignment multipel (multiple
alignment), yaitu alignment beberapa sekuens
sekaligus. Dua varian utama Clustal adalah ClustalW dan ClustalX.
Metode lain
yang dapat diterapkan untuk alignment sekuens adalah metode
yang berhubungan dengan Hidden Markov Model ("Model
Markov Tersembunyi", HMM). HMM merupakan model statistika yang
mulanya digunakan dalam ilmu komputer untuk
mengenali pembicaraan manusia (speech recognition). Selain digunakan
untuk alignment, HMM juga digunakan dalam metode-metode analisis sekuens
lainnya, seperti prediksi daerah pengkode protein dalam genom dan prediksi
struktur sekunder protein.
Prediksi struktur protein
Secara
kimia/fisika, bentuk struktur protein diungkap
dengan kristalografi sinar-X ataupun spektroskopi NMR, namun
kedua metode tersebut sangat memakan waktu dan relatif mahal. Sementara itu,
metode sekuensing protein
relatif lebih mudah mengungkapkan sekuens asam amino protein.
Prediksi struktur protein berusaha meramalkan struktur tiga dimensi protein
berdasarkan sekuens asam aminonya (dengan kata lain, meramalkan struktur
tersier dan struktur sekunder berdasarkan struktur primer protein). Secara
umum, metode prediksi struktur protein yang ada saat ini dapat dikategorikan ke
dalam dua kelompok, yaitu metode pemodelan protein komparatif dan metode
pemodelan de novo.
Pemodelan
protein komparatif (comparative
protein modelling) meramalkan struktur suatu protein berdasarkan struktur
protein lain yang sudah diketahui. Salah satu penerapan metode ini adalah pemodelan
homologi (homology modelling), yaitu prediksi struktur tersier
protein berdasarkan kesamaan struktur primer protein. Pemodelan homologi
didasarkan pada teori bahwa
dua protein yang homolog memiliki
struktur yang sangat mirip satu sama lain. Pada metode ini, struktur suatu
protein (disebut protein target) ditentukan berdasarkan struktur protein lain
(protein templat) yang sudah diketahui dan memiliki kemiripan sekuens dengan
protein target tersebut. Selain itu, penerapan lain pemodelan komparatif
adalah protein threadingyang didasarkan pada kemiripan
struktur tanpa kemiripan sekuens primer. Latar belakang protein
threading adalah bahwa struktur protein lebih dikonservasi daripada
sekuens protein selama evolusi; daerah-daerah yang penting bagi fungsi protein
dipertahankan strukturnya. Pada pendekatan ini, struktur yang paling kompatibel
untuk suatu sekuens asam amino dipilih dari semua jenis struktur tiga dimensi
protein yang ada. Metode-metode yang tergolong dalam protein threading berusaha
menentukan tingkat kompatibilitas tersebut.
Dalam
pendekatan de novo atau ab initio, struktur
protein ditentukan dari sekuens primernya tanpa membandingkan dengan struktur
protein lain. Terdapat banyak kemungkinan dalam pendekatan ini, misalnya dengan
menirukan proses pelipatan (folding) protein dari sekuens primernya
menjadi struktur tersiernya (misalnya dengan simulasi dinamika molekular), atau
dengan optimisasi global fungsi energi protein. Prosedur-prosedur ini cenderung
membutuhkan proses komputasi yang intens, sehingga saat ini hanya digunakan
dalam menentukan struktur protein-protein kecil. Beberapa usaha telah dilakukan
untuk mengatasi kekurangan sumber daya komputasi tersebut, misalnya
dengan superkomputer (misalnya
superkomputer Blue Gene dari IBM) atau komputasi terdistribusi (distributed
computing, misalnya proyek Folding@home)
maupun komputasi grid.
Analisis ekspresi gen
Ekspresi gen dapat
ditentukan dengan mengukur kadar mRNA dengan berbagai
macam teknik (misalnya dengan microarray ataupun Serial
Analysis of Gene Expression ["Analisis Serial Ekspresi
Gen", SAGE]). Teknik-teknik tersebut umumnya diterapkan pada analisis
ekspresi gen skala besar yang mengukur ekspresi banyak gen (bahkan genom) dan menghasilkan
data skala besar. Metode-metode penggalian data (data mining) diterapkan
pada data tersebut untuk memperoleh pola-pola informatif. Sebagai contoh,
metode-metode komparasi digunakan untuk membandingkan ekspresi di antara
gen-gen, sementara metode-metode klastering (clustering) digunakan untuk
mempartisi data tersebut berdasarkan kesamaan ekspresi gen.
Bioinformatika di Indonesia
Saat ini
mata ajaran bioinformatika maupun mata ajaran dengan muatan bioinformatika
sudah diajarkan di beberapa perguruan
tinggi di Indonesia.Sekolah Ilmu
dan Teknologi Hayati ITB menawarkan mata kuliah "Pengantar
Bioinformatika" untuk program Sarjana dan mata kuliah
"Bioinformatika" untuk program Pascasarjana. Fakultas
Teknobiologi Universitas Atma Jaya, Jakarta menawarkan
mata kuliah "Pengantar Bioinformatika". Mata kuliah
"Bioinformatika" diajarkan pada Program Pascasarjana Kimia Fakultas
MIPA Universitas Indonesia (UI), Jakarta.
Mata kuliah "Proteomik dan Bioinformatika" termasuk dalam kurikulum
program S3 bioteknologi Universitas Gadjah Mada (UGM), Yogyakarta.
Materi bioinformatika termasuk di dalam silabus beberapa mata kuliah untuk
program sarjana maupun pascasarjana biokimia,biologi,
dan bioteknologi pada Institut Pertanian Bogor (IPB).
Selain itu, riset-riset yang mengarah pada bioinformatika juga telah
dilaksanakan oleh mahasiswa program S1 Ilmu Komputer maupun program
pascasarjana biologi serta bioteknologi IPB.
Riset
bioinformatika protein dilaksanakan sebagai bagian dari aktivitas riset
rekayasa protein pada Laboratorium Rekayasa Protein, Pusat Penelitian
Bioteknologi Lembaga Ilmu Pengetahuan Indonesia (LIPI), Cibinong, Bogor. Lembaga Biologi Molekul Eijkman,
Jakarta, secara khusus memiliki laboratorium bioinformatika sebagai fasilitas
penunjang kegiatan risetnya. Selain itu, basis data sekuens DNA mikroorganisme asli
Indonesia sedang dikembangkan di UI.
Tidak ada komentar:
Posting Komentar