AI for Metabolomics Spatial I: The Datasets of Life

Sumber gambar

Di sini, di Neuromation, kami memulai yang menarik - dan agak canggih! - proyek bersama dengan kelompok Metabolomics Tata Ruang Dr. Theodore Alexandrov dari Laboratorium Biologi Molekuler Eropa. Dalam mini-seri posting ini, saya akan menjelaskan bagaimana kami berencana untuk menggunakan pencapaian terbaru dalam pembelajaran mendalam dan menciptakan model-model baru untuk memproses pencitraan data spektrometri massa, mengekstraksi profil metabolik sel individu untuk menganalisis lintasan molekuler yang diikuti oleh sel dengan fenotipe berbeda. ...

Tunggu, aku sudah pasti kehilangan kamu tiga kali. Biarkan saya memulai.

Omics: kumpulan data yang membuat Anda

Sumber gambar

Gambar di atas menunjukkan dogma sentral biologi molekuler, wawasan kunci biologi abad XX tentang bagaimana kehidupan di Bumi bekerja. Ini menunjukkan bagaimana informasi genetik mengalir dari DNA ke protein yang benar-benar bekerja di dalam sel:

  • DNA menyimpan informasi genetik dan dapat menggandakannya;
  • dalam proses yang dikenal sebagai transkripsi, DNA menyalin bagian dari kode genetiknya ke messenger RNA (m-RNA), juga asam nukleat;
  • dan akhirnya, terjemahan adalah proses pembuatan protein, "membaca" kode genetik untuk mereka dari string RNA dan menerapkan cetak biru dalam praktik.

Saya telah melukis gambar yang sangat sederhana tetapi ini benar-benar pusat, arus informasi kehidupan yang paling penting. Dogma sentral, pertama kali dinyatakan oleh Francis Crick pada tahun 1958, mengatakan bahwa informasi genetik mengalir hanya dari asam nukleat (DNA dan RNA) ke protein dan tidak pernah kembali - protein Anda tidak dapat kembali dan memodifikasi DNA atau RNA Anda, atau bahkan memodifikasi protein lain, mereka dikendalikan hanya oleh asam nukleat.

Semua orang tahu bahwa kode genetik, yang terkandung dalam DNA, sangat penting. Apa yang sedikit kurang dikenal adalah bahwa setiap langkah di sepanjang jalur dogma pusat (jalur pada dasarnya adalah serangkaian reaksi umum yang mengubah molekul menjadi satu sama lain misalnya, DNA -> RNA -> protein adalah jalur, dan yang sangat penting! ) sesuai dengan "dataset" sendiri, karakterisasi sendiri dari suatu organisme, masing-masing penting dan menarik dengan caranya sendiri.

Kumpulan gen Anda, yang dikodekan dalam DNA Anda, dikenal sebagai genom. Ini adalah "dataset" utama, cetak biru utama Anda, genom adalah hal-hal yang mengatakan bagaimana Anda bekerja dengan cara yang paling abstrak. Seperti yang mungkin Anda ketahui, genom adalah serangkaian “huruf” A, C, G, dan T yang sangat panjang, yang merupakan singkatan dari empat nukleotida… jangan khawatir, kami tidak akan membahas terlalu detail tentang hal-hal itu. Proyek Genom Manusia berhasil merangkai ("membacakan" surat demi surat) draft genom manusia pada tahun 2000 dan genom manusia lengkap pada tahun 2003, semuanya tiga miliar huruf. Sejak itu, metode sekuensing telah meningkat banyak; Selain itu, semua genom manusia tentu saja sangat mirip, jadi setelah Anda memilikinya, jauh lebih mudah untuk mendapatkan yang lain. Genom Anda menentukan penyakit apa yang rentan bagi Anda dan menentukan banyak ciri khas Anda.

Studi tentang genom manusia masih jauh dari selesai, tetapi itu hanya bagian pertama dari cerita. Seperti yang telah kita lihat di atas, kode genetik dari DNA harus dibaca ke dalam RNA. Ini dikenal sebagai transkripsi, proses rumit yang sama sekali tidak relevan untuk diskusi kita sekarang: intinya adalah, potongan-potongan genom disalin ke dalam RNA kata demi kata (secara resmi, T berubah menjadi U, nukleotida yang berbeda, tetapi masih tepat informasi yang sama):

Sumber gambar

Sel-sel berdiferensiasi di sini di mana bagian genom dapat ditranskripsi.

Himpunan sekuens RNA (baik RNA pengkodean yang nantinya akan digunakan untuk membuat protein dan RNA non-pengkodean, yaitu sisanya) dalam sel disebut transkriptome. Transkriptom memberikan informasi yang jauh lebih spesifik tentang sel dan jaringan individu: misalnya, sel di hati Anda memiliki genom yang sama persis dengan neuron di otak Anda - tetapi transkriptom yang sangat berbeda! Dengan mempelajari transkriptom, ahli biologi dapat "meningkatkan resolusi" dan melihat gen mana yang diekspresikan dalam jaringan yang berbeda dan bagaimana. Sebagai contoh, obat-obatan modern yang dipersonalisasi menyaring transkriptom untuk mendiagnosis kanker.

Tapi ini masih tentang kode genetik. Dataset ketiga bahkan lebih rinci: itu adalah proteome yang terdiri dari semua protein yang diproduksi dalam sel, dalam proses yang dikenal sebagai terjemahan, di mana RNA berfungsi sebagai templat, dengan tiga huruf yang menyandikan setiap protein:

Sumber gambar

Ini sudah jauh lebih dekat dengan tujuan sebenarnya: protein yang dibuat sel menentukan interaksinya dengan sel lain, dan proteome mengatakan banyak tentang apa yang dilakukan sel, apa fungsinya dalam organisme, apa efeknya pada yang lain sel, dan sebagainya. Dan proteom, tidak seperti genom, mudah ditempa: banyak obat bekerja dengan menekan atau mempercepat penerjemahan protein spesifik. Antibiotik, misalnya, biasanya melawan bakteri dengan menyerang RNA mereka, menekan sintesis protein sepenuhnya dan dengan demikian membunuh sel.

Genomik, transkriptomik, dan proteomik adalah subbidang biologi molekuler yang mempelajari genom, transkriptome, dan proteom. Mereka secara kolektif dikenal sebagai "omics". Dogma sentral telah lama dikenal, tetapi baru belakangan ini para ahli biologi mengembangkan alat baru yang benar-benar memungkinkan kita mengintip transkriptom dan proteom.

Dan ini telah mengarah pada "revolusi omics" data besar dalam biologi molekuler: dengan alat-alat ini, alih-alih berteori kita sekarang dapat benar-benar melihat ke dalam proteome Anda dan mencari tahu apa yang terjadi di sel Anda - dan mungkin membantu Anda secara pribadi, tidak hanya mengembangkan obat yang seharusnya bekerja pada kebanyakan manusia tetapi gagal untuk Anda.

Metabolomik: melampaui dogma

Sumber gambar

Ahli biologi molekuler mulai berbicara tentang "revolusi omics" dalam konteks genomik, transkriptomik, dan proteomik, tetapi dogma pusat masih belum sepenuhnya. Menerjemahkan protein hanyalah awal dari proses yang terjadi dalam sel; setelah itu, protein ini benar-benar berinteraksi satu sama lain dan molekul lain di dalam sel. Reaksi-reaksi ini terdiri dari metabolisme sel, dan pada akhirnya itu adalah metabolisme yang kita minati dan yang mungkin ingin kita perbaiki.

Biologi modern sangat tertarik pada proses yang melampaui dogma pusat dan melibatkan apa yang disebut molekul kecil: enzim, lipid, glikosa, ATP, dan sebagainya. Molekul-molekul kecil ini disintesis di dalam sel - dalam hal ini mereka disebut metabolit, yaitu produk dari metabolisme sel - atau berasal dari luar. Sebagai contoh, vitamin adalah molekul kecil khas yang dibutuhkan sel tetapi tidak dapat mensintesiskan dirinya, dan obat adalah molekul kecil eksogen yang kita desain untuk mengotak-atik metabolisme sel.

Proses sintesis ini dikendalikan oleh protein dan mengikuti apa yang disebut jalur metabolisme, rantai reaksi dengan fungsi biologis yang sama. Dogma pusat adalah satu jalur yang sangat penting, tetapi dalam kenyataannya ada ribuan. Model metabolisme manusia yang dikembangkan baru-baru ini memuat 5324 metabolit, 7785 reaksi, dan 1675 gen yang terkait, dan ini jelas bukan versi terakhir - perkiraan modern mencapai hingga 19.000 metabolit, sehingga jalurnya belum semuanya dipetakan.

Profil metabolisme suatu organisme tidak sepenuhnya ditentukan oleh genom, transkriptome, atau bahkan proteomnya: metabolom (sekumpulan metabolit) terbentuk, khususnya, di bawah pengaruh lingkungan yang menyediakan, misalnya vitamin. Metabolomik, yang mempelajari komposisi dan interaksi antara metabolit dalam organisme hidup, terletak di persimpangan biologi, kimia analitik, dan bioinformatika, dengan aplikasi yang berkembang untuk kedokteran (dan itu bukan yang terakhir dari omics, tetapi metabolomik sudah cukup untuk kita sekarang) .

Mengetahui metabolom, kita dapat lebih mengkarakterisasi dan mendiagnosis berbagai penyakit: mereka semua harus meninggalkan jejak dalam metabolom karena jika metabolisme tidak berubah mengapa ada masalah sama sekali? .. Dengan mempelajari profil metabolisme sel, ahli biologi dapat menemukan biomarker baru untuk diagnosis dan terapi, menemukan target baru untuk obat-obatan. Metabolomik adalah dasar untuk pengobatan yang benar-benar pribadi.

Dataset pamungkas

Sumber gambar

Sejauh ini, saya pada dasarnya telah menjelaskan kemajuan terbaru dalam biologi molekuler dan kedokteran. Tapi apa yang kita rencanakan untuk dilakukan dalam proyek ini? Kami bukan ahli biologi, kami adalah ilmuwan data, peneliti AI; apa bagian kita dalam hal ini?

Ya, metabolom pada dasarnya adalah kumpulan data yang sangat besar: setiap sel memiliki profil metaboliknya sendiri (sekumpulan molekul yang muncul di dalam sel). Perbedaan dalam profil metabolisme menentukan populasi sel yang berbeda, bagaimana profil metabolik berubah dalam waktu sesuai dengan pola perkembangan sel, dan sebagainya, dan sebagainya. Selain itu, dalam metabolisme spasial yang kami rencanakan untuk dikolaborasikan dengannya datang dalam bentuk gambar khusus: hasil pencitraan spektrometri massa yang diterapkan pada resolusi sangat tinggi. Ini, sekali lagi, membutuhkan penjelasan.

Mass-spectrometry adalah alat yang memungkinkan kita mengetahui massa dari segala yang terkandung dalam sampel. Terlepas dari tabrakan langka, ini pada dasarnya sama dengan mencari tahu molekul spesifik mana yang muncul dalam sampel. Sebagai contoh, jika Anda meletakkan berlian dalam spektrometer massa Anda akan melihat ... tidak, bukan hanya atom karbon tunggal, Anda mungkin akan melihat isotop 12C dan 13C, dan komposisinya akan banyak berbicara tentang sifat-sifat berlian.

Pencitraan massa-spektrometri pada dasarnya adalah gambar di mana setiap piksel adalah spektrum. Anda mengambil bagian dari beberapa jaringan, memasukkannya ke dalam spektrometer massa dan mendapatkan "data cube" tiga dimensi: setiap piksel berisi daftar molekul (metabolit) yang ditemukan di bagian jaringan ini. Proses ini ditunjukkan pada gambar di atas. Saya akan menunjukkan beberapa gambar di sini tapi itu akan menyesatkan: intinya adalah bahwa itu bukan satu gambar, itu banyak gambar paralel, satu untuk setiap metabolit. Sesuatu seperti ini (gambar diambil dari sini):

Upaya membuat alat spektrometri massa pencitraan yang lebih baik sebagian besar bertujuan untuk meningkatkan resolusi, yaitu, membuat piksel lebih kecil, dan meningkatkan sensitivitas, yaitu mendeteksi jumlah metabolit yang lebih kecil. Sekarang, pencitraan spektrometri massa telah datang jauh: resolusinya sangat tinggi sehingga masing-masing piksel dalam gambar ini dapat dipetakan ke sel-sel individual! Spektrometri massa berdefinisi tinggi ini, yang kemudian dikenal sebagai spektrometri massa sel tunggal, membuka pintu bagi metabolismeomik: Anda sekarang bisa mendapatkan profil metabolisme dari banyak sel sekaligus, lengkap dengan lokasi spasialnya di jaringan. .

Ini adalah set data akhir kehidupan, akun paling mendalam dari jaringan aktual yang ada saat ini. Dalam proyek ini, kami berencana untuk mempelajari dataset akhir ini. Dalam angsuran mini-seri selanjutnya, kita akan lihat caranya.

Sergey Nikolenko Kepala Riset Officer, Neuromation