Mengapa otak memiliki kesalahan prediksi hadiah?

Dopamin, dan seni umpan balik

Kredit: Pixabay

Sebuah kisah sukses yang mendalam tentang ilmu saraf modern adalah teori bahwa neuron dopamin menandakan kesalahan prediksi, kesalahan antara imbalan yang Anda harapkan dan apa yang Anda dapatkan.

Keberhasilannya berjalan sangat dalam. Ini telah didukung oleh bukti konvergen dari penembakan neuron, pelepasan dopamin, dan aliran darah yang terlihat pada fMRI. Bukti itu telah dikumpulkan di berbagai spesies, dari manusia, monyet, tikus, dan lebah. Bahkan ada bukti kausal yang memaksa neuron dopamin untuk menyala mengirimkan sinyal kesalahan di otak, efek yang bisa kita lihat dalam perilaku hewan yang neuron dopaminnya dipermainkan. Teori ini menjembatani data dari skala perilaku manusia ke tingkat neuron tunggal. Tidak seperti banyak teori untuk otak, yang ini adalah komputasi dengan benar, dan membuat banyak, prediksi non-sepele yang ternyata benar. Dopamin dan kesalahan dalam prediksi saling terkait erat.

Tetapi hubungan intim ini menimbulkan pertanyaan yang lebih besar tetapi jarang diartikulasikan. Sangat mungkin untuk membangun otak yang belajar dari kesalahan tanpa ada representasi eksplisit dari kesalahan itu di otak. Jadi mengapa otak memiliki sinyal kesalahan untuk imbalan sama sekali?

Untuk memahami pertanyaan itu, pertama-tama kita perlu tahu sedikit tentang teori kesalahan prediksi itu sendiri. Teori mengatakan bahwa neuron dopamin menembak ke hal-hal baik yang tak terduga. Jika tiba-tiba aku menepuk pundakmu dan memberimu permen manis, neuron dopaminmu akan ping! untuk yang manis.

Jika aku terus menepuk pundakmu, dan terus memberimu permen manis, neuron dopaminmu berhenti melakukan ping untuk permen - mendapatkan permen itu enak tapi itu tidak lagi tak terduga (dan terus terang kau lebih suka aku menghargai ruang pribadimu sedikit lagi). Sebaliknya, neuron dopamin melakukan ping! untuk ketukan itu sendiri. Ini adalah bagian yang cerdas: neuron bekerja ping! karena ketukan di bahu sekarang dengan andal memprediksi manis akan datang (hal yang baik), tetapi itu tidak terduga karena Anda tidak tahu kapan ketukan datang - sehingga ketukan di bahu menjadi hal yang baik secara tak terduga.

Teori ini juga mengatakan bahwa neuron dopamin, seperti halnya manusia, sangat terganggu oleh rutinitas mereka yang dilanggar. Setelah membangun hubungan kepercayaan ini - saya berulang kali menepuk bahu Anda dan Anda setidaknya mengeluarkan serangkaian permen dari pelanggaran norma sosial ini - apa yang terjadi jika saya menyentuh bahu Anda dan kemudian tidak memberi Anda permen? Neuron dopamin Anda kemudian mati sepenuhnya, berhenti menembak sama sekali untuk periode singkat.

Singkatnya, neuron dopamin mengirim sinyal cepat yang mencakup ketiga kemungkinan kesalahan dalam memprediksi hadiah: bahwa hadiah itu lebih baik dari yang diharapkan (kesalahan positif); bahwa hadiah itu persis seperti yang diharapkan (tidak ada kesalahan); atau bahwa hadiahnya kurang dari yang diharapkan (kesalahan negatif). Kita dapat memberi label semua ini dengan menggunakan salah satu nomina majemuk yang menyiksa yang dicintai para ilmuwan: neuron dopamin mengirim kesalahan prediksi hadiah.

Korespondensi antara dopamin dan "kesalahan prediksi hadiah" ini berakar pada cabang AI yang disebut pembelajaran penguatan (well, secara teknis, ini adalah cabang pembelajaran mesin, tetapi karena semuanya sekarang diberi label AI, termasuk FitBit yang saya cukup yakin hanya akselerometer dengan tali, lalu AI itu). Penguatan pembelajaran adalah akumulasi dari algoritma untuk bagaimana sesuatu dapat belajar dari diberitahu hanya seberapa salah atau benar prediksi itu sendiri.

Semua algoritma pembelajaran penguatan klasik memiliki sinyal eksplisit untuk kesalahan dalam memprediksi seberapa berharga pilihan yang akan terjadi (di mana roll call algoritma termasuk bandit, pembelajaran Perbedaan Temporal, pembelajaran Q, SARSA, atau Aktor-Kritik). Ini adalah sinyal antara nilai prediksi dari apa yang terjadi selanjutnya, dan nilai aktual dari apa yang terjadi selanjutnya - di mana nilai diukur dengan jumlah yang diharapkan dari hadiah di masa depan. Keajaiban pembelajaran penguatan adalah bahwa dengan hanya meminimalkan kesalahan ini antara nilai yang diprediksi dan aktual dari setiap hal berikutnya di dunia, agen buatan dapat mempelajari urutan peristiwa yang sangat kompleks, seperti menavigasi di seluruh dunia, atau bagaimana menjalankannya.

Dan ini adalah bagian komputasi dari teori dopamin: bahwa respon cepat dari neuron dopamin hanyalah kesalahan prediksi algoritma pembelajaran penguatan. Bahwa mereka adalah kesalahan antara nilai yang diprediksi dan aktual dari apa yang terjadi selanjutnya. Dan mereka terbiasa belajar. Kunci dari teori ini bukan hanya bahwa neuron dopamin memberi sinyal perbedaan antara imbalan yang Anda dapatkan dan apa yang Anda harapkan. Mereka juga mentransfer sinyal itu ke hal-hal tak terduga yang memprediksi hadiah, persis seperti yang dikatakan algoritma pembelajaran penguatan.

Ini bukan untuk mengatakan bahwa neuron dopamin hanya mengkodekan kesalahan prediksi ini. Ada banyak nuansa pada apa yang mungkin diminati oleh neuron dopamin, serangkaian hal di luar kesalahan prediksi. Dan memang kesalahan dalam memprediksi hadiah hanyalah sebagian dari kesalahan yang mungkin terjadi dalam prediksi tentang dunia yang bisa ada di otak (sebuah cerita untuk waktu berikutnya). Tetapi neuron dopamin yang menyandikan kesalahan dalam memprediksi hadiah tampaknya merupakan bagian yang mapan dari apa yang mereka lakukan.

(Dan korespondensi yang diusulkan ini antara respon cepat neuron dopamin dan kesalahan prediksi juga berlaku untuk algoritma pembelajaran penguatan yang lebih rumit, seperti kebangkitan yang menarik dan perluasan gagasan "perwakilan penerus" Peter Day oleh Sam Gershman, Ida Momennejad, Kim Stachenfeld dan kolega. Dalam akun perwakilan penerus, tidak ada satu kesalahan sederhana antara apa yang Anda prediksi dan apa yang Anda dapatkan, tetapi seluruh vektor kesalahan tentang prediksi untuk perubahan fitur yang berbeda di dunia - salah satunya adalah hadiah. dari Gershman dan rekan menunjukkan bagaimana memikirkan respon neuron dopamin cepat sebagai jumlah kesalahan tersebut dapat menjelaskan beberapa temuan terbaru yang membingungkan tentang neuron dopamin mengirim sinyal cepat ke perubahan di dunia yang tidak memberi hadiah.)

Tetapi tidak ada kebutuhan untuk korespondensi ini twixt neuron dan sinyal kesalahan teoritis untuk ada. Algoritma pembelajaran penguatan didasarkan pada pengamatan perilaku hewan. Dan mereka bisa sangat sukses: hewan, termasuk manusia, sering benar-benar berperilaku seperti mereka menggunakan kesalahan prediksi sebagai imbalan untuk belajar tentang dunia. Tetapi hanya karena kita dapat menggambarkan perilaku menggunakan kesalahan dalam prediksi tentang hadiah, tidak berarti harus ada sinyal kesalahan yang eksplisit di otak.

Untuk itu sangat mungkin untuk membangun sistem yang belajar tentang dunia menggunakan umpan balik yang tidak memiliki sinyal eksplisit untuk kesalahan dalam prediksi. Salah satu contoh dari sistem ini adalah agen Bayesian, yang mempelajari tentang probabilitas hal-hal di masa depan, bukan kepastian.

Agen Bayesian seperti itu mungkin mewakili ketidakpastian tentang apa nilai tindakan yang akan diambil nantinya. Ketidakpastian ini akan dikodekan oleh distribusi probabilitas - yang dapat kita tulis P (nilai | tindakan A) - untuk nilai yang mungkin diambil tindakan A. Misalnya, mungkin ada probabilitas tinggi bahwa mengambil tindakan A akan memiliki nilai yang rendah, dan probabilitas rendah itu akan memiliki nilai tinggi; atau sebaliknya; atau sesuatu yang jauh lebih rumit.

Kami mengutuk agen Bayesian kami yang malang di dunia yang paling membosankan yang bisa dibayangkan. Seluruh hidupnya terdiri dari memilih mana dari tiga tuas yang harus ditarik untuk memenangkan koin, berulang-ulang. Karena peluang memenangkan koin berbeda antara tiga pengungkit, maka agen harus menentukan mana yang harus ditarik untuk mendapatkan koin terbanyak dalam jangka panjang. Tiga tuas, jadi tiga tindakan yang mungkin, jadi tiga distribusi probabilitas yang sesuai untuk nilai masing-masing tuas. Setiap putaran agen mengambil tuas berdasarkan pada distribusi probabilitas - mungkin cenderung memilih yang saat ini memberikan probabilitas tertinggi dari hadiah terbesar - dan mengawasi koin.

Koin atau tidak, agen menggunakan hasilnya untuk memperbarui distribusi probabilitasnya. Koin adalah bukti bahwa tuas itu baik, sehingga agen meningkatkan kemungkinan menarik tuas itu bernilai tinggi; tidak ada koin adalah bukti bahwa tuas tidak baik, sehingga agen meningkatkan kemungkinan menarik tuas memiliki nilai rendah. Either way, agen sekarang memiliki lebih banyak informasi tentang tindakan yang dipilihnya, terlepas dari apakah itu hasil yang baik atau hasil yang buruk. Distribusi probabilitas untuk tindakan tersebut diperbarui untuk mencerminkan informasi itu dengan mengubah parameter distribusi.

Tidak ada sinyal kesalahan. Agen tersebut belajar dari umpan balik tentang dunia, dan dapat menggunakan pembelajarannya untuk membuat keputusan, tetapi tidak memiliki sinyal kesalahan prediksi. Tentu, kami dapat membuat satu - dengan menghitung perbedaan antara distribusi probabilitas sebelum dan setelah koin tiba - tetapi kami tidak membutuhkannya. Sinyal kesalahan tersirat.

Sekali lagi, ini adalah perilaku, belum otak. Tetapi banyak yang percaya otak mewakili dunia menggunakan distribusi probabilitas; dan ada teori yang masuk akal untuk bagaimana mewakili dan memperbarui distribusi probabilitas menggunakan neuron. Ini mendidih untuk menyesuaikan penembakan populasi neuron yang mewakili distribusi probabilitas. Dan Anda melakukannya dengan menyesuaikan kekuatan input ke neuron tersebut (apakah input tersebut berasal dari dalam populasi atau di luarnya). Jadi otak hanya perlu sinyal tentang apakah hadiah terjadi atau tidak, dan menggunakannya untuk menyesuaikan koneksi. Tidak diperlukan sinyal rumit tentang kesalahan dalam prediksi.

Jadi otak dapat belajar dari penguatan dengan atau tanpa sinyal eksplisit untuk kesalahan dalam memprediksi penguatan itu. Tetapi otak memang memiliki sinyal kesalahan eksplisit yang dikodekan oleh neuron dopamin. Apa yang dikatakan di sini kepada kita?

Saya pikir ini memberi tahu kita tiga ide menarik tentang cara kerja otak. Saya pikir - sepenuhnya dipersiapkan untuk menjadi salah tentang hal ini, dan untuk itu ada argumen yang ketat untuk mengapa Anda tidak dapat membangun otak tanpa sinyal eksplisit untuk kesalahan dalam memprediksi hadiah.

Gagasan pertama adalah bahwa keberadaan sinyal kesalahan eksplisit menyiratkan adanya representasi sederhana dunia di otak. Representasi yang disebut "model-free" yang tidak mewakili setiap hasil yang mungkin dari suatu tindakan, dan kemungkinan juga tidak menggunakan probabilitas. Tabel pencarian yang cepat diakses dari nilai-nilai tindakan, yang digunakan untuk memilih tindakan ketika waktu menekan atau dunia tidak berubah. Kami sudah memiliki beberapa ide bagus tentang di mana representasi seperti itu hidup di otak. Dan semua bentuk representasi sederhana yang kita ketahui membutuhkan sinyal eksplisit untuk kesalahan antara nilai aktual dan prediksi.

Gagasan kedua adalah bahwa apa yang merupakan satu konsep dalam pembelajaran penguatan sebenarnya adalah dua proses di otak. Satu konsep dalam pembelajaran penguatan adalah bahwa Anda menggunakan kesalahan dalam prediksi Anda untuk mengubah estimasi nilai tindakan Anda. Mengapa ini dua proses di otak? Karena otak mungkin ingin secara terpisah mengendalikan perubahan jangka pendek dan jangka panjang dalam estimasi nilai suatu tindakan. Dan memiliki sinyal kesalahan eksplisit yang dibawa oleh dopamin memungkinkannya melakukan keduanya dengan satu sinyal.

Untuk mendapatkan perubahan jangka panjang, kami bisa menyesuaikan taksiran nilai tindakan dengan mengubah kekuatan koneksi neuron yang mewakili aksi itu. Menyesuaikan estimasi nilai kami dengan cara ini akan mengubah perilaku jangka panjang. Dan sinyal dopamin cepat memang dianggap mengendalikan apakah dan ke arah mana beberapa koneksi di otak diizinkan untuk mengubah kekuatan mereka. Di sini Anda perlu tanda sinyal kesalahan untuk memberi tahu koneksi ke arah mana perubahan harus dilakukan.

Tetapi otak tidak selalu menginginkan setiap umpan balik yang didapatnya untuk mengubah koneksi antar neuron. Untuk itu menguncinya ke jalan yang mungkin sulit untuk dipulihkan. Memang, ketika kita mencoba dan mengubah kekuatan koneksi ini sendiri, dengan merangsang input ke neuron, beberapa dari mereka terbukti sangat sulit untuk bergeser. Yang meningkatkan kemungkinan bahwa, dalam jangka pendek, otak mungkin ingin melakukan lindung nilai taruhannya, dengan mengubah taksiran nilai tindakan tanpa mengubah kekuatan koneksi apa pun. Dan itu bisa dilakukan dengan mengubah bagaimana respons neuron terhadap inputnya. Jika Anda membuat neuron untuk aksi A lebih mungkin untuk ditembakkan, maka Anda telah meningkatkan nilainya yang diprediksi; dan sebaliknya. Tebak pemancar mana di otak yang memiliki ratusan makalah yang menunjukkan perubahan responsif neuron yang mengendalikan aksi? Ya, dopamin.

Secara keseluruhan, argumen di sini adalah bahwa sinyal kesalahan eksplisit ada untuk memungkinkan otak mengontrol perubahan nilai prediksi pada dua skala waktu. Dan lakukan itu dengan menggunakan satu sinyal kesalahan yang dikodekan oleh dopamin: untuk memungkinkan perubahan kekuatan koneksi dalam jangka panjang, dan mengubah seberapa responsif neuron dalam jangka pendek.

Gagasan ketiga adalah bahwa sinyal kesalahan eksplisit di otak adalah kejadian evolusi. Membangun sistem untuk belajar dari umpan balik lebih mudah dengan sinyal kesalahan eksplisit daripada dengan representasi probabilitas di seluruh kelompok neuron. Hewan purba kemungkinan memiliki satu atau dua neuron yang memercikkan dopamin, atau sesuatu yang serupa, sebagai bagian dari kendali pergerakan mereka. Kita dapat menemukan banyak invertebrata dengan hanya beberapa ribu neuron di mana dopamin mengubah gerakan dengan mengubah cara neuron merespons input mereka. Dengan adanya sistem dopamin ini, mungkin jalur yang paling tidak tahan untuk evolusi adalah mengkooptasi sinyal siaran ini untuk mengubah sambungan antar neuron setelah terjadi kesalahan. Yang tampaknya berpotensi lebih mudah daripada, dari permulaan mentah yang sama, pertama-tama mengembangkan sistem terdistribusi untuk merepresentasikan informasi yang tidak memerlukan sinyal kesalahan eksplisit.

Kontribusi teori untuk ilmu saraf adalah tentang menunjukkan apa yang tidak atau tidak bisa dilakukan otak, seperti apa yang bisa dilakukannya. Ya, jika kami mengizinkan ide sewenang-wenang, ruang ini praktis tidak terbatas: teori yang menunjukkan bahwa otak tidak menggunakan strawberry jelly sebagai neurotransmitter, atau tidak menghitung menggunakan bagian belakang amplop dan pensil tumpul tidak berguna.

Tapi di sini kita menemukan sinyal kesalahan eksplisit di otak, dan itu mengesampingkan seluruh kelas cara belajar dari umpan balik, dan mengatur beberapa di dalamnya. Teori kesalahan prediksi dopamin memberi tahu kita sebanyak apa yang tidak dilakukannya. , seperti apa fungsinya. Di taman jalur bercabang, kita seharusnya senang dengan bantuan - dan beberapa jalur berkebun lebih rumit daripada otak.

Ingin lebih? Ikuti kami di The Spike

Twitter: @markdhumphries