Pendekatan baru OpenAI untuk pembelajaran imitasi sekali pakai, mengintip masa depan AI

Pembelajaran Imitasi Satu Tembakan Yan Duan, Marcin Andrychowicz, Bradly C. Stadie, Jonathan Ho, Jonas Schneider, Ilya Sutskever, Pieter Abbeel, Wojciech Zaremba

Pada tanggal 16 Mei, para peneliti OpenAI berbagi video dari salah satu proyek mereka bersama dengan dua makalah solusi mengeksplorasi penting untuk tiga hambatan utama pengembangan AI saat ini: pembelajaran meta, pembelajaran satu-shot, dan pembuatan data otomatis. Dalam posting saya sebelumnya, saya menjanjikan sebuah artikel yang didedikasikan untuk masalah yang menarik dari pembelajaran sekali pakai, jadi begini. Anda bisa mulai dengan melihat video yang mereka rilis yang menjelaskan karya luar biasa mereka:

Dalam video ini Anda melihat robot fisik satu lengan menumpuk batu di atas satu sama lain. Mengetahui tugas kompleks yang dapat dilakukan oleh robot industri, jika peneliti tidak mencoba menjelaskan apa yang sedang terjadi, pada banyak akun ini akan sangat mengecewakan. Dalam lingkungan yang terkontrol, tugasnya sederhana, pendekatan prosedural (hard-coded) telah menyelesaikan masalah ini, yang menjanjikan dan revolusioner adalah seberapa besar kerangka kerja umum di bawahnya dapat meningkatkan perilaku ganda, lebih kompleks dan adaptif dalam lingkungan yang lebih berisik.

Perbedaan pikiran antara manusia dan hewan-hewan yang lebih tinggi, hebatnya, tentu saja adalah satu derajat dan bukan jenis.
- Charles Darwin

Dengan analogi, artikel ini adalah bukti kuat bahwa perbedaan dalam sistem kognitif antara AI yang diwujudkan saat ini (kecerdasan buatan sistem fisik) dan robot abad ke-22 akan menjadi skala dan bukan jenis. Sejak kompetisi ImageNet 2012 *, penelitian pembelajaran mendalam telah berkembang pesat, tidak banyak untuk mengubah sifat komputasi terdistribusi yang dilakukan oleh jaringan saraf, tetapi dengan menemukan cara baru untuk menyusun jaringan agar mereka dapat mempelajari tugas tertentu. Untuk fungsi jaringan saraf adalah struktur, struktur ini bukan kode-keras (tidak dirancang dengan tangan) tetapi itu adalah hasil dari unit komputasi atom yang awalnya terhubung antara input dan output, yang mampu memodifikasi struktur dan koneksi mereka. Dengan memodifikasi keseluruhan struktur jaringan, ia mempelajari fungsi tertentu.

Dalam artikel ini mereka membangun kerangka kerja umum yang dapat melatih agen untuk mewakili tugas secara abstrak, dan belajar mentransfer pengetahuan ini ke tugas baru yang tak terlihat (transfer learning) setelah hanya satu demonstrasi tugas novel (one shot imitasi learning).

Tugasnya

Meskipun implementasi arsitektur yang tepat berbeda, mereka mengambil dua tugas sebagai contoh untuk menunjukkan kinerja pendekatan umum.

Mencapai partikel

Dalam contoh pertama sistem menerima input posisi target berwarna pada pesawat dan demonstrasi video tunggal dari agen simulasi pergi ke target yang ditentukan.

Gambar 2. Robot adalah titik massa yang dikendalikan dengan gaya 2 dimensi. Keluarga tugas adalah untuk mencapai tengara target. Identitas tengara berbeda dari tugas ke tugas, dan model harus menentukan target mana yang harus dikejar berdasarkan demonstrasi. (kiri) ilustrasi robot; (tengah) tugasnya adalah mencapai kotak oranye, (kanan) tugasnya adalah mencapai segitiga hijau.

Selama pelatihan, sistem harus mereproduksi tugas yang sama (mencapai oranye) tetapi dari konfigurasi lain, dengan posisi awal yang berbeda untuk robot dan target. Tidak jelas apakah selama pengujian agen diuji pada tugas yang dilatihnya (mencapai oranye) atau pada tugas yang belum pernah dilihatnya (misalnya mencapai hijau) atau keduanya.

Kebijakan terlatih dievaluasi pada skenario baru dan dikondisikan pada lintasan demonstrasi baru yang tak terlihat selama pelatihan.

Sudah pasti bahwa agen harus menyimpulkan target sasaran dari demonstrasi unik dan sekali lagi mulai dari konfigurasi lain. Ini menyiratkan bahwa urutan motorik yang tepat tidak dapat dipelajari sebelum pengujian dan harus disimpulkan melalui abstraksi (representasi terstruktur tingkat tinggi) dari tugas dan perencanaan motorik.

Blok susun

Dalam contoh kedua agen harus belajar menumpuk kubus (diidentifikasi dengan warna berbeda) dalam urutan yang sama seperti yang ditunjukkan dalam demonstrasi simulasi tunggal. Demonstrasi yang disimulasikan ini adalah serangkaian gambar 2D yang dihasilkan oleh mesin fisika 3D yang memodelkan sifat-sifat motor dan peralatan sensor robot.

Kebijakan sekali pakai. Sebuah kebijakan tunggal dilatih untuk menyelesaikan banyak tugas. Tugas teratas: {abc, def}, Tugas bawah: {ab, cd, ef}

Dalam kedua contoh posisi awal kubus dalam demonstrasi dan dalam tes nyata berbeda, setiap tugas dimulai dari posisi awal yang lain. Robot tidak mencoba untuk mengganti kubus agar sesuai dengan posisi awal demonstrasi, itu memindahkan tugas tingkat yang lebih tinggi untuk menumpuk kubus apa pun keadaannya.

Pelatihan menggunakan pengacakan domain

Dalam kedua kasus semua gambar yang digunakan selama pelatihan diperoleh melalui simulasi menggunakan pengacakan domain di mana mereka akan mengacak aspek-aspek sampel berikut:

Jumlah dan bentuk objek pengacau di atas meja. Posisi dan tekstur semua objek di atas meja. Tekstur meja, lantai, skybox, dan robot. Posisi, orientasi, dan bidang pandang kamera. Jumlah lampu dalam adegan. Posisi, orientasi, dan karakteristik specular lampu. Jenis dan jumlah noise acak yang ditambahkan ke gambar

Pelatihan diatur untuk mencapai partikel

Kami mempertimbangkan sekumpulan keluarga tugas yang semakin sulit, di mana jumlah landmark meningkat dari 2 menjadi 10. Untuk setiap keluarga tugas, kami mengumpulkan 10.000 lintasan untuk pelatihan, di mana posisi landmark dan posisi awal robot titik diacak. Kami menggunakan kebijakan pakar hard-coded untuk menghasilkan demonstrasi secara efisien. Kami menambahkan kebisingan ke lintasan dengan mengganggu tindakan yang dihitung sebelum menerapkannya ke lingkungan, dan kami menggunakan kloning perilaku sederhana untuk melatih kebijakan jaringan saraf

Pelatihan diatur untuk susun blok

Secara konkret, kami mengumpulkan 140 tugas pelatihan, dan 43 tugas tes, masing-masing dengan tata letak blok yang diinginkan berbeda. Jumlah blok dalam setiap tugas dapat bervariasi antara 2 dan 10. Kami mengumpulkan 1.000 lintasan per tugas untuk pelatihan, dan memelihara satu set lintasan yang terpisah dan konfigurasi awal yang akan digunakan untuk evaluasi. Mirip dengan tugas mencapai partikel, kami menyuntikkan kebisingan ke dalam proses pengumpulan lintasan. Lintasan dikumpulkan menggunakan kebijakan kode keras.

Demonstrasi yang berhasil dikumpulkan menggunakan kebijakan kode-keras

Perhatikan bahwa selama mempelajari lintasan yang benar dihasilkan oleh kebijakan prosedural "kode-keras", yang saya percaya bergantung pada teknik klasik identifikasi dan kontrol sistem. Jadi selama pelatihan dan pengujian agen memiliki dua input: a) demonstrasi dalam konfigurasi A, dan b) konfigurasi awal B. Selama pelatihan saja, algoritma pembelajaran juga memiliki akses ke respons ideal: lintasan dimulai dari konfigurasi B yang menjawab masalah dan dengan mana tanggapan agen akan dibandingkan selama pembelajaran - menjadikannya masalah pembelajaran yang diawasi.

Untuk setiap tugas pelatihan, kami mengasumsikan ketersediaan serangkaian demonstrasi yang berhasil.

Jika tidak jelas, saya akan membahas perbedaan antara berbagai jenis paradigma pembelajaran di bagian berikutnya.

Algoritma optimasi dan fungsi kerugian

Pembelajaran terawasi mengacu pada paradigma pelatihan di mana pada setiap keputusan jaringan memiliki akses ke pilihan yang benar yang seharusnya ia buat, dan karenanya pada gagasan kesalahan. Misalnya dalam tugas klasifikasi antara anjing dan kucing, label gambar anjing dan kucing selama pelatihan diketahui sebelumnya dan kesalahannya segera terdeteksi. Dalam hal ini berbeda dari pembelajaran tanpa pengawasan di mana secara umum agen diminta untuk menemukan struktur yang sebelumnya tidak dikenal dalam input yang diterimanya, dan tanpa label kucing dan anjing harus menemukan bahwa ada dua kelompok objek yang berbeda hanya berdasarkan pada informasi yang terkandung dalam data. Ini juga berbeda dari Penguatan Pembelajaran yang sering berlaku untuk sistem waktu nyata di mana urutan keputusan yang tepat untuk tujuan tidak diketahui tetapi hanya "hadiah" akhir yang akan memutuskan apakah urutannya benar atau tidak. Dengan menggunakan pembelajaran imitasi, mereka mengubah masalah pembelajaran penguatan klasik menjadi masalah pembelajaran yang diawasi, di mana kesalahan dihitung dari jarak ke lintasan yang diamati.

Karena ini adalah kasus untuk setiap pengaturan pelatihan yang diawasi, tugas yang dihadapi sepenuhnya ditentukan oleh fungsi kehilangan, yang bertujuan untuk mengukur seberapa jauh agen dari perilaku yang dimaksud. Mendefinisikan fungsi ini seringkali merupakan langkah kritis, karena menentukan bagaimana algoritma optimasi memperbarui parameter model. Algoritma-algoritma tersebut sangat penting dalam hal waktu komputasi, dan seringkali mengharuskan beberapa penyesuaian untuk dapat bertemu, jika memang sama sekali. Memang solusi yang akan meminimalkan fungsi dalam dimensi yang sangat tinggi berada di shell yang sangat kecil dari ruang parameter, dengan jarak hamming kecil di antara mereka, segera setelah Anda menjauh dari domain kecil itu jarak antara solusi tumbuh cepat. Ada banyak pekerjaan yang sangat menarik pada subjek yang dilakukan antara lain oleh Jennifer Chayes yang sangat menakjubkan, dia menyikat subjek dalam wawancara yang sangat menarik pada episode terakhir dari Talking Machines.

Selama pelatihan jaringan kebijakan (seluruh jaringan, dapat memutuskan dari input tindakan yang akan diambil) mereka pertama-tama memproses lintasan demonstrasi yang berhasil. Untuk bagian ini mereka akan membandingkan dua pendekatan, kloning Perilaku klasik (tidak yakin dengan implementasi yang mereka gunakan) dan algoritma DAGGER. Ini kemudian akan memungkinkan untuk minimalisasi iteratif dari fungsi kehilangan baik melalui l2 atau kehilangan lintas-entropi berdasarkan apakah tindakan kontinu atau diskrit (berdasarkan distribusi peristiwa dalam urutan). Di semua eksperimen, mereka menggunakan algoritma Adamax untuk melakukan optimasi dengan tingkat pembelajaran 0,001.

Ukuran langkah dimulai kecil dan meluruh secara eksponensial.

Algoritme itu sendiri tidak memungkinkan untuk transfer, itu adalah bagaimana Anda membangun set pelatihan Anda dan fungsi kerugian Anda yang akan memungkinkan untuk transfer.

Ada dua jenis transfer dalam tugas. Jenis pertama disebut sebagai "menjembatani kesenjangan realitas", itu adalah generalisasi dalam pembelajaran yang memungkinkan untuk mentransfer antara pelatihan input simulasi untuk pengujian pada rangsangan alami. Data simulasi sering merupakan perkiraan miskin dari dunia nyata, terlalu sempurna, kurang dalam kompleksitas objek nyata. Di dunia nyata kamera mungkin salah dan ribut, kontrol motor akan kurang tepat, warna akan berubah, tekstur akan lebih kaya dll. Untuk memungkinkan transfer pertama ini mereka menggunakan metode yang mereka sebut sebagai "pengacakan domain" : itu dengan menambahkan suara ke input bahwa jaringan dapat mempelajari struktur yang relevan umum yang akan memungkinkannya untuk menggeneralisasi dengan tepat ke dunia nyata. Misalnya mereka akan mengubah sudut kamera antara contoh pelatihan, mengubah tekstur, atau membuat lintasan menjadi kurang sempurna. Dengan menambahkan kebisingan selama pelatihan, kami menambah ketahanan.

Transfer kedua yang diuji di sini adalah kemampuan untuk menghasilkan urutan motor yang relevan dalam rangkaian konfigurasi dan tujuan yang sebelumnya tidak terlihat, berdasarkan pada demonstrasi tunggal yang dimulai pada konfigurasi awal lain tetapi dengan tujuan akhir yang serupa. Sekali lagi di sini transfer akan dimungkinkan dengan cara kami membangun set pelatihan, dan memodelkan fungsi kerugian. Dengan menghadirkan demonstrasi selama pelatihan yang tidak dimulai dari kondisi awal yang sama untuk mencapai tujuan yang sama, Anda memungkinkan jaringan untuk belajar menanamkan representasi tujuan yang lebih tinggi tanpa menggunakan posisi absolut, serta representasi tingkat tinggi dari urutan motor yang bukan imitasi sederhana. Arsitektur awal yang naif memungkinkan pelatihan untuk memodifikasi struktur dengan cara yang relevan, dan struktur terlatih ini menyiratkan fungsi akhir.

Tujuan

Untuk paradigma susun blok, mereka memiliki beberapa kendala yang mereka inginkan untuk dipenuhi oleh agen pembelajaran mereka.

Seharusnya mudah untuk diterapkan pada instance tugas yang memiliki jumlah blok yang bervariasi.
Itu secara alami harus menggeneralisasi permutasi yang berbeda dari tugas yang sama. Misalnya, kebijakan harus berkinerja baik pada tugas {dcba}, bahkan jika hanya dilatih pada tugas {abcd}.
Ini harus mengakomodasi demonstrasi panjang variabel.

Mereka memiliki beberapa pertanyaan yang ingin mereka jawab untuk tugas ini.

Bagaimana pelatihan dengan kloning perilaku dibandingkan dengan DAGGER, mengingat bahwa data yang cukup dapat dikumpulkan secara offline?
Bagaimana pengkondisian pada seluruh demonstrasi dibandingkan dengan pengkondisian pada konfigurasi yang diinginkan akhir, bahkan ketika konfigurasi akhir memiliki informasi yang cukup untuk sepenuhnya menentukan tugas?
Bagaimana pengkondisian pada seluruh demonstrasi dibandingkan dengan pengkondisian pada "snapshot" dari lintasan, yang merupakan subset kecil dari frame yang paling informatif
Bisakah kerangka kerja kita berhasil menggeneralisasi ke jenis tugas yang belum pernah dilihatnya selama pelatihan? (++)
Apa batasan metode saat ini?

Arsitektur

Mencapai Partikel

Untuk contoh pertama ini mereka membandingkan tiga arsitektur semua berdasarkan pada jaringan saraf Long Short Term Memory (LSTM). Deskripsi jaringan tersebut akan masuk dalam posting mendatang tentang memori dan perhatian, yang merupakan mata pelajaran yang sangat menarik baik dalam ilmu kognitif dan komputasi. Pada dasarnya LSTM mengumpankan output jaringan sebelumnya (dalam waktu) sebagai bagian dari input jaringan pada setiap titik waktu baru, yang memungkinkan informasi dari status masa lalu untuk menginformasikan saat ini (oleh karena itu namanya jaringan memori jangka pendek). Mereka adalah akar dari banyak teknologi canggih yang berhubungan dengan deret waktu (Alexa, Siri dll.).

Di sini mereka menggunakan tiga kondisi spesifik:

  1. LSTM biasa: belajar menyematkan lintasan dan kondisi saat ini untuk memasukkannya ke perceptron multilayer yang akan menghasilkan aksi motorik
  2. LSTM dengan perhatian: menghasilkan representasi tertimbang di atas landmark lintasan
  3. Keadaan akhir dengan perhatian: gunakan dalam pelatihan hanya kondisi akhir untuk menghasilkan bobot lebih dari landmark, mirip dengan arsitektur sebelumnya

Blok susun

Sementara, pada prinsipnya, jaringan saraf generik dapat mempelajari pemetaan dari demonstrasi dan pengamatan saat ini untuk tindakan yang tepat, kami merasa penting untuk menggunakan arsitektur yang sesuai. Arsitektur kami untuk pembelajaran susun blok adalah salah satu kontribusi utama dari makalah ini, dan kami percaya itu adalah representasi dari apa arsitektur untuk pembelajaran imitasi satu-shot untuk tugas-tugas yang lebih kompleks nantinya di masa depan.

Modul perhatian

Artikel ini tetap relatif tinggi dalam menggambarkan struktur jaringan yang digunakan untuk mempelajari tugas. Unsur utama dari arsitektur adalah modul perhatian mereka, tapi saya percaya subjek ini memang perlu posting khusus mempelajari secara rinci ke peran penting. Dengan analogi dengan konsep ilmu kognitif perhatian berkelanjutan, modul perhatian digunakan untuk menjaga dan fokus pada informasi yang relevan yang terkandung di berbagai rentang ruang dan waktu. Ini menghasilkan output berukuran tetap yang berisi embedding konten informasi yang membentang dalam ruang dan waktu. Dengan analogi dengan topologi, cabang matematika yang saya percaya akan sangat menginformasikan bagaimana kita memahami representasi terdistribusi di masa depan, jaringan perhatian melakukan isomorfisma topologi informasi, kelengkungan yang sama, bentuk yang berbeda. Perhatikan bahwa jaringan ini tidak berperan sebagai pendeteksi arti-penting yang dapat fokus pada kejadian yang tak terduga atau langka, yang merupakan fungsi yang terkait dengan gagasan perhatian dalam ilmu saraf.

Di sini mereka menggunakan dua jenis jaringan perhatian: a) jaringan perhatian temporal yang menghasilkan jumlah terbobot atas konten (kueri, konteks dan vektor memori) yang disimpan dalam memori, dan b) jaringan perhatian lingkungan yang mampu memulihkan informasi relatif untuk memblokir posisi tergantung dari permintaan agen saat ini.

Jaringan perhatian temporal, dengan c: vektor konteks, m: vektor memori, q: vektor kueri, v: bobot vektor yang dipelajari. Outputnya berukuran sama dengan vektor memori. Ini adalah kombinasi linear dari vektor-vektor yang memungkinkan beberapa vektor memori memiliki dampak lebih besar pada output berdasarkan konteks dan vektor kueri.Gagasan yang sama di sini, persaingan antara informasi spasial dipertahankan secara dinamis oleh sistem perhatian.

Jaringan kebijakan

Jaringan yang lengkap terdiri dari tiga sub-jaringan yang berbeda: jaringan demonstrasi, jaringan konteks, dan jaringan manipulasi.

Jaringan demonstrasi menerima lintasan demonstrasi sebagai input, dan menghasilkan embedding demonstrasi untuk digunakan oleh kebijakan. Ukuran embedding ini tumbuh secara linear sebagai fungsi dari panjang demonstrasi serta jumlah blok di lingkungan.

Seperti yang ditunjukkan di sini, jaringan demonstrasi dapat menanamkan demonstrasi berbagai kompleksitas dan ukuran ke dalam format umum yang akan digunakan oleh jaringan konteks untuk mewakili tugas. Mungkin pada tingkat ini sudah terjadi generalisasi, penanaman demonstrasi harus meninggalkan informasi tentang lintasan yang tepat dan posisi absolut kubus yang terlihat selama demonstrasi.

Melihat struktur jaringan konteks, meskipun dari tingkat yang sangat tinggi, kita melihat antarmuka dengan jaringan demonstrasi yang memberi embedding demonstrasi ke modul perhatian temporal pusat. Kita juga melihat bahwa tindakan sebelumnya (LSTM) dan keadaan saat ini dimasukkan sebagai input yang disatukan dengan demonstrasi yang disematkan untuk menghasilkan penyematan konteks global yang dikirim ke jaringan motor.

Deskripsi mereka tentang fungsi jaringan menurut saya adalah bagian terpenting dari makalah ini:

Jaringan konteks dimulai dengan menghitung vektor kueri sebagai fungsi dari kondisi saat ini, yang kemudian digunakan untuk menghadiri beberapa langkah waktu yang berbeda dalam penanaman demonstrasi. Bobot perhatian pada blok yang berbeda dalam langkah waktu yang sama dijumlahkan bersama, untuk menghasilkan bobot tunggal per langkah waktu. Hasil perhatian temporal ini adalah vektor yang ukurannya sebanding dengan jumlah blok di lingkungan. Kami kemudian menerapkan perhatian lingkungan untuk menyebarkan informasi di embeddings dari setiap blok. Proses ini diulang beberapa kali, di mana negara maju menggunakan sel LSTM dengan bobot yang tidak terikat.
Urutan operasi sebelumnya menghasilkan embedding yang ukurannya tidak tergantung pada panjang demonstrasi, tetapi masih tergantung pada jumlah blok. Kami kemudian menerapkan perhatian lunak standar untuk menghasilkan vektor dimensi tetap, di mana konten memori hanya terdiri dari posisi setiap blok, yang, bersama-sama dengan keadaan robot, membentuk input yang diteruskan ke jaringan manipulasi.
Secara intuitif, meskipun jumlah objek di lingkungan dapat bervariasi, pada setiap tahap operasi manipulasi, jumlah objek yang relevan kecil dan biasanya diperbaiki. Khusus untuk lingkungan susun blok, robot hanya perlu memperhatikan posisi blok yang coba diambilnya (blok sumber), serta posisi blok yang coba ditempatkan di atas ( blok target). Oleh karena itu, jaringan yang terlatih dengan baik dapat belajar untuk mencocokkan kondisi saat ini dengan tahap yang sesuai dalam demonstrasi, dan menyimpulkan identitas blok sumber dan target yang dinyatakan sebagai bobot perhatian lunak di atas blok yang berbeda, yang kemudian digunakan untuk mengekstraksi posisi yang sesuai ke diteruskan ke jaringan manipulasi.

Cara mereka menyelesaikan deskripsi mereka adalah contoh sempurna dari arus penelitian AI saat ini dari pendekatan sistem pakar ke pendekatan sistem pembelajaran, dan itu juga mengisyaratkan diskusi tentang bagaimana otak berevolusi di bawah ini.

Meskipun kami tidak menerapkan interpretasi ini dalam pelatihan, analisis eksperimen kami mendukung interpretasi ini tentang bagaimana kebijakan yang dipelajari bekerja secara internal.

Mereka tidak tahu cara kerjanya! Mereka membangun struktur yang mampu melakukan perhitungan tertentu dan menyimpan informasi tertentu yang kami anggap berguna, dan memberinya pelatihan yang diharapkan seluruh struktur akan belajar! Ada semacam penelitian kecerdasan buatan yang sedang naik daun, sebuah seni, cara untuk mengarahkan pencarian heuristik ke arah yang benar. Dan sepertinya banyak penyihir itu sekarang bekerja untuk openAI.

Dengan kata-kata mereka sendiri jaringan manipulasi adalah struktur yang paling sederhana, dari konteks menanamkan diumpankan ke perceptron Multi-layer, tindakan motorik dihasilkan.

Hasil

Hasil seringkali merupakan bagian yang saya tidak begitu tertarik, terutama untuk makalah teknis yang luar biasa cemerlang. Saya akan cepat, intinya adalah bahwa pendekatan ini bekerja, ia melakukan dengan akurasi yang mirip dengan kebijakan pakar hard-coded, dan bertentangan dengan pendekatan prosedural tertentu, dapat digeneralisasikan ke berbagai tugas.

Mencapai Partikel

Susun Blok

Dalam percobaan ini mereka juga menguji kondisi yang berbeda. Menggunakan DAGGER mereka membandingkan tiga kondisi input berbeda dengan downsampling lintasan yang ditunjukkan: lintasan penuh, snapshot lintasan, atau hanya menggunakan keadaan akhir. Mereka juga membandingkan algoritma Kloning Perilaku dengan lintasan lengkap demonstrasi.

Bukti kuat kemampuan sistem untuk menggeneralisasi identitas kubus

Diskusi

Membaca kemajuan langkah cepat yang dibuat oleh OpenAI beberapa bulan terakhir, saya merasakan dorongan yang semakin besar untuk berbicara tentang pekerjaan mereka dan membagikan pemikiran saya tentang apa yang saya yakini pekerjaan mereka, dan kemajuan bidang AI secara keseluruhan, menginformasikan pemahaman kami tentang bagaimana otak biologis bekerja. Secara khusus gagasan yang berkembang ini bahwa fungsi kognitif yang tampaknya dibagi bersama antara manusia bukanlah karena struktur bersama yang secara bawaan tahu bagaimana melakukan suatu tugas, tetapi merupakan hasil dari struktur naif yang relatif sama yang, berhadapan dengan lingkungan yang sama, belajar melakukan tugas serupa. Fungsi menjadi hasil dari struktur tanpa fungsi yang hanya mampu mempelajari tugas tertentu karena lingkungan tertentu daripada struktur yang mampu melakukan tugas secara asli, hanya mengubah beberapa parameter untuk beradaptasi dengan lingkungan.

Tugas versus konfigurasi: definisi yang tampaknya arbitrer

Saya harus mengakui bahwa saya tidak mengerti mengapa mereka memilih untuk berbicara tentang tugas yang berbeda seperti yang mereka lakukan. Tugas didefinisikan dalam percobaan susun blok sebagai satu set string yang mewakili posisi blok relatif satu sama lain, jumlah elemen dalam set mendefinisikan jumlah tumpukan dan jumlah karakter jumlah blok yang perlu diatur . Tugas kemudian adalah susunan balok dalam tumpukan terlepas dari posisi absolut tumpukan.

Beberapa blok mungkin ada di meja tetapi bukan bagian dari tugas

Pilihan mereka untuk menentukan posisi relatif dan jumlah tumpukan sebagai kriteria untuk tugas yang terpisah tampaknya sewenang-wenang. Memang, bisa juga masuk akal untuk berbicara tentang tugas-tugas yang berbeda berdasarkan posisi awal absolut dari blok (apa yang mereka sebut sebagai konfigurasi). Saya percaya sifat umum dari masalah ini jelas bagi mereka, tetapi untuk tujuan kejelasan mereka lebih suka untuk tidak masuk ke rincian. Lebih masuk akal untuk membingkai pembelajaran kebijakan sebagai dua jenis generalisasi, seperti yang mereka lakukan nanti:

Perhatikan bahwa generalisasi dievaluasi pada beberapa tingkatan: kebijakan yang dipelajari tidak hanya perlu digeneralisasi ke konfigurasi baru dan demonstrasi tugas baru yang sudah terlihat, tetapi juga perlu digeneralisasi ke tugas baru.

Cukup ganti "tugas" dengan "susun pemesanan". Untuk mempelajari tugas dengan benar berarti bahwa agen mempelajari penanaman yang mampu mengabstraksi posisi kubus (konfigurasi), tetapi juga identitas mereka (tugas), jumlah tumpukan (tugas), dan lintasan demonstrasi (diperkenalkan secara singkat dalam kutipan) untuk menghasilkan respons motorik yang relevan.

Generalisasi-generalisasi itu tampak kontradiktif, bagaimana jaringan yang sama dapat mengabstraksi konfigurasi awal kubus atau identitas mereka dan belum memulihkan posisi absolut mereka untuk respons motor?

Ini menjelaskan perlunya subnetwork koperasi yang berbeda selama pembelajaran, menerima input yang berbeda, dan menjelaskan bahwa dalam konteks jaringan representasi abstrak dari tugas diumpankan informasi urutan rendah, seperti posisi absolut kubus, sebelum perintah turun.

Anda mungkin berpikir mengomentari perbedaan tugas dan konfigurasi ini konyol, tetapi penting untuk memahami bahwa pada dasarnya proses abstraksi yang sama dimainkan pada objek yang berbeda (dan ini terbuka untuk bagian berikut).

Tidak ada pembelajaran tanpa invarian

Transfer belajar mungkin merupakan konsep kognisi yang paling menarik, apakah itu in-silico atau in-vivo, itu adalah topik yang sangat panas baik bagi para peneliti AI dan Neuroscientists, dan kebetulan merupakan subjek dari tesis PhD saya. Perhatikan bahwa konsep yang terkait erat telah dieksplorasi di banyak bidang sebelum pembelajaran mesin, dan konsep abstrak dan selalu didefinisikan sebagian ini memiliki banyak nama. Para filsuf, antropolog, dan sosiolog mungkin menyebutnya sebagai (Post-) Strukturalisme (Claude Levi-Strauss, Michel Foucault), Ahli Bahasa akan berbicara tentang struktur Syntagma dan Nested Tree (Noam Chomsky), matematikawan mungkin akan memikirkan Homeomorfisme atau Invarian, dan Pendidikan peneliti atau Ilmuwan Saraf dapat menyebutnya sebagai Pembelajaran Struktural. Anda mungkin juga melihat konsep terkait di bidang pembelajaran mesin seperti pembelajaran representasi dan pembelajaran-meta, yang bergantung pada penulisnya dapat merujuk pada pembelajaran transfer atau paradigma pembelajaran yang digunakan untuk melakukan pembelajaran transfer. Ketika berbicara tentang Deep Neural Networks perbedaan ini kabur, karena pada dasarnya jaring Neural sedang belajar untuk menanamkan masalah tertentu (representasi pembelajaran) dengan memodifikasi strukturnya (meta-learning) biasanya dalam lingkungan yang bising yang menyiratkan suatu bentuk transfer pembelajaran.

Peneliti AI dan Cognitive Scientist sering memiliki definisi yang sangat konkret tentang pembelajaran transfer, itu adalah proses yang memungkinkan sistem untuk menggunakan pengetahuan yang diperoleh dalam tugas tertentu untuk melakukan tugas lain berbagi struktur komposisi umum (seperti yang dijelaskan dalam artikel). Ilmu kognitif memiliki gagasan transfer dekat dan jauh, tergantung pada bagaimana dua tugas tampaknya berbeda. Tetapi dari perspektif yang lebih abstrak, dalam lingkungan yang bising dan kompleks, semua pembelajaran adalah bentuk pembelajaran transfer dan perbedaan antara transfer yang sangat dekat dan sangat jauh hanyalah masalah berbagi informasi - lagi-lagi masalah skala bukan dari alam.

Dalam lingkungan yang terkendali, upaya-upaya dilakukan sebelumnya untuk membangun diskritisasi realitas yang dikodekan dengan keras, tetapi pada kenyataannya diskretisasi ini mereproduksi secara prosedural apa yang dilakukan pembelajaran transfer, ia menyatukan serangkaian negara tanpa batas yang ditemukan dalam kenyataan di bawah struktur penutup yang sama. Pada dasarnya Transfer Pembelajaran merujuk langsung atau dengan perluasan ke proses melalui mana agen pembelajaran menggunakan invarian untuk membangun model dunia. Ini adalah proses yang menggunakan kesamaan, pengulangan, dan variasi yang sama, untuk membentuk representasi yang semakin abstrak dan tersusun yang akan menyusun ansambel pada rentang varian oleh input. Dalam pengertian umum memungkinkan untuk membuat operasi dasar di mana kita memanipulasi kelompok informasi, seperti dalam matematika memungkinkan untuk penyatuan dan persimpangan. Ini memungkinkan identitas, itu menjelaskan kemampuan kita untuk mengkategorikan objek. Josh Tenembaum memberi contoh yang benar-benar berbicara kepada saya: bayangkan Anda mengajar seorang anak berusia dua tahun untuk mengenali seekor kuda untuk pertama kalinya, Anda menunjukkan kepadanya beberapa gambar kuda yang berbeda dan kemudian Anda menunjukkan kepadanya gambar kuda lain dan gambar sebuah rumah dan minta dia untuk memberi tahu Anda yang mana adalah kuda. Seorang anak akan melakukan tugas ini dengan cukup mudah tetapi masih merupakan sesuatu yang tidak dapat dilakukan oleh komputer dengan sangat sedikit input (pembelajaran sekali pakai).

Bagaimana anak itu melakukannya?

Pengenalan hewan telah dipelajari pada anak-anak dan berhubungan dengan kemampuan kami untuk mendekonstruksi benda menjadi bagian yang relevan, rentang warna bulu, ukuran leher, bentuk keseluruhan dll. Kemampuan ini juga yang memungkinkan Anda untuk membuka pintu Anda belum pernah melihat sebelumnya, Anda telah mempelajari urutan motor yang menyamaratakan situasi apa pun (generalisasi domain). Ini juga yang Anda gunakan untuk membangun model penjelas yang menyederhanakan dunia, Anda mungkin awalnya akan terkejut dengan kemunculan mendadak seekor Cuckoo dalam jam Swiss yang terkenal, tetapi setelah penampilan kedua Anda akan mengharapkannya. Menemukan invarian adalah bagaimana jaringan saraf belajar dan model-model itu dibangun secara tidak sadar. Contohnya adalah bagaimana kita belajar secara intuitif tentang fisika bahkan sebelum mendengar matematika dan angka.

Seseorang mungkin bertanya misalnya seberapa cepat seorang anak yang lahir dalam gayaberat mikro beradaptasi dengan gravitasi bumi dan belajar secara intuitif bahwa benda-benda akan jatuh ke tanah ketika jatuh?

Kami mungkin berhipotesis bahwa bayi dan sebagian besar hewan akan merevisi model mereka secara tidak sadar, seperti ketika Anda mengenakan kaus kaki pada cakar anjing dan perlu waktu untuk beradaptasi dengan informasi baru.

Tetapi untuk seorang anak kecil interogasi dan revisi yang disengaja dari model intuitifnya akan berlangsung, dari rasa ingin tahu, melalui bahasa, simbol dan kepercayaan. Kemampuan kami untuk secara sadar menginterogasi dan mengubah model-model kami sangat menarik, dan sebagai seorang sidenote, manusia mungkin satu-satunya spesies yang dapat melakukan verbalisasi prosesnya, tetapi spesies lain dapat melakukan revisi sadar yang serupa.

Invarian adalah properti wajib waktu, jika semuanya selalu baru dan tidak dapat diprediksi, tetap akan ada invarian yang unik ini bahwa semuanya selalu baru dan tidak dapat diprediksi. Mustahil membayangkan dunia tanpa invarian, karena tidak ada dunia yang bisa dirujuk, tanpa invarian kehidupan tidak mungkin dan otak kita tidak berguna. Hidup adalah mesin yang bekerja hanya dengan pengulangan peristiwa yang dapat diprediksi, pengulangan sebab dan akibat, dari pemasukan kembali energi secara siklik ke dalam organisme. Dan dalam upaya Life untuk meningkatkan penggunaan siklus-siklus yang diperlukan itu, otak kita adalah alat pamungkas. Ini adalah mesin prediksi, organ adaptif yang mampu menemukan pengulangan secara dinamis dan menggunakannya untuk berinteraksi lebih baik dengan dunia.

Metode yang dipilih kehidupan ini sangat kuat untuk sedikit perubahan dalam struktur. Yang tetap sama adalah dunia, sifat statistik lingkungan, tetapi struktur saraf yang menemuinya dapat bervariasi selama dapat menanamkan informasi yang relevan yang berevolusi untuk dirawat. Ini menjelaskan mengapa otak kita bisa sangat berbeda dari individu ke individu, bahkan korteks primer, namun memiliki fungsi yang sama.

Sistem saraf bersifat adaptif, mereka tidak membutuhkan evolusi dan memperlambat mutasi genetik untuk mengubah perilaku dengan cara yang relevan. Sebuah sistem saraf sederhana, seperti yang ditemukan di C. Elegans, berfungsi sebagai koordinator internal bawaan dan sensor eksternal: merasakan makanan dan bergerak ke arah itu, lari dari rasa sakit, bereproduksi. Sistem-sistem sederhana itu awalnya kaku dan melakukan pendekatan ekstrem dari dunia kita yang sangat bising untuk mendiskritisasi dunia itu dalam sejumlah kecil kemungkinan keadaan (makanan di sebelah kiri, panas di bawah dll.). Kemampuan motorik dan sensorik kami berkembang seiring dengan kemampuan prediktif sistem saraf kami. Ketika sensor kita menjadi lebih presisi, sistem saraf perlahan-lahan menjadi mampu memodifikasi strukturnya untuk menyimpan informasi dan belajar dari pengalaman. Awalnya, ia dapat belajar mengenali kategori input tertentu, seperti jenis bau atau pola cahaya, dan juga menjadi mampu belajar melalui coba-coba untuk mengendalikan sistem motoriknya yang semakin kompleks. Perhatikan bahwa dunia ini sangat kompleks sehingga otak kita secara alami berevolusi menuju paradigma belajar daripada pendekatan prosedural bawaan. Secara komputasional hal ini masuk akal, permainan sederhana Go memiliki ruang-ruang yang jauh lebih besar (2,10¹⁷⁰) daripada jumlah atom di alam semesta (10⁸⁰), dan ketika organisme menjadi lebih kompleks, mencoba untuk melakukan pendekatan kode keras dari semua kemungkinan menyatakan itu bisa dengan cepat menjadi sulit karena ledakan kombinatorial.

Beberapa orang mungkin percaya otak kita dibangun sedemikian rupa sehingga secara bawaan mewakili ruang yang akan berkembang, bahwa dalam DNA di suatu tempat ada gen untuk apa yang merupakan wajah, atau organisasi temporal dari gelombang suara yang membuat kata-kata. Mereka mungkin percaya bahwa pengetahuan bawaan ini dikodekan saat lahir di suatu tempat. Orang lain mungkin percaya, seperti guru filsafat saya ketika saya masih di sekolah menengah, bahwa keberadaan mendahului esensi, dan bahwa otak kita sepenuhnya dan semata-mata ditentukan oleh perjumpaan dengan organisme dan dunia. Kenyataannya tentu saja lebih kompleks, dan untuk sebagian besar sistem telencephalic yang telah dipelajari sejauh ini, otak tidak menyandikan fungsi yang akan dijalankan tetapi akan mempelajarinya tergantung pada informasi yang terkandung dalam inputnya. Jika input terlalu buruk dalam informasi yang relevan, kapasitas untuk belajar dalam struktur tersebut mungkin memiliki tanggal kedaluwarsa (misalnya Amblyopia). Tetapi jika struktur bawaan tidak menyandikan fungsi akhir, otak memang memiliki struktur tertentu. Struktur ini dilestarikan antar individu, dan individu dari spesies yang sama berbagi fungsi dan dorongan yang sama. DNA memang mengatur struktur tertentu di tempatnya, struktur yang tidak dapat melakukan fungsi terakhirnya secara bawaan, tetapi struktur yang mampu mempelajari kompleksitas tugas tertentu berdasarkan pengalaman individu. Tidak mengherankan bahwa evolusi menyebabkan penampakan penghalang darah-otak yang sangat efektif mengisolasi otak dari seluruh tubuh serta meninges dan cangkang tulang keras yang melindunginya dari dunia luar, karena tidak seperti organ lain di mana struktur dikodekan dalam genom, struktur otak yang terlatih tidak dapat diregenerasi dari model yang tersimpan secara bawaan. Apa yang menarik adalah bahwa kita melihat mekanisme pembelajaran yang sama muncul dengan analogi melalui pengembangan jaringan mendalam yang semakin kompleks melakukan tugas-tugas yang semakin kompleks.

Struktur komposisi sulit dilihat tetapi di mana-mana

Sebagai sidenote, aneh bahwa bahkan penulis tidak menyadari bahwa tugas pertama mereka untuk mencapai target memiliki struktur komposisi.

Tugas mencapai partikel dengan baik menunjukkan tantangan dalam generalisasi dalam skenario sederhana. Namun, tugas-tugas tidak berbagi struktur komposisi, membuat evaluasi generalisasi ke tugas-tugas baru menjadi menantang.

Meskipun strukturnya memang lebih rendah dari susunan balok, dan tidak mudah diakses oleh manipulasi eksperimental, tugasnya memang terdiri dari struktur bersama. Mendekati dunia menjadi bidang, satu struktur komposisi adalah bahwa identitas kubus (warna) dipertahankan dengan terjemahan, dan beralih dari blok A - atau posisi awal acak - pada posisi (Xa1, Ya1) ke blok B pada posisi (Xb1, Yb2 ) adalah bagian dari struktur komposisi orde tinggi yang sama daripada pergi dari blok A pada posisi (Xa2, Ya2) ke blok B pada posisi (Xb2, Yb2).

Antarmuka antar jaringan

Agencement jaringan saraf yang dapat menangani input pada berbagai level abstraksi akan membutuhkan antarmuka, sebuah domain yang saya percaya menyajikan banyak hal yang tersisa untuk ditemukan. Antarmuka itu bisa dari banyak sifat. Mereka dapat misalnya dilihat sebagai bahasa umum antara dua jaringan, seperti yang ditunjukkan dalam artikel, jaringan tingkat rendah yang dilengkapi dengan sistem perhatian (jaringan demonstrasi) dapat menerjemahkan demonstrasi dalam representasi jaringan lain (jaringan konteks) dapat menggunakan untuk mengarahkan tindakan apa pun panjang atau konfigurasi awal demonstrasi.

Permukaan bahasa ini ada di sini pesawat, tetap dalam ukuran, tetapi orang bisa membayangkan kemungkinan perubahan yang dapat meningkatkan komunikasi antara jaringan. Misalnya ukuran permukaan dapat diatur untuk tumbuh atau menyusut secara dinamis ketika jaringan berinteraksi selama pembelajaran, karenanya mengompresi atau memperluas kompleksitas bahasa. Kita juga bisa membayangkan interaksi yang lebih dinamis, misalnya melalui umpan balik. Kita dapat membayangkan keberadaan jaringan fasilitator yang akan belajar memperlancar komunikasi antar jaringan, yang ada sebagai jaringan paralel yang belajar memodulasi input jaringan pertama berdasarkan input dan output dari jaringan kedua. Kita dapat membayangkan jaringan konteks yang kompleks yang bertindak sebagai masuknya tonik (bervariasi lambat) ke beberapa jaringan yang lebih khusus ... Daerah penelitian masa depan yang menarik!

Kasus kegagalan menunjukkan peran yang mungkin dimiliki modul baru

Perlu dicatat bahwa kesalahan sering disebabkan oleh kesalahan motorik, dan bahwa jumlah kesalahan meningkat dengan kompleksitas tugas.

Fungsi motorik tidak boleh memburuk hanya dengan meningkatkan jumlah target, ini adalah bukti kuat bahwa cara jaringan reproduksi belajar berbicara dengan jaringan motor terlalu abstrak. Aneh karena mereka mengatakan pengujian mereka menunjukkan bahwa antarmuka antara jaringan konteks dan jaringan motor relatif konkret (posisi robot, posisi target).

Kemungkinan solusi bisa, karena ini adalah arsitektur modular, untuk menggunakan fungsi kerugian yang berbeda, atau fungsi kerugian modular yang mewakili masing-masing aspek spesifik dari tugas tersebut. Ini juga akan dibantu oleh otak yang setara dengan daerah pra-motorik untuk memastikan demonstrasi dan jaringan konteks dapat tetap abstrak tanpa menurunkan perintah motor. Daerah premotor diperlukan untuk melokalkan objek dengan lebih baik berdasarkan tujuan (dari jaringan abstrak) dan input sensorik, untuk memilih perintah motor terbaik. Tampaknya jaringan konteks sedang mencoba untuk mentransfer demonstrasi ke embedding tingkat yang lebih tinggi dan mempersiapkan aksi motor pada saat yang sama dalam konteks saat ini. Peran jaringan pra-motorik adalah belajar berkomunikasi dengan sistem motorik dengan cara yang berorientasi pada tujuan dan adaptif, menggabungkan fungsi premotor dan otak kecil untuk pembelajaran motorik dan adaptasi cepat.

Ada teori yang menarik, paradoks Moravec, yang meramalkan bahwa tidak akan menjadi tingkat kognisi yang lebih tinggi yang akan dikomputasi secara komputasional tetapi perlakuan input sensorik dan output sistem motor. Ini memang bisa menjelaskan jumlah besar neuron yang ada di otak kecil kita (lebih dari di sisa otak kita) untuk secara adaptif mengendalikan aksi motorik. Paradoks ini dirumuskan dalam waktu (80-an) ketika kita masih percaya kita bisa menanamkan pengetahuan kita sendiri ke dalam mesin untuk melakukan tugas yang kompleks di lingkungan bising yang tidak terkendali. Tentu saja paradoks ini masuk akal jika entah bagaimana mesin itu mampu mewakili dunia dalam serangkaian negara yang didiskritisasi, membangun fungsi tingkat yang lebih tinggi di atasnya akan lebih mudah. Tapi saya percaya keduanya akan terbukti sangat melelahkan, dan representasi internal yang digunakan pada antarmuka antara jaringan akan jauh dari apa pun yang menyerupai representasi sadar kita sendiri.

Kesimpulan

Dengan menggabungkan jaringan saraf yang berbeda masing-masing yang bertanggung jawab atas perawatan khusus masalah, artikel ini menunjukkan bahwa dengan menciptakan tugas yang secara inheren membutuhkan generalisasi, dan membangun lingkungan belajar yang sesuai melalui pengacakan domain, jaringan saraf dengan akses ke memori dan sistem perhatian dapat belajar untuk menggeneralisasi di luar reproduksi sederhana. Ini dapat belajar untuk menemukan tujuan tatanan yang lebih tinggi yang telah ditunjukkan hanya sekali dalam aliran visual pada informasi, dan melakukan perhitungan dalam ruang umum untuk memulihkan tindakan yang tepat yang dapat mereproduksi tujuan itu dalam konteks yang berbeda.

Di masa depan kita akan melihat peningkatan kompleksitas struktur yang dibangun di atas blok-blok pembangun atom yang dapat belajar untuk menggeneralisasi tugas-tugas kompleks, tetapi yang lebih penting melakukan beberapa tugas seperti itu, di lingkungan baru, dengan sedikit ketergantungan pada metode kode keras seperti preprocessing input atau penyimpanan memori. Penyimpanan memori akan digantikan oleh representasi terdistribusi di seluruh jaringan memori, sistem atensi akan digantikan oleh aktivitas siklik dalam jaringan atensi real time. Pertanyaannya tetap bagaimana kita akan dapat mengadaptasi teknologi serial yang kuat (mesin Turing) untuk meningkatkan ketergantungan kita pada komputasi terdistribusi dalam sistem yang diwujudkan.