Donald Trump dari Riset Makanan

Mengapa aku melakukan ini? Bukankah saya memiliki hal-hal yang lebih baik untuk dilakukan?

Semuanya penuh ironi.

Belum lama berselang saya adalah seorang mahasiswa PhD yang duduk di sebuah ruangan yang penuh dengan para profesor yang tidak kompeten dengan gelar-gelar yang sombong dan berlebihan yang mengakhiri karier akademis saya, dan sekarang di sini saya membalas budi.

Jika iklim politik kita saat ini telah mengajarkan kita sesuatu, itu adalah bahwa jika Anda memiliki kemampuan dan platform untuk berbicara, Anda harus melakukannya.

Ketika saya masih mahasiswa, tidak ada yang bisa saya lakukan tentang semua sains yang mengerikan di sekitar saya, atau perlakuan buruk terhadap peserta pelatihan. Tapi sekarang saya bisa.

Saya tidak pergi mencari ilmu yang buruk, tetapi jika itu menemukan saya haruskah saya mengabaikannya dan berharap orang lain berurusan dengan itu?

Orang-orang berbicara tentang sifat sains yang mengoreksi diri seolah-olah itu semacam hukum kodrat.

Tidak, sains mengoreksi karena para ilmuwan memperbaikinya.

Pernahkah Anda berpikir tentang bagaimana keputusan terkecil dapat memengaruhi hidup Anda?

Dalam hal ini seorang peneliti terkenal menulis apa yang menurutnya adalah posting blog yang tidak bersalah memberikan saran tentang bagaimana menjadi sukses di dunia akademis.

Posting itu tidak diketahui selama satu bulan sampai salah seorang rekannya menemukannya dan mengirim email kepadanya.

Posting itu kemudian dibagikan di Twitter dan saya perhatikan.

Saya kemudian makan siang dengan teman saya dan mengatakan kepadanya tentang posting gila ini yang baru saja saya baca. Dia bertanya apakah saya sudah memeriksa kertas dengan pengujian granularity. Tidak pernah.

Segera setelah saya tiba di rumah, saya melihat kertas-kertas itu dan mengirimkan tweet ini:

Sisanya adalah sejarah.

Bersama dengan Tim van der Zee dan Nick Brown saya menulis pracetak yang merinci lebih dari 150 inkonsistensi di surat kabar yang disebutkan dalam posting blog.

Pracetak diunduh 3.000 kali dan memiliki Altmetric 160.

Itu mengilhami empat pos dari ahli statistik terkemuka Andrew Gelman.

Kisah ini diambil oleh Retraction Watch and Slate.

Peneliti mengklaim koreksi pada makalah akan dikeluarkan.

Misi selesai?

Saya tidak tahu Brian Wansink, dan tidak terbiasa dengan pekerjaannya sampai saya melihat posting blog-nya. Saya tidak tertarik pada psikologi makanan, atau psikologi pada umumnya.

Tetapi saya tertarik pada bagaimana akademisi memilih sains yang buruk, bebas dari peraturan luar yang dapat mencegah krisis seperti gelembung perumahan, dan bagaimana struktur kekuatannya memungkinkan anggota senior untuk berperilaku seperti diktator.

Entri blog Brian entah bagaimana berhasil menyentuh semua subjek ini. Saya tidak tahu bagaimana Brian menjalankan lab-nya, atau seberapa cermat pekerjaannya dilakukan, yang saya tahu adalah apa yang bisa saya lihat.

Dan apa yang saya lihat saya lihat sebelumnya, hanya tutup. Dan yang lain melihatnya, telah melihatnya, atau akan melihatnya. Sains dalam dunia akademis bukan tentang melakukan ilmu pengetahuan, ini tentang merek Anda.

Lab Makanan dan Merek Cornell tidak bisa lebih tepat namanya.

Sebenarnya seluruh cerita ini terlalu bagus untuk menjadi kenyataan.

Kami berada di tengah-tengah krisis reproduktifitas dalam sains, dan Brian menulis sebuah pos tidak hanya mengakui praktik penelitian yang dipertanyakan, tetapi menghadirkannya sebagai cara ideal untuk melakukan sains dan membual tentang berapa banyak publikasi yang mereka tuju.

Sungguh sulit dipercaya komentar pertama di posting blog bertanya apakah itu satire. Ini bukan pertama kalinya seseorang mengira pekerjaan Brian satir. Karyanya awalnya keliru sebagai lelucon April Mop.

Namun, saya tahu itu bukan satir karena seperti yang saya katakan, saya pernah melihat ini sebelumnya. Bahkan, saya segera pergi untuk mengarsipkan halaman jika itu dihilangkan, tetapi seseorang mengalahkan saya untuk itu:

Jika Anda pergi ke lab dan menciptakan seseorang yang dengan sempurna mewujudkan semua masalah yang sedang dihadapi sains saat ini Anda tidak bisa melakukan lebih baik daripada Brian Wansink. Ini seperti bagaimana pembawa acara talk show tidak dapat memimpikan kandidat presiden yang lebih baik daripada Donald Trump.

Sebenarnya, persamaan dengan Trump sangat mencolok.

Sama seperti Trump memiliki kata-kata terbaik dan ide-ide besar, Wansink memiliki "data keren" yang "sangat eksklusif".

Peresmian Trump adalah yang paling banyak dilihat dalam periode sejarah, dan Wansink tidak melakukan peretasan, ia melakukan “penyelaman data yang dalam”.

Kebijakan Trump mungkin dipengaruhi oleh kepentingan finansial. Wansink telah melakukan pekerjaan untuk McDonald's, dan di sini dia ada di Twitter:

Trump tidak membiarkan fakta atau data menghalangi, dan Wansink juga tidak. Ketika Plan A gagal, dia pindah ke Plan B, Plan C ... Plan? Dan ketika ditemukan makalahnya mengandung puluhan kesalahan, dia tidak berpikir "tingkat signifikansi akan berbeda sama sekali" setelah diperbaiki.

Trump pernah memiliki kutipan yang menunjukkan dia tahu persis apa yang dia lakukan ketika dia membuat pernyataan gila. Mungkin Wansink mengungkapkan sesuatu ketika dia menulis:

Munculnya menjadi ilmiah dapat meningkatkan persuasif.

Brian Wansink dikenal sebagai "Sherlock Holmes of food". Saya suka acara BBC jadi saya tersinggung dengan ini. Dari tempat saya berdiri tampaknya "makanan Donald Trump" akan menjadi moniker yang lebih tepat. Dan hei, saya perlu judul untuk posting ini.

Posting ini bukan tentang Brian Wansink - yah, secara teknis itu - ini tentang apa yang ia wakili, atau setidaknya tampak mewakili. Dia bukan satu-satunya peneliti yang mengingatkan saya pada Trump, dan saya berharap posting ini membantu orang lain untuk mengenali masalah di sekitar mereka atau mendorong orang lain untuk berbicara.

Saya akan mengatakan satu hal, tidak seperti Trump dan peneliti lain yang saya tahu, Wansink ramah dalam diskusi, dan sejauh yang saya tahu sepertinya orang baik. Semoga dia belajar dari pengalaman ini dan menggunakan pengaruhnya untuk menyebarkan manifesto sains yang dapat direproduksi.

Seperti yang ada sekarang, makalah yang salah diterbitkan, peneliti yang salah mendapatkan dana. Tidak ada insentif untuk berbagi data atau melakukan sains dengan cermat. Satu-satunya hal yang penting adalah merek Anda, dan kemampuan Anda untuk memanfaatkan merek itu ke dalam publikasi dan hibah, yang berputar kembali untuk memberi makan merek tersebut. Jika itu berarti melakukan penelitian yang ceroboh, membesar-besarkan hasil, dan kemudian menolak untuk mengakui kesalahan, biarlah.

Tapi ini bukan bagaimana sains harus dilakukan.

Brian Wansink mengaku mengambil studi yang mendapat "hasil nol" dan mengeksplorasi data sampai ia mendapatkan empat makalah dari itu. Koran-koran itu diterbitkan dalam jurnal-jurnal yang tidak jelas, dan dibumbui dengan kutipan-kutipan sendiri, tetapi secara mencolok tidak saling mengutip.

Ketika pembaca blognya mengemukakan kekhawatiran tentang praktik penelitian yang dipertanyakan yang digunakan dan lingkungan kerja yang dijelaskan, Wansink setuju dengan para komentator dan memposting adendum. Meskipun mengakui kekhawatiran para pembaca, dia entah bagaimana melakukan senam mental yang cukup untuk meyakinkan dirinya sendiri bahwa masalah yang dia setujui tidak berlaku baginya.

Saya membayangkan dia mengira badai telah lewat pada saat itu, tetapi dia tidak berencana untuk datang pada orang seperti saya.

Setelah kolaborator saya dan saya menemukan tingkat inkonsistensi yang belum pernah terjadi sebelumnya di makalahnya, kami mengirim email kepada dua penulis yang sesuai untuk melihat apakah kami bisa mendapatkan akses ke data. Kami tidak menerima balasan.

Ketika saya mendapat pertanyaan tentang penelitian saya, saya segera merespons, yang seharusnya menjadi norma.

Kami kemudian mengirim email ke Cornell Food dan Brand Lab secara langsung dan akhirnya mendapatkan balasan yang menjelaskan karena IRB kami harus mendapatkan persetujuan untuk melihat data (saya pikir mereka menganggap kolaborasi ini akan mengarah ke publikasi kelima, atau keenam dengan ini Himpunan data). Umm, saya tidak yakin mengapa data tidak bisa dianonimkan, tapi apa pun, kami bersedia untuk melalui proses persetujuan IRB. Namun, ketika kami menjawab bahwa kami telah mengidentifikasi beberapa masalah dengan surat-surat mereka dan berharap untuk melihat apa yang terjadi, kami tidak mendapat tanggapan. Setelah memposting pracetak kami, kami mengirimi mereka email gratisan untuk memberi tahu mereka tentang itu. Sekali lagi, tidak ada jawaban.

Pracetak diunduh 2.000 kali di hari pertama, dan para peneliti memposting ke blog Wansink, PubPeer, dan mencoba melibatkannya di Twitter.

Tidak ada.

Wansink terus tweet dan menulis posting blog seperti tidak ada yang terjadi.

Seminggu setelah preprint kami diposting, Wansink tiba-tiba berkomentar di blog dan PubPeer-nya. Dia mengatakan bahwa begitu dia mengetahui ketidakkonsistenan, dia menghubungi semua editor untuk melihat apakah dia dapat melakukan koreksi yang diperlukan. Ini tidak benar karena kami memberi tahu labnya ada masalah dengan surat-surat dua minggu sebelum memposting pracetak kami, dan ia diberitahu tentang pracetak segera setelah itu diposting.

Beberapa orang mungkin berargumen bahwa ketika kami menghubungi lab, kami seharusnya lebih terbuka dengan apa yang kami temukan atau memberi mereka draf pracetak kami. Namun, kesalahannya sangat jelas sehingga kami tidak merasa kami membutuhkan input mereka, dan selain itu, untuk semua yang kami tahu mereka bahkan tidak membaca email kami.

Perasaan saya adalah bahwa Wansink berharap situasi akan reda, dan hanya memutuskan untuk merespons begitu dia dihubungi oleh wartawan. Jika seseorang mengirimi Anda email pemberitahuan kesalahan di koran Anda tidak akan Anda tertarik untuk mengetahui apa kesalahan itu? Wartawan seharusnya tidak perlu terlibat untuk mendapatkan respons.

Dan ketika dia akhirnya mengakui ada masalah, dia menyebut mereka sebagai "inkonsistensi kecil". Ada lebih dari 150 inkonsistensi dalam keempat makalah ini, dan sejujurnya saya tidak tahu apakah ada angka yang benar. Jika ini adalah masalah kecil, saya akan benci melihat seperti apa masalah besar itu.

Mungkin Andrew Gelman mengartikulasikannya dengan sangat baik:

Biarkan saya begini. Pada titik tertentu, harus ada ambang batas di mana bahkan Brian Wansink mungkin berpikir bahwa makalah yang diterbitkannya mungkin salah - yang saya maksud salah, benar-benar salah, bukan ilmu pengetahuan, data tidak memberikan bukti untuk kesimpulan. Yang ingin saya ketahui adalah, apa ambang batas ini? Kita sudah tahu bahwa tidak cukup untuk memiliki 15 atau 20 komentar di blog Wansink sendiri yang membantingnya karena menggunakan metode yang buruk, dan itu tidak cukup ketika tim peneliti luar yang berhati-hati menemukan 150 kesalahan di surat kabar. Jadi apa yang dibutuhkan? 50 komentar blog negatif? Tim luar menemukan 300 kesalahan? Bagaimana dengan 400? Apakah itu cukup? Jika orang luar menemukan 400 kesalahan di surat kabar Wansink, maka apakah dia akan berpikir bahwa mungkin dia telah membuat beberapa kesalahan serius.

Seperti Gelman, saya ingin tahu, jadi saya melihat beberapa kertas lagi. Saya melihat makalah oleh Wansink dengan kutipan terbanyak dan yang tampaknya paling mudah untuk memeriksa inkonsistensi granularitas dan menguji kesalahan statistik. Analisis saya sama sekali tidak komprehensif.

Saya sadar bahwa Wansink telah memperbarui Addendum II-nya (pembaruan ketiga untuk posting blog-nya), dan ia tampaknya menyadari ada masalah dengan bagaimana labnya melakukan penelitian dan untuk mengekspresikan keinginan untuk melakukan yang lebih baik. Saya harap ini masalahnya.

Sulit mengetahui apa yang harus dipercaya. Setelah dihadapkan dengan sejumlah kesalahan dalam makalahnya, ia menyatakan untuk menjalankan "kelompok yang akurat hingga titik desimal ke-3". Sulit juga mendengar apa yang dia katakan tentang semua dukun ini.

Inti dari mengungkap kesalahan-kesalahan lebih lanjut ini bukanlah untuk membuat makalah-makalah ini ditarik kembali. Saya tidak tahu apakah makalah-makalah ini benar-benar salah, atau apakah inkonsistensi yang saya temukan malah kesalahan, dan malah hanya kesalahan ketik atau kesalahpahaman di pihak saya.

Sebagian besar literatur salah, ini hanya pengingat bahwa kita perlu waspada. Ini juga merupakan pengingat harian Anda bahwa peer review tidak berguna dan semua orang malah harus terlebih dahulu mencetak pekerjaan mereka.

Saya memilih untuk membagikan contoh kecil inkonsistensi ini dalam posting blog karena itu adalah cara komunikasi ilmiah tercepat. Tetapi, seperti yang akan Anda lihat, saya sudah memiliki data yang diformat dengan baik di LaTeX dan dapat membagikan hasilnya dalam media yang lebih formal jika perlu. Saya sebenarnya ingin membagikan temuan kesalahan pizza saya secepat mungkin, tetapi kolaborator saya ingin berlatih menahan diri, menghubungi lab untuk mencoba dan mendapatkan data, mengirimkan publikasi formal, dll., Dll. Tetapi sekarang setelah preprint keluar dari belenggu mati.

MARI KITA LAKUKAN!

“Hidangan permen kantor: pengaruh kedekatan pada perkiraan dan konsumsi aktual”

Kutipan Google Cendekia: 203

Desain penelitian ini sedikit rumit. Ada 40 sekretaris, tetapi mereka dibagi menjadi 4 kelompok yang terdiri dari 10, dan selama 4 minggu, keempat kelompok itu dirotasi melalui kondisi yang berbeda. Singkat cerita, ukuran sampel 40, mereka ditanya pertanyaan gaya Likert, jadi makalah ini cocok untuk pengujian granularity.

Saat Anda memiliki data yang dilaporkan ke bilangan bulat dan ukuran sampel 40, satu-satunya pecahan desimal yang mungkin diakhiri oleh mean adalah:

.X00

.X25

.X50

.X75

Akibatnya, jika Anda mengumpulkan hanya angka-angka yang mungkin di tempat desimal kedua adalah 0, 3, 5, dan 8. Jika sebaliknya Anda melakukan pembulatan bankir Anda bisa mendapatkan 0, 2, 5, dan 8 di tempat kedua. Dan jika Anda melakukan pembulatan acak Anda bisa mendapatkan 0, 2, 3, 5, 7, 8, di tempat desimal kedua.

Di bawah ini saya mereproduksi Tabel 1 untuk kesenangan menonton Anda, dan memungkinkan pembulatan acak.

Bahkan memungkinkan untuk pembulatan acak ada sejumlah besar cara yang tidak mungkin. Jika Anda membulatkan program komputer, pembulatan tidak boleh acak, jadi apakah mereka tidak menggunakan komputer? (Itu akan menjelaskan banyak hal). Sebagai tambahan, ada beberapa standar deviasi yang mustahil.

Saya tidak tahu apa yang menyebabkan kesalahan ini, mungkin mereka kehilangan beberapa tanggapan, atau mungkin mereka melakukan perhitungan dengan tangan.

“Makan Perilaku dan Obesitas di Prasmanan Cina”

Kutipan Google Cendekia: 58

Penelitian ini cukup sederhana. Mereka mengamati kebiasaan pengunjung di berbagai prasmanan dan mengategorikan pengunjung berdasarkan BMI mereka. Satu hal yang orang mungkin tidak sadari adalah ketika Anda memberikan persen seperti 71,0% yang merupakan fraksi 0,710, yang membuat pengujian granularity sangat efektif.

“Paradoks Harga Rata-Rata: Efek Konflik dari Harga Prasmanan 'All-You-Can-Eat'”

Kutipan Google Cendekia: 57

Mari kita lakukan yang menarik. Tidak, saya tidak berbicara tentang kertas, saya berbicara tentang kesalahan;)

Tabel ini sebenarnya tidak terlalu buruk, hanya beberapa kesalahan granularity, dan mereka benar-benar mendapatkan derajat yang benar pada tes ANOVA, dan satu-satunya statistik F yang salah hampir tidak salah.

Bisakah Anda melihat di mana letak kesalahannya?

Jika Anda mengalikan “Jumlah pizza aktual yang dikonsumsi” dengan “Dolar yang dibayar per potong pizza yang dikonsumsi” Anda harus mendapatkan harga prasmanan, tetapi Anda tidak.

Prasmanan setengah harga harganya $ 2,99, sedangkan prasmanan harga reguler adalah $ 5,98.

2.95 * 1.33 = 3.92, bukan 2.99

4.09 * 1.98 = 8.10, bukan 5.98

Untuk alasan apa pun, jenis ketidakkonsistenan internal ini sangat umum dalam pekerjaan dari kelompok ini.

Tambahan 20170214:

James Lawrence menunjukkan dalam komentar bahwa inkonsistensi ini dapat dijelaskan secara matematis. Ini benar, tetapi dengan strategi itu jika pengunjung makan pizza dalam jumlah sangat kecil, mereka akan secara dramatis mengubah nilai rata-rata. Saya tidak yakin apakah tes statistik standar harus dilakukan pada data setelah transformasi nonlinier.

"Popcorn Buruk dalam Ember Besar: Ukuran Porsi Bisa Mempengaruhi Asupan Sebanyak Rasa"

Kutipan Google Cendekia: 335

Dalam kata-kata Andrew Gelman, ini adalah studi "biadab". Mereka memberi makan penonton bioskop baik popcorn segar atau 14 hari dalam dua ukuran wadah yang berbeda.

Di bawah ini adalah tabel utama dari kertas:

Jumlah penonton bioskop adalah 157, sehingga df harus 157 - 4 = 153, bukan 154. Ada juga seluruh baris dengan nilai ANOVA yang salah.

Lebih - atau kurang, tergantung pada selera Anda - yang memprihatinkan adalah bahwa seluruh kolom salah label dan label kolom “Kesegaran” hilang. Saya menganggap ini adalah kesalahan penyuntingan salinan oleh jurnal, tetapi mengingat betapa pendeknya makalah ini dan pentingnya tabel ini, Anda akan berpikir penulis akan menangkapnya dalam buktinya.

“Mangkuk Es Krim, Sendok, dan Ukuran Porsi Ilusi Es Krim”

Kutipan Google Cendekia: 259

Di sini kita memiliki studi es krim yang terkenal. Saya pikir Anda bisa menebak apa yang akan kita temukan.

Yap, kesalahan granularitas teman-teman lama kami dan statistik pengujian yang salah.

Anda akan berpikir bahwa jika mereka mendapat 0,00 untuk efek mereka mungkin melakukan pengambilan ganda.

Tebak apa?

Kami juga memiliki ketidakkonsistenan internal lagi!

"Es krim rata-rata per sendok" * "Jumlah (sendok)" harus sama dengan "Volume aktual disajikan".

Mari lihat.

Mangkuk kecil, sendok kecil:

2.00 * 2.22 = 4.44, bukan 4.38

Mangkuk kecil, sendok besar:

2.79 * 1.90 = 5.30, bukan 5.07

Mangkuk besar, sendok kecil:

2.04 * 2.94 = 6.00, bukan 5.81

Mangkuk besar, sendok besar:

3.35 * 2.09 = 7.00, bukan 6.58

Ketidakpastian pembulatan tidak dapat menjelaskan perbedaan-perbedaan ini.

Tambahan 20170214:

Seperti disebutkan dalam lampiran di atas, ada metode untuk merekonstruksi nilai-nilai ini.

“Bagaimana nama-nama makanan deskriptif bias persepsi sensorik di restoran”

Kutipan Google Cendekia: 198

Mari kita lakukan satu lagi.

Tua sama, tua sama. Jumlah total pengunjung adalah 140, namun mereka entah bagaimana melaporkan derajat sebagai 133 untuk ANOVA dua sampel sederhana.

Addendum 20170209:

Telah menarik perhatian saya bahwa ANOVA pada Tabel 1 bukanlah ANOVA dua sampel sederhana. Akibatnya, saya tidak yakin nilai apa yang seharusnya dan belum menandainya. Menariknya, dalam versi draft artikel ini derajatnya adalah 131 bukannya 133, dan semua statistik F terdaftar sebagai 5,92. Selain itu, kolega saya memberi tahu saya bahwa nilai Chi-square salah, jadi saya menandai itu merah.

Tambahan 20170323:

Kekhawatiran telah dikemukakan bahwa statistik dalam Tabel 1 dan 2 berasal dari model, dan karena itu tidak cocok untuk pengujian granularity. Jenis kepedulian ini telah dikemukakan sebelumnya, dan dari penelitian saya terhadap karya Dr. Wansink, saya perhatikan bahwa dia biasanya mencatat kapan statistik diturunkan dari model, dan sebagai hasilnya saya mengasumsikan nilai-nilai ini adalah nilai aritmatika.
Juga telah disarankan bahwa model pada Tabel 2 dapat berisi variabel dummy untuk makanan yang berbeda. Tidak jelas dari kertas jika hal ini terjadi, dan pracetak kertas tidak memiliki Tabel 2. Derajat dalam Tabel 2 menunjukkan model yang rumit digunakan, tetapi saya menduga derajat pada Tabel 2 hanya disalin dari Tabel 1.
Akibatnya, banyak dari ketidakkonsistenan yang dilaporkan ini dapat dijelaskan jika Anda ingin memberi para penulis keuntungan dari keraguan tersebut. Namun, karena ada puluhan makalah oleh Wansink yang sedang diselidiki, saya menemukan ini sulit dilakukan. Jika ternyata asumsi saya untuk makalah ini salah, saya minta maaf.

Kode untuk memeriksa statistik uji tersedia di GitHub saya dan pengujian granularity dapat dilakukan di PrePubMed.

Agar adil untuk Wansink, sesekali saya menemukan kertas yang tampaknya akurat ke "titik desimal ke-3". Saya mengatakan "sepertinya" karena tanpa akses ke set data tidak mungkin untuk mengatakan dengan pasti.

Saya akan meminta beberapa set data ini untuk mencoba dan mencari tahu apa yang terjadi, tetapi saya hanya bisa berasumsi mereka juga "sangat berpemilik".

Susan Fiske baru-baru ini menulis:

Psikologi tidak dalam krisis, bertentangan dengan rumor populer.

Mungkin kesalahan yang dilaporkan dalam posting blog ini tidak cukup untuk mengubah pikirannya. Tetapi ini hanya sebagian kecil dari kesalahan yang ditemukan dalam karya seorang peneliti.

Saya bisa melakukan ini sepanjang hari, beri saya alasan. Saya akan menunjukkan Anda krisis.