Apakah ChatGPT Semakin Bodoh? OpenAI Mengatakan Tidak
Table of content:
Jika Anda telah membaca subreddit ChatGPT Twitter atau Reddit, Anda akan melihat satu pertanyaan yang diajukan lebih dari yang lain: apakah ChatGPT semakin bodoh?
Apakah kinerja chatbot AI generatif terkemuka dunia menurun seiring berjalannya waktu, atau apakah jutaan pengguna ChatGPT secara kolektif berhalusinasi tentang masalah kualitas?
Apakah ChatGPT Semakin Memburuk?
Banyak pengguna ChatGPT bertanya-tanya: apakah ChatGPT semakin bodoh? OpenAI sering merilis pembaruan untuk ChatGPT yang dirancang untuk menyesuaikan respons, keamanan, dan lainnya, menggunakan umpan balik pengguna, petunjuk, dan data pengguna untuk menginformasikan arahnya.
Namun saat ChatGPT terasa seperti solusi jenius untuk hampir semua masalah saat diluncurkan, semakin banyak pengguna yang melaporkan masalah dengan tanggapan dan keluarannya. Yang paling diperhatikan adalah keterampilan penalaran, pengkodean, dan matematika ChatGPT, meskipun yang lain mencatat bahwa ia juga berjuang dengan tugas-tugas kreatif.
Cara termudah bagi sebagian besar pengguna ChatGPT untuk memeriksa bagaimana tanggapannya telah berubah dari waktu ke waktu adalah dengan mengulangi prompt yang digunakan sebelumnya (sebaiknya dari hari-hari awal ChatGPT) dan menganalisis kedua output tersebut.
Respons yang memerlukan keluaran khusus, seperti yang melibatkan pengkodean dan matematika, kemungkinan paling mudah untuk dibandingkan secara langsung.
Stanford Study Menyarankan Pengantaran ChatGPT
Kelompok riset gabungan Universitas Stanford dan UC Berkley percaya bahwa perasaan yang diubah oleh ChatGPT mungkin benar. Makalah Lingjiao Chen, Matei Zaharia, dan James Zou Bagaimana Perilaku ChatGPT Berubah Seiring Waktu? [PDF] adalah salah satu studi mendalam pertama tentang perubahan kemampuan ChatGPT.
Ringkasan laporan menjelaskan:
Kami menemukan bahwa kinerja dan perilaku GPT-3.5 dan GPT-4 dapat sangat bervariasi dari waktu ke waktu. Misalnya, GPT-4 (Maret 2023) sangat bagus dalam mengidentifikasi bilangan prima (akurasi 97,6%) tetapi GPT-4 (Juni 2023) sangat buruk dalam pertanyaan yang sama (akurasi 2,4%). Menariknya, GPT-3.5 (Juni 2023) jauh lebih baik daripada GPT-3.5 (Maret 2023) dalam tugas ini. GPT-4 kurang bersedia untuk menjawab pertanyaan sensitif di bulan Juni daripada di bulan Maret, dan baik GPT-4 maupun GPT-3.5 memiliki lebih banyak kesalahan pemformatan dalam pembuatan kode di bulan Juni daripada di bulan Maret.
Saat diberikan soal matematika yang sebelumnya bisa diselesaikan ChatGPT di awal tahun 2023, tanggapan di akhir tahun sangat tidak akurat. Lebih lanjut, ChatGPT menjelaskan dengan detail mengapa jawabannya benar meski salah. Contoh halusinasi AI bukanlah hal baru, tetapi angka-angka di bagan di bawah menunjukkan perubahan signifikan dalam keseluruhan penalaran.
Bagan menunjukkan tanggapan ChatGPT melayang, lebih jauh ditekankan oleh laporan tersebut.
Akurasi GPT-4 turun dari 97,6% di bulan Maret menjadi 2,4% di bulan Juni, dan ada peningkatan besar dalam akurasi GPT-3.5, dari 7,4% menjadi 86,8%. Selain itu, respons GPT-4 menjadi jauh lebih kompak: verbositas rata-ratanya (jumlah karakter yang dihasilkan) menurun dari 821,2 di bulan Maret menjadi 3,8 di bulan Juni. Di sisi lain, ada pertumbuhan sekitar 40% dalam panjang respons GPT-3.5. Jawaban tumpang tindih antara versi Maret dan Juni juga kecil untuk kedua layanan.
Laporan tersebut menjelaskan bahwa rantai pemikiran model bahasa besar ChatGPT “tidak berfungsi” saat diberikan pertanyaan pada bulan Juni. Penyimpangan percakapan selalu menjadi masalah penting dengan LLM, tetapi variasi tanggapan yang ekstrem menunjukkan masalah kinerja dan perubahan pada ChatGPT.
Apakah ChatGPT Semakin Memburuk? OpenAI Mengatakan Tidak
Apakah hanya kebetulan bahwa pengguna ChatGPT biasa dan produktif memperhatikan perubahan kualitas ChatGPT?
Makalah penelitian tidak menyarankan, tetapi OpenAI VP for Product, Peter Welinder, menyarankan sebaliknya.
Selanjutnya, Welinder kemudian menunjuk ke rilis OpenAI untuk ChatGPT dan aliran pembaruan konstan yang telah diberikan perusahaan sepanjang tahun 2023.
Namun, itu tidak menghentikan banyak tanggapan atas tweetnya yang merinci bagaimana pengguna menganggap tanggapan ChatGPT diinginkan, dengan banyak yang meluangkan waktu untuk membubuhi keterangan permintaan dan tanggapan.
Bisakah OpenAI Mengembalikan ChatGPT ke Keadaan Aslinya?
Hari-hari awal ChatGPT tampak jauh sekarang; November 2022 adalah kenangan yang kabur, dan dunia AI bergerak cepat.
Bagi banyak orang, studi Stanford/Berkeley dengan sempurna mengilustrasikan masalah dan frustrasi dalam menggunakan ChatGPT. Yang lain mengklaim tweak dan perubahan yang dilakukan pada ChatGPT untuk menjadikannya alat yang lebih aman dan lebih inklusif juga secara langsung mengubah kemampuannya untuk bernalar dengan benar, merusak pengetahuan dan kemampuannya secara keseluruhan hingga tidak dapat digunakan.
Tampaknya ada sedikit keraguan bahwa ChatGPT telah berubah. Apakah ChatGPT akan mendapatkan kembali kekuatan aslinya adalah pertanyaan lain.