Apa Model Pemrosesan Bahasa Alami BERT dan Apa Perbedaannya Dari GPT?
Table of content:
Alat AI seperti ChatGPT telah menjadi sangat populer sejak dirilis. Alat semacam itu mendorong batas pemrosesan bahasa alami (NLP), sehingga memudahkan AI untuk melakukan percakapan dan memproses bahasa seperti orang yang sebenarnya.
Seperti yang Anda ketahui, ChatGPT mengandalkan model Generative Pre-trained Transformer (GPT). Namun, itu bukan satu-satunya model terlatih di luar sana.
Pada tahun 2018, para insinyur di Google mengembangkan BERT (Bidirectional Encoder Representation from Transformers), model pembelajaran mendalam pra-pelatihan yang dirancang untuk memahami konteks kata dalam kalimat, memungkinkannya melakukan tugas seperti analisis sentimen, menjawab pertanyaan, dan pengenalan entitas bernama dengan akurasi tinggi.
Apa itu BERT?
BERT adalah model pembelajaran mendalam yang dikembangkan oleh Penelitian AI Google yang menggunakan pembelajaran tanpa pengawasan untuk memahami pertanyaan bahasa alami dengan lebih baik. Model ini menggunakan arsitektur transformer untuk mempelajari representasi dua arah dari data teks, yang memungkinkannya untuk lebih memahami konteks kata dalam kalimat atau paragraf.
Ini memudahkan mesin untuk menafsirkan bahasa manusia seperti yang diucapkan dalam kehidupan sehari-hari. Penting untuk disebutkan bahwa komputer secara historis merasa sulit untuk memproses bahasa, terutama memahami konteksnya.
Tidak seperti model pemrosesan bahasa lainnya, BERT dilatih untuk melakukan lebih dari 11 tugas NLP umum, menjadikannya pilihan yang sangat populer di kalangan pembelajaran mesin.
Jika dibandingkan dengan model trafo populer lainnya seperti GPT-3, BERT memiliki keunggulan tersendiri: bersifat dua arah dan, dengan demikian, mampu mengevaluasi konteks dari kiri ke kanan dan kanan ke kiri. GPT-3.5 dan GPT-4 hanya mempertimbangkan konteks kiri ke kanan, sedangkan BERT melayani keduanya.
Model bahasa seperti GPT menggunakan konteks searah untuk melatih model, memungkinkan ChatGPT melakukan beberapa tugas. Secara sederhana, model ini menganalisis konteks input teks dari kiri ke kanan atau, dalam beberapa kasus, dari kanan ke kiri. Namun, pendekatan searah ini memiliki keterbatasan dalam pemahaman teks, menyebabkan ketidakakuratan dalam output yang dihasilkan.
Pada dasarnya, ini berarti bahwa BERT menganalisis konteks penuh kalimat sebelum memberikan jawaban. Namun, perlu disebutkan bahwa GPT-3 dilatih pada korpus teks yang jauh lebih besar (45TB) dibandingkan dengan BERT (3TB).
BERT Adalah Model Bahasa Bertopeng
Hal penting yang perlu diketahui di sini adalah bahwa BERT mengandalkan masking untuk memahami konteks kalimat. Saat memproses sebuah kalimat, ia menghilangkan bagian-bagiannya dan bergantung pada model untuk memprediksi dan melengkapi celahnya.
Ini memungkinkannya untuk “memprediksi” konteksnya, pada dasarnya. Dalam kalimat di mana satu kata dapat memiliki dua arti yang berbeda, ini memberikan model bahasa bertopeng keuntungan yang berbeda.
Bagaimana BERT Bekerja?
BERT dilatih pada kumpulan data lebih dari 3,3 miliar kata (mengandalkan Wikipedia hingga 2,5 miliar kata) dan BooksCorpus dari Google untuk 800 juta kata.
Konteks dua arah BERT yang unik memungkinkan pemrosesan teks secara bersamaan dari kiri ke kanan dan sebaliknya. Inovasi ini meningkatkan pemahaman model tentang bahasa manusia, memungkinkannya untuk memahami hubungan kompleks antara kata dan konteksnya.
Elemen dua arah telah memposisikan BERT sebagai model transformator revolusioner, yang mendorong peningkatan luar biasa dalam tugas NLP. Lebih penting lagi, ini juga membantu menguraikan kehebatan alat yang menggunakan kecerdasan buatan (AI) untuk memproses bahasa.
Efektivitas BERT bukan hanya karena bidirectionality-nya tetapi juga karena cara pra-pelatihannya. Fase pra-pelatihan BERT terdiri dari dua langkah penting, yaitu model bahasa bertopeng (MLM) dan prediksi kalimat berikutnya (NSP).
Sementara sebagian besar metode pra-pelatihan menutupi elemen urutan individu, BERT menggunakan MLM untuk secara acak menutupi persentase token input dalam kalimat selama pelatihan. Pendekatan ini memaksa model untuk memprediksi kata-kata yang hilang, dengan mempertimbangkan konteks dari kedua sisi kata yang disamarkan—karenanya bersifat dua arah.
Kemudian, selama NSP, BERT belajar memprediksi apakah kalimat X benar-benar mengikuti kalimat Y. Kemampuan ini melatih model untuk memahami hubungan kalimat dan konteks keseluruhan, yang pada gilirannya berkontribusi pada keefektifan model.
BERT Penyetelan Halus
Setelah pra-pelatihan, BERT beralih ke fase penyempurnaan, di mana model diadaptasi ke berbagai tugas NLP, termasuk analisis sentimen, pengenalan entitas bernama, dan sistem tanya jawab. Penyempurnaan melibatkan pembelajaran yang diawasi, memanfaatkan kumpulan data berlabel untuk meningkatkan kinerja model untuk tugas tertentu.
Pendekatan pelatihan BERT dianggap “universal” karena memungkinkan arsitektur model yang sama menangani tugas yang berbeda tanpa perlu modifikasi ekstensif. Keserbagunaan ini adalah alasan lain popularitas BERT di kalangan penggemar NLP.
Misalnya, BERT digunakan oleh Google untuk memprediksi permintaan pencarian dan memasukkan kata-kata yang hilang, terutama dalam hal konteks.
Untuk Apa BERT Biasa Digunakan?
Sementara Google menggunakan BERT di mesin pencarinya, ia memiliki beberapa aplikasi lain:
Analisis Sentimen
Analisis sentimen adalah aplikasi inti NLP yang berhubungan dengan mengklasifikasikan data teks berdasarkan emosi dan opini yang tertanam di dalamnya. Ini sangat penting dalam berbagai bidang, mulai dari memantau kepuasan pelanggan hingga memprediksi tren pasar saham.
BERT bersinar dalam domain ini, karena menangkap esensi emosional dari masukan tekstual dan secara akurat memprediksi sentimen di balik kata-kata tersebut.
Peringkasan Teks
Karena sifat dua arah dan mekanisme perhatiannya, BERT dapat memahami setiap iota konteks tekstual tanpa kehilangan informasi penting. Hasilnya adalah ringkasan koheren berkualitas tinggi yang secara akurat mencerminkan konten penting dari dokumen masukan.
Pengakuan Entitas Bernama
Pengenalan entitas bernama (NER) adalah aspek penting lain dari NLP yang ditujukan untuk mengidentifikasi dan mengkategorikan entitas seperti nama, organisasi, dan lokasi dalam data teks.
BERT benar-benar transformatif dalam ruang NER, terutama karena kemampuannya untuk mengenali dan mengklasifikasikan pola entitas yang kompleks—bahkan ketika disajikan dalam struktur teks yang rumit.
Sistem Penjawab Pertanyaan
Pemahaman dan landasan kontekstual BERT dalam penyandi dua arah membuatnya mahir dalam mengekstraksi jawaban akurat dari kumpulan data besar.
Itu dapat secara efektif menentukan konteks pertanyaan dan menemukan jawaban yang paling cocok dalam data teks, kemampuan yang dapat dimanfaatkan untuk chatbot tingkat lanjut, mesin pencari, dan bahkan asisten virtual.
Terjemahan Mesin melalui BERT
Terjemahan mesin adalah tugas NLP penting yang telah diperbaiki BERT. Arsitektur transformator dan pemahaman konteks dua arah berkontribusi untuk memecahkan hambatan dalam menerjemahkan dari satu bahasa ke bahasa lain.
Sementara terutama berfokus pada bahasa Inggris, varian multibahasa BERT (mBERT) dapat diterapkan pada masalah terjemahan mesin untuk berbagai bahasa, membuka pintu ke platform dan media komunikasi yang lebih inklusif.
AI dan Pembelajaran Mesin Terus Mendorong Batasan Baru
Ada sedikit keraguan bahwa model seperti BERT mengubah permainan dan membuka jalan penelitian baru. Namun, yang lebih penting, alat tersebut dapat dengan mudah diintegrasikan ke dalam alur kerja yang ada.