Kecerdasan buatan telah mengambil langkah luar biasa ke depan, dan mungkin salah satu contoh yang paling menonjol adalah dalam bidang pemrosesan bahasa alami (Natural Language Processing/NLP). Pengguna Internet mungkin tahu bahwa model bahasa terpopuler saat ini adalah chatGPT yang dikembangkan OpenAI. ChatGPT dikembangkan dari model terdahulunya yaitu GPT-3, GPT sendiri merupakan kependekan dari Generative Pretrained Transformer.

Perhatikan kata belakangnyanya Transformer.

Ini adalah sebuah teknologi yang sama yang digunakan oleh Google dalam mesin pencarinya beberapa tahun lalu yaitu Bidirectional Encoder Representations from Transformers (BERT)

Jika anda ingin belajar semantik, tentunya ini menjadi kata kunci yang menarik bagaimana teknologi ini menjadi dasar Transformer dari hubungan manusia dan mesin.

So dalam artikel ini kita akan bahas sekilas tentang Transformer

Catatan: Artikel ini untuk pengguna tingkat lanjut, untuk Tech/Content/SEO Enthusiast yang ingin belajar lebih dalam tentang A.I dan Content.

Awal Mula Transformer

ChatGPT memanfaatkan model Transformer, sebuah arsitektur yang diperkenalkan dalam makalah “Attention is All You Need” oleh Vaswani dan rekan, 2017. Makalah ini menandai pergeseran paradigma dari jaringan saraf berulang (Recurrent Neural Networks/RNN), yang sebelumnya mendominasi teknologi NLP.

Jika anda perhatikan, teknologi Transformer sebagian besar dihasilkan oleh tim A.I dari Google. Jadi chatGPT dasar teknologinya juga dari Google ? menurut saya iya… :), 6 tahun sejak menjadi open source, lahirlah ChatGPT. Google menyesal ? mungkin ya , mungkin juga tidak ? yang jelas menurut saya teknologi ini sudah dikembangkan juga dalam Google walaupun tidak dikembangkan secara serius. Coba cari berita tentang Lamda tahun 2020, itu adalah implementasi conversational AI dari Google, jauh sebelum chatGPT lahir.

Konsep dan Cara Kerja Transformer

Arsitektur Transformer pada intinya adalah struktur encoder-decoder yang dirancang untuk tugas urutan-ke-urutan. Namun, berbeda dengan model urutan-ke-urutan tradisional, arsitektur ini sepenuhnya mengandalkan mekanisme perhatian (attention mechanisms) dan lapisan-lapisan sepenuhnya terhubung (fully connected layers) untuk pemrosesan, dengan mengabaikan sepenuhnya rekurensi (konsep dalam pemrosesan data yang melibatkan penggunaan hasil pemrosesan sebelumnya sebagai masukan untuk pemrosesan selanjutnya) dan konvolusi (operasi matematis yang diterapkan pada dua set data untuk menghasilkan set data baru.).

ChatGPT dan Google Bard hanya menggunakan bagian decoder dari model Transformer asli, jika anda memahami arsitektur lengkapnya dapat memberikan dasar yang kokoh.

Encoder pada Transformer

Encoder Transformer terdiri dari rangkaian lapisan-lapisan yang identik, masing-masing memiliki dua komponen utama: mekanisme multi-head perhatian diri (multi-head self-attention) dan mekanimse jaringan feed-forward yang terhubung secara posisi (position-wise fully connected feed-forward network).

Mekanisme perhatian diri memungkinkan model untuk menimbang pentingnya kata-kata yang berbeda dalam masukan sebelum menghasilkan keluaran. Mekanisme multi-head memungkinkan model untuk fokus pada posisi-posisi yang berbeda secara simultan, sehingga menangkap berbagai aspek dari masukan.

Fase-fase / Lapisan sepenuhnya terhubung secara posisi sebenarnya adalah dua transformasi linear dengan aktivasi hubungan seperti jaringan saraf di antaranya.

Setiap sub-lapisan (Perhatian Multi-Head dan Jaringan Saraf Feed Forward) memiliki koneksi residual di sekitarnya, diikuti oleh normalisasi lapisan. Hal ini membantu dalam melatih model yang lebih dalam.

Decoder pada Transformer

Decoder juga terdiri dari rangkaian lapisan-lapisan yang identik. Selain dua sub-lapisan yang ada di encoder, decoder menambahkan sub-lapisan ketiga yang melakukan perhatian multi-head terhadap keluaran encoder.

Sama seperti pada encoder, setiap sub-lapisan ini juga memiliki koneksi residual diikuti oleh normalisasi lapisan.

Pembekuan Posisi

Karena model Transformer tidak melibatkan operasi rekurensi atau konvolusi, tidak ada pemahaman inheren tentang urutan atau posisi kata-kata dalam urutan tersebut. Untuk mengatasi hal ini, model menyisipkan informasi posisional menggunakan pengkodean posisional, ditambahkan ke embedding masukan pada bagian bawah rangkaian encoder dan decoder.

ChatGPT dan Google Bard: Decoder Transformer

ChatGPT menggunakan versi modifikasi dari model Transformer, hanya menggunakan bagian decoder dan mengabaikan encoder. Pilihan untuk menggunakan arsitektur decoder saja didasarkan pada tujuannya: pemodelan bahasa adalah tugas unidireksional.

Pada model GPT, setiap token dalam urutan masukan memperhatikan semua token sebelumnya dalam urutan, sehingga sangat cocok untuk pemodelan bahasa di mana prediksi token masa depan hanya bergantung pada token sebelumnya.

Melatih ChatGPT

Pelatihan model ChatGPT dilakukan dalam dua tahap: pra-pelatihan dan penyesuaian halus.

Selama tahap pra-pelatihan / pre training, ChatGPT belajar memprediksi token selanjutnya dalam sebuah kalimat dengan mempelajari korpus teks internet yang sangat luas. Model ini tidak mengetahui detail tentang dokumen mana yang merupakan bagian dari set pelatihannya atau memiliki akses ke sumber data lain selain input yang diberikan selama percakapan.

Selama tahap penyesuaian halus / fine tuning, ChatGPT dilatih dengan menggunakan dataset khusus yang dibuat oleh OpenAI, yang mencakup demonstrasi perilaku yang benar dan perbandingan dari berbagai respon. Beberapa rangsangan yang digunakan dalam tahap ini berasal dari interaksi pengguna yang dianonimkan dengan Playground dan aplikasi ChatGPT.

Ringkasan

Arsitektur Transformer dan adaptasinya dalam model GPT seperti ChatGPT telah merevolusi bidang NLP, memungkinkan kemampuan percakapan yang lebih lancar dan mirip dengan manusia. Meskipun kita hanya menyentuh permukaannya, mekanisme internal model-model ini melibatkan berbagai detail rumit dan konsep yang menarik. Seiring perkembangan AI, arsitektur Transformer tanpa ragu akan terus memainkan peran kunci dalam membentuk bidang yang menarik ini.

Dalam tahap ini kita bisa lihat kesimpulan penting dari belajar tentang Transformer dan Semantic

  • Transformer bergantung pada urutan kata
  • Transformer tidak memiliki perhitungan logis dan analisa. Hanya model yang mempelajari pola teks yang sangat luas. Itulah juga mengapa conversational AI bisa menjadi sangat berbahaya, Karena semua output hanya berdasar pola kata terhubung (semantic, nlp)

TINGGALKAN KOMENTAR

Silakan masukkan komentar anda!
Silakan masukkan nama Anda di sini