Alphago : Lawan juara dunia dan jadi juara dunia
AlphaGo adalah program komputer
yang memainkan board game Go . Dikembangkan oleh DeepMind Technologies yang
kemudian diakuisisi oleh Alphabet Inc 's Google . AlphaGo memiliki tiga penerus
yang jauh lebih kuat, yang disebut AlphaGo Master , AlphaGo Zero dan AlphaZero
.
Pada Oktober 2015, AlphaGo asli menjadi program Go komputer
pertama yang mengalahkan pemain Go profesional manusia tanpa cacat di papan
berukuran 19x19. Pada bulan Maret 2016, ia mengalahkan Lee Sedol dalam five-game
match , pertama kali program Go komputer telah mengalahkan 9-dan profesional
tanpa cacat. Meskipun kalah dari Lee Sedol pada pertandingan keempat, Lee
mengundurkan diri pada akhir pertandingan, memberikan skor akhir dari 4 game ke
1 pada AlphaGo.
Sebagai pengakuan atas kemenangan tersebut, AlphaGo
dianugerahi penghargaan 9-dan oleh Asosiasi Baduk Korea . Pertandingannya
melawan Lee Sedol didokumentasikan dalam sebuah film dokumenter yangjuga
berjudul AlphaGo yang disutradarai oleh Greg Kohs.
Pada Future of Go Summit 2017,
penggantinya AlphaGo yaitu AlphaGo Master mengalahkan Ke Jie (seorang pemain
peringkat No.1 di dunia pada saat itu) dalam three-game match (Sebenarnya AlphaGo
Zero yang lebih kuat sudah ada tetapi belum diumumkan). Setelah ini, AlphaGo
dianugerahi professional 9-dan oleh Asosiasi Weiqi Cina.
Pada tahun
2016, algoritma AlphaGo menggunakan kombinasi Machine learning dan teknik Tree
search , dikombinasikan dengan pelatihan yang ekstensif, baik dari permainan
manusia dan komputer. Algotitmanya menggunakan Monte Carlo tree search, dipandu
oleh "Value network" dan "Policy network" keduanya
diimplementasikan menggunakan teknologi Deep neural network. Sejumlah fitur terbatas pada game tertentu
yaitu pra-pemrosesan deteksi (misalnya, untuk menyorot apakah gerakan cocok
dengan pola nakade ) diterapkan pada input sebelum dikirim ke Neural network.
Sistem Neural Network awalnya
dibooting dari keahlian gameplay manusia. AlphaGo awalnya dilatih untuk meniru
permainan manusia dengan mencoba untuk mencocokkan pergerakan pemain ahli dari
game bersejarah yang direkam menggunakan database sekitar 30 juta gerakan. Setelah
mencapai tingkat kemahiran tertentu, ia dilatih lebih lanjut dengan ditetapkan
untuk memainkan sebagian besar permainan untuk melawan tiruan dirinya sendiri
menggunakan pembelajaran penguatan (Reinforcement Learning) untuk meningkatkan
permainannya. Untuk menghindari "Perilaku tidak sopan" membuang-buang
waktu lawannya, program ini secara khusus diprogram untuk mengundurkan diri
jika penilaian probabilitas menang jatuh di bawah ambang batas tertentu; untuk
pertandingan melawan Lee, ambang batas pengunduran diri ditetapkan menjadi 20%.
Setelah pertandingan antara
AlphaGo dan Ke Jie, DeepMind mempensiunkan AlphaGo, sambil melanjutkan
penelitian AI di bidang lain. Dimulai dari 'halaman kosong', dengan hanya
periode latihan singkat, AlphaGo Zero meraih kemenangan 100 - 0 melawan AlphaGo
yang mengalahkan juara, sementara penggantinya, AlphaZero saat ini dianggap
sebagai pemain Go terbaik di dunia dan juga pada catur.
Komentar
Posting Komentar