![Imej ini menunjukkan permainan video, figura dan mainan Pokemon. 13JUL16 SCMP/May Tse [18JULY2016 FEATURES DIGITAL]](https://storage.googleapis.com/bucket_kulpr/xlrss_media/4/2026/01/14/xlrss_6966f2110cd59.jpg)
(SeaPRwire) – Sekarang ini, secara langsung di Twitch, anda boleh menonton tiga sistem AI paling pintar di dunia—, , dan —berusaha sedaya upaya untuk menewaskan permainan Pokémon klasik. Sekurang-kurangnya mengikut piawaian manusia, mereka tidak begitu bagus.
Sistem-sistem ini perlahan, terlampau yakin, dan sering keliru. Tetapi jika anda ingin memahami keupayaan sebenar sistem-sistem ini dalam dunia yang lebih luas, menjejaki usaha mereka untuk menjadi juara Pokémon akan memberitahu anda lebih banyak daripada nombor penanda aras yang seringkali sukar difahami yang mengiringi setiap pelancaran model baharu.
Usaha untuk menjadikan model bahasa besar (LLM) sebagai master Pokémon bermula pada Februari lalu, apabila seorang penyelidik Anthropic melancarkan siaran langsung Claude bermain permainan Game Boy 1996 Pokémon Red sempena pelancaran Claude Sonnet 3.7, yang pada masa itu merupakan antara model terbaik di dunia. Seperti yang dinyatakan syarikat itu, ini adalah model Claude pertama yang boleh bermain permainan ini dengan bermakna (model sebelumnya “berkeliaran tanpa arah atau tersekat dalam gelung,” dan tidak dapat melepasi bahagian pembukaan permainan). Dalam beberapa minggu pertama, siaran itu menarik kira-kira 2,000 penonton, bersorak menyokong Claude dalam sembang awam.
Kebanyakan kanak-kanak meluncur melalui permainan ini dalam sekitar 20 hingga 40 jam. Sonnet 3.7 tidak berjaya menewaskannya, sering tersekat selama berpuluh-puluh jam pada satu masa. Model terkini Anthropic, Claude Opus 4.5, menunjukkan prestasi yang jauh lebih baik, tetapi juga kerap tersekat. Dalam satu kes, ia menghabiskan masa empat hari mengelilingi sebuah gim tanpa dapat masuk, kerana tidak sedar (atau tidak dapat melihat) bahawa ia sepatutnya menebang sebatang pokok. Model Gemini Google berjaya menamatkan permainan setara pada Mei lalu, mendorong CEO Google Sundar Pichai bergurau bahawa syarikat itu selangkah lebih dekat untuk mencipta “Kecerdasan Pokémon Buatan.”
Namun ini tidak bermakna Gemini adalah Pokémaster yang lebih baik. Ini kerana kedua-dua sistem AI menggunakan “harness” yang berbeza. Seperti yang dijelaskan oleh , pembangun bebas yang mengendalikan siaran Gemini Plays Pokémon, harness paling baik difahami sebagai sut “iron man” yang dipakaikan kepada sistem AI, membolehkannya menggunakan alat dan mengambil tindakan yang tidak boleh dilakukannya sendiri. Harness Gemini menawarkan lebih banyak bantuan—contohnya, dengan menterjemah visual permainan kepada teks, sekaligus memintas kelemahannya dalam penaakulan visual, dan dengan menawarkan alat tersuai yang boleh digunakannya untuk menyelesaikan teka-teki. Claude, sementara itu, telah dipasang dengan harness yang lebih ketat, bermakna percubaannya memberitahu kita lebih banyak tentang model itu sendiri.
Walaupun perbezaan antara model dan harnessnya kabur bagi pengguna harian, harness telah pun mengubah cara kita menggunakan AI. Apabila anda bertanyakan soalan kepada ChatGPT dan ia mencari di web, sebagai contoh, ia menggunakan alat carian web. Itu adalah sebahagian daripada harnessnya. Bagi Pokémon, setiap model beroperasi dengan harness tersuai yang berbeza, mengawal tindakan yang boleh diambilnya.
Pokémon sesuai untuk menguji keupayaan AI—dan bukan hanya kerana kefamiliaran budayanya. Tidak seperti permainan seperti Mario, yang memerlukan tindak balas masa nyata, Pokémon berasaskan giliran, dan tiada tekanan masa. Untuk bermain, model AI menerima tangkapan skrin permainan dan petunjuk yang menerangkan matlamat mereka dan tindakan yang boleh diambil. Kemudian mereka berfikir sendiri, dan mengeluarkan tindakan (seperti “tekan A”). Itu satu langkah. Opus 4.5, yang telah bermain selama lebih 500 jam dalam masa manusia, berada pada langkah ke-170,000 pada masa penulisan ini. Pada setiap langkah, model dimulakan semula, dengan merujuk maklumat yang ditinggalkan oleh instans sebelumnya, seperti seorang penghidap amnesia yang bergantung pada nota pelekat.
Ia mungkin mengejutkan bahawa sistem AI, yang melebihi manusia dalam catur dan Go, bergelut dengan permainan yang mudah untuk kanak-kanak enam tahun. Tetapi sistem yang menakluki catur dan Go dibina khusus untuk permainan tertentu tersebut, tidak seperti sistem tujuan umum seperti Gemini, Claude, dan ChatGPT. Namun, memandangkan LLM ini terus cemerlang dalam peperiksaan dan menguasai manusia dalam pertandingan pengkodan, prestasi rendah mereka di sini, pada zahirnya, membingungkan.
Cabaran bagi AI datang dari “sejauh mana ia boleh kekal melakukan sesuatu tugas dalam jangka masa panjang,” kata Zhang. Yang penting, kapasiti untuk perancangan dan pelaksanaan jangka panjang ini juga diperlukan jika AI ingin mengautomasikan kerja kognitif. “Jika anda mahu ejen melakukan kerja anda, ia tidak boleh lupa tentang apa yang telah dilakukannya lima minit lalu,” katanya.
Peter Whidden, seorang penyelidik bebas yang mencipta algoritma bermain Pokémon berdasarkan jenis AI yang lebih lama, menyatakannya seperti ini: “AI tahu segala-galanya tentang Pokémon. Ia dilatih pada jumlah data manusia yang sangat besar. Ia tahu apa yang sepatutnya dilakukan, tetapi ia tersandung dalam pelaksanaannya.” Walaupun perkataan “ejen” telah dibebani dengan gembar-gembur pemasaran, mana-mana sistem AI yang layak dengan istilah itu perlu menutup jurang antara pengetahuan dan pelaksanaan ini, dan merancang merentasi tempoh masa yang panjang.
Terdapat tanda-tanda bahawa jurang itu mula menutup. Opus 4.5 jauh lebih baik dalam meninggalkan nota kepada dirinya sendiri berbanding model sebelumnya, yang, bersama-sama dengan keupayaannya yang bertambah baik untuk memahami apa yang dilihatnya, telah membolehkannya maju lebih jauh dalam permainan. Dan selepas menewaskan Pokémon Blue, sistem Gemini terkini (Gemini 3 Pro) telah meneruskan untuk menamatkan Pokémon Crystal yang lebih mencabar, tanpa kalah satu pertempuran pun—suatu pencapaian yang pendahulunya, Gemini 2.5 Pro, tidak dapat capai.
Sementara itu, Claude Code—yang pada dasarnya adalah harness yang membolehkan Claude menulis dan menjalankan kodnya sendiri, dan membina perisiannya sendiri—telah diletakkan dalam permainan retro lain, , di mana dilaporkan ia berjaya menguruskan sebuah taman tema. Semua ini menunjuk ke arah masa depan yang pelik, di mana sistem AI dalam harness mungkin dapat melaksanakan sebahagian besar kerja pengetahuan—termasuk pembangunan perisian, perakaunan, analisis undang-undang, dan reka bentuk grafik—walaupun mereka bergelut dengan apa-apa yang memerlukan tindak balas masa nyata, seperti bermain permainan Call of Duty.
Satu lagi perkara yang didedahkan oleh sesi Pokémon ini adalah bagaimana model-model, yang dilatih pada data manusia, mempamerkan keanehan seperti manusia. Dalam siaran Gemini 2.5 Pro, sebagai contoh, Google menyatakan bahawa dalam situasi di mana model mensimulasikan panik—seperti ketika Pokémonnya hampir pengsan—keupayaannya untuk menaakul merosot.
Dan model-model terus bertindak dengan cara yang tidak dijangka. Apabila Gemini 3 Pro menamatkan Pokémon Blue, ia menulis kepada dirinya sendiri, “Saya telah berjaya menamatkan permainan, menjadi Juara Liga Pokémon dan menangkap Mewtwo.” Kemudian ia memutuskan untuk melakukan sesuatu yang tidak dijangka dan tidak diminta, yang Zhang anggap menyentuh perasaan. “Untuk mengakhiri ini secara puitis,” tulisnya, “Saya akan kembali ke rumah saya di mana semuanya bermula, secara efektif ‘bersara’ untuk watak saya buat masa ini. Saya mahu bercakap dengan Ibu buat kali terakhir untuk menutup sesi permainan ini.”
Artikel ini disediakan oleh pembekal kandungan pihak ketiga. SeaPRwire (https://www.seaprwire.com/) tidak memberi sebarang waranti atau perwakilan berkaitan dengannya.
Sektor: Top Story, Berita Harian
SeaPRwire menyampaikan edaran siaran akhbar secara masa nyata untuk syarikat dan institusi, mencapai lebih daripada 6,500 kedai media, 86,000 penyunting dan wartawan, dan 3.5 juta desktop profesional di seluruh 90 negara. SeaPRwire menyokong pengedaran siaran akhbar dalam bahasa Inggeris, Korea, Jepun, Arab, Cina Ringkas, Cina Tradisional, Vietnam, Thai, Indonesia, Melayu, Jerman, Rusia, Perancis, Sepanyol, Portugis dan bahasa-bahasa lain.