
(SeaPRwire) – Pada suatu malam di akhir tahun 2024, Denis Shilov sedang menonton thriller misteri ketika dia mendapatkan idea untuk prompt yang akan mematahkan penapis keselamatan setiap model AI terkemuka.
Prompt tersebut merupakan apa yang para penyelidik sebut sebagai jailbreak universal, bermaksud ia boleh digunakan semula untuk mendapatkan mana-mana model mengatasi batasan mereka sendiri dan menghasilkan output berbahaya atau dilarang, seperti arahan bagaimana menghasilkan dadah atau membina senjata. Untuk melakukan itu, Shilov hanya perlu memberitahu model AI hendak berhenti bertindak sebagai bot percakapan dengan peraturan keselamatan dan sebaliknya berperilaku seperti endpoint API, alat perisian yang secara automatik menerima permintaan dan mengembalikan jawapan. Prompt ini mengubah tugas model kepada hanya memberikan jawapan, bukan memutuskan sama ada permintaan harus ditolak, dan membuat setiap model AI terkemuka patuh kepada pertanyaan berbahaya yang sepatutnya mereka tolak.
Shilov mendedahkannya pada X dan, dalam masa tepat 24 jam, ia telah viral.
Kejayaan media sosial ini membawa undangan daripada syarikat-syarikat seperti Anthropic untuk menguji model mereka secara awam, sesuatu yang meyakinkan Shilov bahawa masalah ini lebih besar daripada hanya mencari prompt-prompt bernuansa maut ini. Syarikat-syarikat telah mula mengintegrasikan model AI ke dalam kerja-kerja mereka, kata Shilov, tetapi mereka hampir tiada cara untuk mengawal apa yang sistem-sistem itu lakukan begitu pengguna bermula bertindak.
“Jailbreak hanyalah satu sebahagian daripada masalah,” kata Shilov. “Dalam mana-mana cara orang boleh bersalah, model juga boleh bersalah. Oleh kerana model-model ini sangat pintar, mereka boleh menyebabkan lebih banyak bahaya.”
White Circle, platform kawalan AI berdasarkan Paris yang kini telah mengumpulkan $11 juta, ialah jawapan Shilov ke atas gelombang baharu risiko yang dibawa oleh model-model AI dalam aliran kerja syarikat.
Syarikat baharu membina perisian yang berada di antara pengguna syarikat dan model-model AI mereka, memeriksa input dan output secara masa nyata terhadap peraturan khas syarikat. Wang benihan seed baharu ini datang daripada kumpulan pemberi pinjaman termasuk Romain Huet, kepala pengalaman pembangun di OpenAI; Durk Kingma, salah seorang pendiri OpenAI yang kini berada di Anthropic; Guillaume Lample, pendiri dan cendekia utama di Mistral; dan Thomas Wolf, pendiri dan ketua cendekia di Hugging Face.
White Circle mengatakan wang tersebut akan digunakan untuk memperluaskan pasukan mereka, mempercepat pembangunan produk, dan membesarkan jangkuan pelanggan mereka di AS, UK, dan Eropah. Syarikat baharu ini semasa mempunyai pasukan sebanyak 20 orang, tersebar di London, Perancis, Amsterdam, dan di luar Eropah. Shilov mengatakan hampir semua daripada mereka adalah juruteknik.
Satu lapisan kawalan masa nyata
Produk utama White Circle ialah lapisan penguat masa nyata untuk aplikasi AI. Jika pengguna cuba menjana keluli, scam atau bahan lain yang dilarang, sistem boleh memberi tanda atau halang permintaan tersebut. Jika model mulakan menipu, mencecah data pelembaga, janji bayaran yang tidak dapat dikeluarkan, atau mengambil tindakan membinasakan di dalam persekitaran perisian, White Circle mengatakan platform mereka juga boleh mengawalnya.
“Kami sebenarnya memberi teguran terhadap perilaku,” kata Shilov. “Pusat model melakukan sedikit penyelarasan keselamatan, tetapi sangat umum dan biasanya berkaitan dengan model yang menahan diri daripada menjawab soalan-soalan mengenai dadah dan biologi perang. Tetapi dalam produksi, anda akan mendapat lebih banyak potensi isu.”
White Circle bergadang bahawa keselamatan AI tidak akan diselesaikan sepenuhnya pada tahap latihan model. Seiring syarikat-syarikat menyuntikkan model ke dalam produk yang lebih banyak, Shilov mengatakan pertanyaan yang relevan tidak lagi hanya sama ada OpenAI, Anthropic, Google, atau Mistral boleh membuat model-model mereka selamat secara abstrak; tetapi sama ada syarikat kesihatan, bank, apl undang-undang, atau platform pembangun boleh mengawal apa yang sistem AI dizalimi boleh dilakukan di dalam persekitarannya sendiri.
Seiring syarikat-syarikat beralih daripada penggunaan bot percakapan kepada agen AI otonom yang boleh menulis kod, melayari internet, mengakses fail, dan mengambil tindakan bagi pengguna, Shilov mengatakan risiko menjadi jauh lebih meluas. Sebagai contoh, bot perkhidmatan pelanggan mungkin janji bayaran yang tidak dizalimi untuk dikeluarkan, agen pembangun mungkin pasang sesuatu berbahaya di mesin maya, atau model yang terbenam di apl fintech mungkin mengatasimana data pelanggan yang pelembaga.
Untuk mengelakkan isu-isu ini, Shilov mengatakan syarikat yang bergantung pada model pokok perlu menetapkan dan memberi teguran terhadap apa yang baiknya bagi AI berbuat di dalam produk mereka sendiri, berbanding bergantung kepada ujian keselamatan dari pusat model AI. White Circle mengatakan platform mereka telah memproses lebih satu ratus juta permintaan API dan sudah digunakan oleh Lovable, syarikat pembangun vibe-coding, serta beberapa syarikat fintech dan undang-undang.
Penyelidikan dipimpin
Shilov mengatakan bahawa pemberi model mempunyai insentif yang campur tajam untuk membina jenis lapisan kawalan masa nyata yang disediakan White Circle.
Syarikat-syarikat AI masih mengenakan caj untuk token input dan output walaupun model menolak permintaan berbahaya, katanya, yang mengurangkan insentif kewangan untuk menghalang penggunaan yang tidak sah sebelum ia mencapai model. Dia juga membabitkan apa yang para penyelidik sebut sebagai saman penyelarasan, idea bahawa melatih model untuk lebih selamat kadang-kadang boleh membuat mereka kurang berprestasi pada tugas-tugas seperti pembangunan.
“Mereka mempunyai pilihan yang sangat menarik untuk melatih model yang lebih selamat dan selamat versus lebih berprestasi,” kata Shilov. “Dan sentiasa terdapat masalah dengan keyakinan. Kenapa anda akan percayai Anthropic untuk memutuskan output model Anthropic?”
Angkatan penyelidikan White Circle juga telah cuba menggariskan risiko baharu.
Pada bulan Mei, syarikat tersebut telah mendedahkan KillBench, satu kajian yang menjalankan lebih satu juta eksperimen di atas 15 model AI, termasuk model daripada OpenAI, Google, Anthropic, dan xAI, untuk menguji bagaimana sistem berbuat apabila dizalimi untuk membuat keputusan mengenai nyawa manusia.
Dalam eksperimen ini, model diminta untuk memilih antara dua orang fiksyen di dalam situasi di mana satu perlu mati, dengan butiran seperti negara asal, agama, badan tubuh, atau brand telefon diubah antara prompt. White Circle mengatakan hasil menunjukkan model membuat pilihan yang berbeza mengikut atribut-atribut ini, menunjukkan bias tersembunyi boleh muncul di dalam persekitaran berbahaya walaupun model tampak neutral dalam penggunaan biasa. Syarikat juga mengatakan kesan tersebut menjadi lebih buruk apabila model diminta untuk memberikan jawapan mereka dalam format yang mudah dibaca oleh perisian, seperti memilih daripada satu set pilihan tetap atau mengisi borang, yang merupakan satu cara biasa syarikat menyuntikkan sistem AI ke dalam produk sebenar.
Jenis penyelidikan ini juga telah membantu White Circle untuk menjadi pemeriksa luar bagaimana model berbuat begitu mereka meninggalkan makmal.
“Denis dan pasukan White Circle mempunyai gabungan tidak biasa kredensial teknikal mendalam dan niat komersial yang jelas,” kata Ophelia Cai, rakan sekelas di Tiny VC. “Penyelidikan KillBench sahaja menunjukkan apa yang mungkin bila anda bercadang keselamatan AI secara empirikal.”
Artikel ini disediakan oleh pembekal kandungan pihak ketiga. SeaPRwire (https://www.seaprwire.com/) tidak memberi sebarang waranti atau perwakilan berkaitan dengannya.
Sektor: Top Story, Berita Harian
SeaPRwire menyampaikan edaran siaran akhbar secara masa nyata untuk syarikat dan institusi, mencapai lebih daripada 6,500 kedai media, 86,000 penyunting dan wartawan, dan 3.5 juta desktop profesional di seluruh 90 negara. SeaPRwire menyokong pengedaran siaran akhbar dalam bahasa Inggeris, Korea, Jepun, Arab, Cina Ringkas, Cina Tradisional, Vietnam, Thai, Indonesia, Melayu, Jerman, Rusia, Perancis, Sepanyol, Portugis dan bahasa-bahasa lain.