Microsoft Merilis PyRIT - Alat Red Teaming untuk AI Generatif

The Hacker News

Cyberthreat.id - Microsoft telah merilis kerangka otomatisasi akses terbuka yang disebut PyRIT (Python Risk Identification Tool).  PyRIT secara proaktif mengidentifikasi risiko dalam sistem kecerdasan buatan (AI) generatif.

Alat Red Teaming ini dirancang untuk “memungkinkan setiap organisasi di seluruh dunia berinovasi secara bertanggung jawab dengan kemajuan kecerdasan buatan terkini,” kata Ram Shankar Siva Kumar, ketua The Red Team AI di Microsoft, kepada The Hacker News.

Red Team adalah tim yang bertanggung jawab untuk mensimulasikan serangan siber (Cyberattack) terhadap sistem keamanan informasi. Red Team mencoba mengeksplorasi kelemahan sistem keamanan informasi dengan cara yang mirip dengan serangan peretas (hacker sungguhan).

Microsoft mengatakan PyRIT dapat digunakan untuk menilai ketahanan titik akhir large language model (LLM) terhadap berbagai kategori bahaya seperti pemalsuan (misalnya halusinasi), penyalahgunaan (misalnya bias), dan konten terlarang (misalnya pelecehan).

Ini juga dapat digunakan untuk mengidentifikasi bahaya keamanan mulai dari pembuatan malware hingga jailbreaking, serta bahaya privasi seperti pencurian identitas.

PyRIT hadir dengan lima antarmuka: target, kumpulan data, mesin penilaian, kemampuan untuk mendukung berbagai strategi serangan, dan menggabungkan komponen memori yang dapat berbentuk JSON atau database untuk menyimpan interaksi input dan output perantara.

Mesin penilaian juga menawarkan dua opsi berbeda untuk menilai keluaran dari sistem AI target, sehingga Red Team dapat menggunakan pengklasifikasi pembelajaran mesin klasik atau memanfaatkan titik akhir LLM untuk evaluasi mandiri.

“Tujuannya adalah untuk memungkinkan para peneliti memiliki dasar tentang seberapa baik kinerja model mereka dan keseluruhan jalur inferensi terhadap berbagai kategori bahaya dan untuk dapat membandingkan dasar tersebut dengan iterasi model mereka di masa depan,” kata Microsoft.

“Hal ini memungkinkan mereka memiliki data empiris tentang seberapa baik kinerja model mereka saat ini, dan mendeteksi segala penurunan kinerja berdasarkan perbaikan di masa depan.”

Meskipun demikian, raksasa teknologi ini dengan hati-hati menekankan bahwa PyRIT bukanlah pengganti Red Team manual pada sistem AI generatif dan melengkapi keahlian domain Red Team yang sudah ada.

Dengan kata lain, alat ini dimaksudkan untuk menyoroti "titik panas" risiko dengan menghasilkan petunjuk yang dapat digunakan untuk mengevaluasi sistem AI dan menandai area yang memerlukan penyelidikan lebih lanjut.

Microsoft lebih lanjut mengakui bahwa sistem AI generatif Red Team memerlukan penyelidikan atas risiko keamanan dan AI yang bertanggung jawab secara bersamaan dan bahwa pelaksanaannya lebih bersifat probabilistik sambil juga menunjukkan perbedaan besar dalam arsitektur sistem AI generatif.

“Penyelidikan manual, meski memakan waktu, sering kali diperlukan untuk mengidentifikasi potensi titik buta,” kata Siva Kumar. "Otomasi diperlukan untuk penskalaan tetapi bukan pengganti probing manual."

Perkembangan ini terjadi ketika Protect AI mengungkapkan beberapa kerentanan kritis dalam platform rantai pasokan AI populer seperti ClearML, Hugging Face, MLflow, dan Triton Inference Server yang dapat mengakibatkan eksekusi kode arbitrer dan pengungkapan informasi sensitif.[]