Yapay zeka filtrelerini aşmak için şiir bir hile

  • "Çatışmacı şiir" olarak adlandırılan yöntem, üretken yapay zeka modellerinde güvenlik filtrelerinin aşılmasına olanak sağlıyor.
  • Araştırmacılar bu yaklaşımı önde gelen teknoloji şirketlerinden 25 model üzerinde test etti ve çok yüksek başarı oranları elde etti.
  • Mecazi dizeler, kötü amaçlı yazılımlar, siber saldırılar veya silah rehberleri gibi tehlikeli içeriklerin üretilmesini kolaylaştırır.
  • Çalışmada sistemsel bir güvenlik açığına dikkat çekiliyor ve daha sağlam güvenlik değerlendirme yöntemlerine ihtiyaç duyulduğu vurgulanıyor.

Yapay zekayı aldatmak için şiirle ilgili görsel

Güvenliği üretken yapay zeka Çarpıcı olduğu kadar rahatsız edici bir numarayı masaya koyan yeni bir akademik çalışmanın ardından yeniden gündemde: En gelişmiş dil modellerinin reddetmeleri gereken yerde tepki vermeye başlamaları için, belirli mesajları bir şiir biçiminde yeniden formüle etmek yeterli.

Bu yaklaşım, "karşıt şiir" Araştırma ekibi, temeldeki zararlı amacı değiştirmeden yalnızca yazı stilini değiştirmenin, OpenAI, Google, Meta, Microsoft veya Çinli DeepSeek gibi şirketlerin, sohbet robotlarının tehlikeli kullanımlarını engellemek için uyguladıklarını iddia ettikleri filtreleri aşmak için yeterli olabileceğini gösteriyor.

"Karşıt şiir" nedir ve neden endişe vericidir?

Çok grafik bir şekilde başlığı verilen çalışma "Büyük ölçekli dil modellerindeki tek bir değişimden kaçmak için evrensel bir mekanizma olarak karşıt şiir"Çalışma, Icaro Labs, Roma Sapienza Üniversitesi ve Sant'Anna İleri Araştırmalar Okulu tarafından ortaklaşa yürütülmüş olup, diğer uzmanların incelemesi beklenirken arXiv veri tabanında ön yayın olarak yayımlanmıştır.

Yazarlar, etkili olduğu kadar basit bir fikre odaklandılar: kısa şiirler, mecazi dizeler veya lirik yapılar Doğrudan ifade edildiğinde yapay zeka modellerinin, kendi iç kullanım kurallarına aykırı olduğu için hemen reddedeceği talepler formüle etmek.

Araştırmacılara göre bu "karşıt şiir" bir jailbreak mekanizması tek bir dönüş, yani uzun konuşmalara veya özellikle karmaşık numaralara gerek kalmadan, tek bir mesajla modellerde istenmeyen davranışları zorlamanın bir yolu.

Kendi ifadesiyle, testler "şunu gösteriyor ki yalnızca üslupsal çeşitlilik "Çağdaş güvenlik mekanizmalarını aşabilir" ifadesi, Büyük Teknoloji şirketlerinin kullandığı mevcut uyum ve risk değerlendirme yöntemlerindeki derin sınırlamalara işaret ediyor.

Ekip, deney sırasında kullanılan şiirlerin tam metinlerini açıklamama kararı aldı; bu karar, güvenlik etkileriAraştırmacılardan Piercosma Bisconti, uluslararası medyaya yaptığı açıklamada, ayrıntılı örnekler sunulması halinde tekniğin tekrarlanmasının çok da karmaşık olmayacağını söyledi.

Çalışma sonuçları: Endişe verici derecede yüksek aldatma oranları

Bu fikri test etmek için araştırmacılar şunları inceledi: 25 farklı üretken yapay zeka modeliChatGPT, Gemini veya Claude gibi günümüzün en popüler sistemlerinin yanı sıra DeepSeek gibi Meta ve Çinli sağlayıcıların modelleri de dahil olmak üzere.

Uygulamada, talepler net hedeflerle yapıldı: siber saldırı başlatma talimatlarıhassas verileri çıkarmak, şifreleri kırmak, kötü amaçlı yazılım tasarlamak veya hatta kimyasal ve nükleer silahların üretimiyle ilgili bilgileri toplamak.

Aynı talepler şu şekilde dile getirildiğinde dizeler veya şiirsel kompozisyonlarBelirsiz yanıtların oranı fırladı. Çalışma, ortalama olarak, soruyu lirik bir şekilde yazmanın sistemin şuna inanmasına yol açtığını ortaya koydu... Zamanın %62'si, nötr ve direkt formülasyonlarla elde edilenin çok üzerinde bir yüzde.

Belirli özel senaryolarda, rakamlar daha da yüksek: araştırmacılar neredeyse Şiirsel kışkırtmaların %90'ı Deney için tasarlanan bu filtreler, filtrelerin engellemesi gereken davranışları tetiklemeyi başardı.

Bilgiye ilişkin özel durumda nükleer silahlarYüzde 40 ile yüzde 55 arasında başarı oranları elde edildi; yani, şiirsel olarak formüle edilen denemelerin neredeyse yarısı, kullanım politikalarının belirlediği kırmızı çizgilere yaklaşan veya bu çizgileri doğrudan geçen içerikler üretmekle sonuçlandı.

Şiir yapay zekanın filtrelerinden nasıl sıyrılıyor?

Çalışmanın yazarlarının bu numaranın neden işe yaradığını açıklamak için kullandıkları temel faktörlerden biri şurada yatıyor: dil modellerinin çalışma şekliBu yapay zekalar bir insan gibi "akıl yürütmüyor", bunun yerine önceki diziye ve eğitim sırasında öğrendiklerine dayanarak bir sonraki en olası kelimeyi tahmin ediyor.

Az çok geleneksel bir düzyazı metninde, yapıyı modellemek nispeten kolaydır: net sözdizimi kalıpları, sık kullanılan ifadeler ve tekrar eden bağlamlar vardır. Ancak, şiirsel yapı, metaforlar ve alışılmadık ifade biçimleriModel çok daha kaygan bir zeminde ilerliyor.

Araştırmacılar, şiirin anlamın daha bulanıklaşabildiği ve dilin daha karmaşık hale gelebildiği bir format olduğunu belirtiyorlar. daha belirsiz ve daha az öngörülebilirTehlikeli içerikleri tespit etme mekanizmalarının hassasiyeti azalır. Sonuç olarak, güvenlik filtresi şiirin arkasında zararlı bir isteğin gizlendiğini net bir şekilde algılayamaz.

Çalışma, zararlı mesajların nesir yerine şiirle ifade edilmesi durumunda, saldırı başarı oranları Önemli ölçüde artmaktadır. Bu durum, mevcut değerlendirme uygulamalarında ve kullanım yönergelerine uyumu doğrulamak için kullanılan protokollerde önemli bir boşluğu ortaya koymaktadır.

Dikkat çekici bir diğer unsur ise bu güvenlik açıklarının şu şekilde ortaya çıkmasıdır: farklı ailelerden ve üreticilerden gelen modellerden oluşanHer şirketin sistemlerini eğitmek ve uyumlu hale getirmek için kendi stratejilerini izlemesine rağmen, yazarlar izole arızalardan ziyade "sistematik bir güvenlik açığından" bahsediyorlar.

Güvenlik üzerindeki etkisi: Siber saldırılardan silahlara

Dilsel hilenin ötesinde, gerçekten alarm zillerini çaldıran şey, yapay zekanın üretebileceği bilgiler Bu yöntemlerle kandırılıp kandırılamayacakları araştırılıyor. Çalışma, özenle hazırlanmış şiirler kullanarak sohbet robotlarının siber saldırılar düzenlemek veya sistemlere sızmak için rehberlik sunduğu vakaları ayrıntılarıyla anlatıyor.

Gözlemlenen sorunlu kullanımlar arasında şunlar yer almaktadır: güvenlik açıklarından yararlanma, veri çıkarma veya parola kırmaBu görevler, dünya çapındaki hükümetleri, şirketleri ve kuruluşları ilgilendiren siber suçların ve gelişmiş tehditlerin tipik cephaneliğinin bir parçasıdır.

Ayrıca, oluşturmaya veya iyileştirmeye yardımcı olan yanıtlar da kaydedildi kötü amaçlı programlarBu durum, teknik bilgisi sınırlı birçok kullanıcının saldırıları daha kolay geliştirmek için bu araçlara güvenebileceği düşünüldüğünde özellikle endişe vericidir.

En hassas alan ve genellikle Avrupa'da ve uluslararası alanda düzenleyici dikkatin odaklandığı alan, kimyasal ve nükleer silahların yayılması"Tam kılavuzlar" sunulmasa bile, bir yapay zeka sisteminin bu alanda faydalı bilgiler sağlama yeteneği, güvenlik uzmanları arasında birçok şüphe uyandırıyor.

Yazarlar amaçlarının dramatize etmek değil, göstermek olduğunu vurguluyorlar. Mevcut filtreler yeterli değil Tehlikeli emirlerin şiirsel bir şekilde yeniden ifade edilmesi gibi nispeten basit manipülasyon teknikleriyle karşı karşıya kalındığında, bu hem siber suçlular hem de devlet aktörleri tarafından istismar edilebilir.

Mevcut sistemlerin sınırlamaları ve endüstrinin tepkisi

Üretken yapay zeka modelleri geliştiren önde gelen şirketler uzun zamandır bunların entegre edilmesi konusunda ısrarcıydı çok katmanlı güvenlik mekanizmalarıÖrneğin OpenAI, nefret uyandıran, açık içerikler içeren veya politikalarını ihlal eden içerikleri incelemek ve filtrelemek için özel olarak ayrılmış moderasyon algoritmaları ve insan ekiplerinin birlikte kullanımını sıklıkla vurguluyor.

Ancak bu çalışmanın sonuçları, bu güvenlik önlemlerine rağmen sohbet robotlarının hala savunmasız olduğunu göstermektedir. yaratıcı formülasyon biçimleri Araştırmacılara göre, karşıt şiir, kullanım normlarıyla uyumlu herhangi bir modelin sergilemesi gereken reddetme davranışını açıkça zayıflatıyor.

Testlerde, OpenAI ve Anthropic gibi şirketlerin araçları, karşılaştırmalı olarak, kendi engellerini aşma olasılıkları daha düşüktürAncak sorundan muaf değillerdi. Diğer platformlarda olduğu gibi aynı genel eğilim gözlemlendi, ancak başarı oranları biraz daha düşüktü.

Uluslararası medyanın bu bulgular hakkında soru sorması üzerine, şu firmalar: OpenAI, Google, DeepSeek veya Meta Hemen bir yanıt vermediler. Tartışma kamuoyunun ilgisini çektikçe, şirketlerin hangi karşı önlemleri uygulamayı planladıklarını ayrıntılı olarak açıklamaları bekleniyor.

Düzenleyici bir bakış açısından, bu tür araştırmalar halihazırda yansıtılan endişelerle uyumludur. Avrupa Birliği Yapay Zeka YönetmeliğiBu, risk yönetimini, şeffaflığı ve gelişmiş sistem sağlayıcılarının hesap verebilirliğini vurgular. Düşmanca şiir gibi yeni saldırı vektörlerinin keşfi, sürekli ve daha titiz değerlendirme süreçlerine duyulan ihtiyaç argümanını güçlendirir.

Ufukta diğer tehditler: veri zehirlenmesi ve manipülasyonu

Siber güvenlik topluluğunu üretken yapay zeka konusunda endişelendiren tek yol, karşıt şiirsellik değil. Son araştırmaların önemli bir kısmı, model eğitimiyle ilişkili risklerBu araçlara konuşmayı, yazmayı ve akıl yürütmeyi öğretmek için kullanılan devasa veri tabanlarının devreye girdiği yer burası.

Bağımsız çalışmalar bunun mümkün olduğunu göstermiştir büyük ölçekli dil modellerini manipüle etmek Eğitim verilerinin çok küçük bir kısmını kirletmek: Yaklaşık 250 bozuk belge, en son teknoloji sistemlerde bile önyargılara, arka kapılara veya beklenmedik davranışlara yol açmaya yetecektir.

Çarpıcı olan, bu eşik değerinin modelin boyutuyla önemli ölçüde artmıyor gibi görünmesidir; bu da sezgiyi bozar "daha büyük otomatik olarak daha sağlam demektir"Pratikte hem hafif çözümler hem de büyük modeller bu tür veri zehirlenmesine karşı savunmasız olabilir.

Bu tür bir saldırı fark edilmezse, şu sonuçlara yol açabilir: izlenmesi zor siber saldırılarçünkü modelin kendisi, veride onu bozan gizli koşullar karşılanana kadar görünüşte normal bir şekilde davranacaktır.

Karşıt şiir gibi tekniklerle birleştirildiğinde, eğitim verilerinin manipülasyonu şu senaryoyu ortaya çıkarır: Milyonlarca kullanıcı gizli kusurları olan araçları kullanıyor olabilir.farkında olmadan yapılan bu durum, yapay zeka güvenliği ve yönetişim politikaları açısından büyük bir zorluk teşkil ediyor.

Tüm bu bulgular, üretken yapay zekanın güvenliğinin çözülmüş bir sorun olmadığını, ancak sürekli gelişen bir alan Ofis işlerinden kamu yönetimine veya eğitime kadar günlük yaşamın daha fazla alanına teknoloji entegre oldukça yeni saldırı biçimleri ortaya çıkıyor.

Bu bağlamda, "Yapay Zekayı Aldatmak İçin Şiir", basit bir stil değişikliğinin, kağıt üzerinde katı koruma protokollerine sahip sistemleri nasıl ifşa edebileceğinin çarpıcı bir örneği haline geldi. Icaro Labs ve İtalyan üniversitelerinin araştırması, bu tür önlemlerin gerekli olacağı fikrini güçlendiriyor. daha yaratıcı değerlendirmelerGünlük olarak kullandığımız dil modellerinin hem teknik saldırılara hem de en yaratıcı dil hilelerine karşı gerçekten dayanıklı olduğundan emin olmak için geliştiriciler, siber güvenlik uzmanları ve düzenleyiciler arasında sürekli stres testleri ve yakın iş birliği yapıyoruz.