Yapay zekâ ile ilgili yeni bir veri ortaya çıktı. Bilim insanları yapay zekânın şiire yenildiğini ortaya koydu.
ŞİİRSEL TALİMATLAR
Icaro Labs tarafından yayımlanan ve “Büyük Dil Modellerinde Evrensel Tek Dönüşlü Bir Jailbreak Mekanizması Olarak Düşmanca Şiir” (Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models) başlığını taşıyan çalışma, araştırmacıların klasik konuşma dili yerine şiir biçiminde yazılmış talimatlar vererek güvenlik filtrelerini devre dışı bırakmayı başarabildiğini gösterdi.
Yeni araştırma, bu yöntemin sohbet botlarından yasaklı içerikler ve tehlikeli bilgiler elde edilmesini mümkün kılabildiğini ortaya koyuyor.
O Yasaklı içeriklere erişim sağlandı
Bilim insanı araştırmacılar, Wired’ın aktardığına göre, kullandıkları şiirsel komutların detaylarını kamuoyuyla paylaşmadı. Ekibe göre bu komutların açıklanması son derece tehlikeli sonuçlara yol açabilir.
Laboratuvar, şiirsel komutların kullanılmasıyla sohbet botlarından nükleer bomba yapımı için adımlar ve malzemeler, çocuk istismarı içerikleri ve kendine zarar verme yöntemleri gibi kesinlikle yasak bilgiler elde edilebildiğini bildirdi.
GENELDE Popüler yapay zeka sistemleri üzerinde test
Bilim Araştırma ekibi, yöntemi OpenAI’nin ChatGPT’si, Google’ın Gemini’si, Anthropic’in Claude’u ve diğer büyük modeller üzerinde denedi.
BİLİMSEL Sonuçlara göre:
Google Gemini, DeepSeek ve MistralAI gibi modeller, şiirsel komutlar karşısında en kolay manipüle edilebilen sistemler arasında yer aldı.
OpenAI’nin ChatGPT modeli (GPT-5) ve Anthropic’in Claude Haiku 4.5 modeli, güvenlik bariyerlerini en iyi koruyan sistemler olarak öne çıktı.
Yapay zeka güvenliği yeniden gündemde
Uzmanlar, bulguların yapay zekânın denetlenmesi ve güvenlik sistemlerinin geliştirilmesi konusunda acil ihtiyaç olduğunu gösterdiğini belirtiyor.
Şirketler, modellerinin tehlikeli içerik üretmesini engellemek için giderek daha gelişmiş güvenlik filtrelerine yatırım yapıyor.