DeepSeek-R1’da Hata Oranı 4 Kat Arttı: Kripto AI Token’lar İçin Tehlike İşareti

Çinli DeepSeek laboratuvarının amiral gemisi akıl yürütme modeli DeepSeek-R1, Vectara’nın HHEM 2.1 benchmark’ına göre %14,3 oranında halüsinasyon üretiyor. Bu oran, akıl yürütme özelliği olmayan önceki model DeepSeek-V3’ün %3,9’luk sonucunun neredeyse dört katı.

Ortadaki bu fark kripto para sektörü için zorlu soruları gündeme getiriyor. Hızla büyüyen AI agent token’lar sınıfı artık otonom trading, sinyal üretimi ve zincirde işlem icrası için akıl yürütme yetenekli büyük dil modellerine (LLM) yaslanıyor.

Vectara Verileri: R1 ‘Fazla Yardımcı’ Olurken Yanlış Bilgi Üretiyor

Vectara, DeepSeek modellerini HHEM 2.1 üzerinden çalıştırdı. Bu framework, özellikle halüsinasyon tespitine odaklanıyor. Ekip sonuçları ayrıca Google’ın FACTS metodolojisiyle de çapraz doğruladı. R1, her test koşulunda V3’e göre daha fazla yanlış ya da desteklenmeyen bilgi üretti.

Bunun sebebi sadece derin akıl yürütme değil. Vectara’nın analist’ları R1’in genellikle “fazla yardımcı” davrandığını belirledi. Model, orijinal metinde geçmeyen ek bilgiler ekliyor.

Bu eklemeler kendi başına doğru olsa bile hâlâ halüsinasyon olarak kabul ediliyor. Böylece asılsız içerik, genel olarak doğru bir cevabın içine gizlenmiş oluyor.

Vectara, bu bulgusunu X üzerinde doğrudan paylaştı.

Vectara, paylaşımında şu ifadeleri kullandı: ‘DeepSeek-R1 %14,3 halüsinasyon oranı gösteriyor ve bu, DeepSeek-V3’e kıyasla neredeyse 4 kat daha fazla’ dedi.

Bu eğilim yalnızca DeepSeek’e özgü değil. Sektör izleyicileri, başka laboratuvardan çıkan akıl yürütme eğitimi alan modellerde de aynı ödünleşmeye dikkat çekiyor. Zincirleme düşünceyi güçlendiren pekiştirmeli öğrenme, aynı zamanda daha cesur ve özgüvenli cümleler kurulmasını da teşvik ediyor.

Kripto AI Token’larda Bu Ödünleşmenin Sebebi Nedir?

Kripto para piyasasında şu an Virtuals Protocol (VIRTUAL), ai16z (AI16Z) ve aixbt (AIXBT) gibi düşük modelli agent token’lar başı çekiyor; toplamda yüzlerce AI agent token var.

Kategori son 30 günde yaklaşık %39,4 büyüme gösterdi. Virtuals tek başına piyasa değerinde 576 milyon dolar barajını aştı.

Virtuals Protocol (VIRTUAL) Fiyat Performansı. Kaynak: Coingecko

Bu agent’ların büyük bölümü, arka planda bir büyük dil modelini özel araçlarla donatıyor. Bu sayede agent’lar sosyal medyada içerik paylaşabiliyor, trade yönlendirebiliyor, token basımı gerçekleştirebiliyor ya da piyasaya dair analizler üretebiliyor.

Ancak, eğer kullanılan model yanlış bir fiyat seviyesi, ortaklık ya da kontrat adresi üretirse, sonuçları doğrudan zincir üstünde yansıyabiliyor.

BeInCrypto’nun AIXBT’ye dair yaptığı bir analizde agent’ın 416 token’ı tanıttığı ve ortalama %19 getiri sağladığı görüldü. Fakat aynı yapay zekâ mekaniği, model hata verdiğinde takipçileri yanlış sinyallere de maruz bırakıyor.

Otonomiyet arttıkça risk yüzeyi de genişliyor. Sadece piyasa hissiyatını özetleyen read-only agent’lar ile hazinenin anahtarlarını elinde tutan agent’ların risk profili arasında dağlar kadar fark var.

Çok adımlı planlama yapan agent’lar için akıl yürütme modelleri özellikle cazip. Ancak bu kullanım türü, Vectara’nın %14,3’lük halüsinasyon oranının etkisini en fazla artıran alan.

Zincirleme düşüncede daha ilk aşamada üretilen yanlış bir bilgi, sonraki tüm adımlara bulaşıyor.

LeCun: Sorunun Temeli Mimari Kaynaklı

Meta’nın baş AI bilim insanı Yann LeCun uzun süredir otoregresif büyük dil modellerinin halüsinasyondan tamamen kurtulamayacağını savunuyor. Ona göre, modelin mimarisi gerçek dünyayı temelden kavrayabilen bir yapıya sahip değil.

Hallucinations in LLM are due to the Auto-Regressive prediction.

I think what I call “Objective Driven AI” will solve the problem: systems that plan their answer by optimizing a number of objective functions *at inference time* https://t.co/JcR5hItwzJ

— Yann LeCun (@ylecun) June 9, 2023

Zincirleme düşünceye dayalı pekiştirmeli öğrenme, bu sorunu matematik ya da kodlama gibi dar alanlarda kısmen maskeleyebiliyor. Fakat temel neden aynı şekilde yerinde duruyor.

Diğer öncü laboratuvarlar ise farklı düşünüyor. Benchmark halüsinasyon oranlarında, veri geri çağırma (retrieval augmentation), eğitim sonrası ince ayar ve doğrulayıcı model’lerle istikrarlı ilerleme gösterildiğini savunuyorlar. Yine de geliştiricilerden gelen raporlar çoğunlukla lider tablolardaki verilerle örtüşüyor.

AI araştırmacısı xlr8harder, X’te R1 ile yaptığı bir debug oturumunu şöyle özetledi:

‘Deepseek R1, düşünce zincirlerine dair ilginç ama bütünleşmemiş bir anlayışa sahip. … O yüzden bana halüsinasyonlarla ışık tutmaya (gaslighting) başvuruyor.’ şeklinde belirtti.

Kripto agent geliştiricileri için pratikte asıl soru mimari felsefe değil, risk yönetimi. Her model çıktısının bir doğrulama adımından geçtiği tasarımlar daha güvenli görünüyor.

Aynı şekilde, mali kararlarda daha küçük ve temkinli modelleri tercih eden agent’lar da avantaj sağlayabilir.

Bundan sonraki benchmark çevrimleri ve R1’in ardılları, akıl yürütme ile doğruluk arasındaki makasın daralıp daralmadığını gösterecek.

Bugün için, %14,3 ve %3,9 arasındaki bu operasyonel farkı izlemek önemli. Bu ayrım, çalışan ürünler sunan AI agent token’lar ile sadece vaat dağıtan token’ları birbirinden ayırabilir.

web sitesinde görüldü.

Vectara Verileri: R1 ‘Fazla Yardımcı’ Olurken Yanlış Bilgi Üretiyor

Kripto AI Token’larda Bu Ödünleşmenin Sebebi Nedir?

LeCun: Sorunun Temeli Mimari Kaynaklı

Trump’ın Çin CEO Heyetinin Yaklaşık ’ı Kripto Para Bağlantılı

Crypto YouTube’da krizi: “2018 ayı piyasasında bile izlenmelerim iki katıydı”