Açık Kaynak Mamba 3, Transformer Mimarisini Yaklaşık %4 Daha İyi Dil Modelleme ve Azaltılmış Gecikme ile Geride Bırakıyor

Üretken yapay zeka dönemi, çoğu kişi için OpenAI'ın 2022 sonlarında piyasaya sürdüğü ChatGPT ile başladı. Ancak bu teknolojinin temelini oluşturan "Transformer" sinir ağı mimarisi, Google'ın 2017 tarihli "Attention Is All You Need" makalesine dayanıyor. Transformerlar, günümüzde kullanılan çoğu büyük üretken yapay zeka modelinin temelini oluşturmasına rağmen, hesaplama açısından oldukça maliyetli ve büyük ölçekli çıkarım süreçlerinde yüksek bellek ve işlem gücü gerektiriyor.

Bu nedenle bazı araştırmacılar, 2023 yılında Mamba adını verdikleri yeni bir mimari geliştirerek Transformerların sınırlarını aşmayı hedefledi. Nvidia'nın Nemotron 3 Super gibi hibrit Mamba-Transformer modellerinde kullanılan bu mimarinin arkasındaki ekip, Carnegie Mellon'dan Albert Gu ve Princeton'dan Tri Dao liderliğinde Mamba-3'ü Apache 2.0 açık kaynak lisansı altında yayınladı. Böylece model, geliştiriciler ve ticari amaçlı işletmeler tarafından hemen kullanılabilir hale geldi.

Mamba-3, eğitim verimliliğinden çıkarım öncelikli bir tasarıma geçişi simgeliyor. Önceki sürüm Mamba-2, ön eğitim darboğazlarını kırmaya odaklanırken, Mamba-3 modern donanımın genellikle bellek hareketini bekleyerek boşta kaldığı "soğuk GPU" sorununu çözmeyi amaçlıyor. Mamba-3, State Space Model (SSM) türünde bir model olarak, önceki kelimeleri yeniden okumak yerine sürekli güncellenen kompakt bir iç durum tutarak büyük veri setlerini çok daha hızlı ve düşük bellek kullanımıyla işleyebiliyor.

Araştırmada kullanılan temel kalite ölçütü perplexity (karmaşıklık) açısından Mamba-3, selefi Mamba-2 ile benzer performans gösterirken iç durum boyutunu yarıya indiriyor. Bu da aynı zekâ seviyesini iki kat daha verimli şekilde çalıştırmak anlamına geliyor. Ayrıca Mamba-3, karmaşık değerli durumlar sayesinde mantık ve durum takibi görevlerinde önceki modellere göre çok daha başarılı. Çoklu Giriş Çoklu Çıkış (MIMO) formülasyonu ile donanımı daha etkin kullanarak işlemciyi boşta bırakmıyor ve her adımda dört kat daha fazla matematiksel işlem yapabiliyor.

1,5 milyar parametreli Mamba-3'ün en gelişmiş "MIMO" varyantı, endüstri standardı Transformer modellerine kıyasla dil modelleme doğruluğunda yaklaşık %4'lük göreceli bir artış sağlıyor. Bu gelişmeler, yapay zekâ modellerinin hem daha hızlı hem de daha az kaynak kullanarak yüksek performans sunabileceğini gösteriyor ve gelecekteki yapay zekâ uygulamalarında önemli bir dönüm noktası olarak değerlendiriliyor.

Açık Kaynak Mamba 3, Transformer Mimarisini Yaklaşık %4 Daha İyi Dil Modelleme ve Azaltılmış Gecikme ile Geride Bırakıyor

İlgili Haberler

Redmond'da Işıklı Raylı Sisteme Yolcu Taşıyan Yeni Ücretsiz Elektrikli Talep Üzerine Hizmet Başladı

Oyuncular DLSS 5'in üretken yapay zeka ile yapılan görsel iyileştirmelerine büyük tepki gösterdi

Dune: Part Three’ün Yeni Fragmanında Mesih Yükseliyor

Araştırmacılar Dört Üreticinin IP KVM Cihazlarındaki Güvenlik Açıklarını Açıkladı

HIZLI ÖNİZLEME