Nvidia, Model Ağırlıklarını Değiştirmeden LLM Belleğini 20 Kat Küçültebileceğini Açıkladı
Nvidia araştırmacıları, büyük dil modellerinin (LLM) konuşma geçmişini takip etmek için ihtiyaç duyduğu bellek miktarını modelin kendisini değiştirmeden 20 kata kadar azaltan yeni bir teknik geliştirdi. KV Cache Transform Coding (KVTC) adı verilen bu yöntem, JPEG gibi medya sıkıştırma formatlarından alınan fikirleri kullanarak çoklu tur yapay zeka sistemlerinin anahtar-değer (KV) önbelleğini küçültüyor. Bu sayede GPU bellek gereksinimleri azalıyor ve ilk token üretme süresi 8 kata kadar hızlanıyor.
Kurumsal yapay zeka uygulamalarında, özellikle ajanlar ve uzun bağlamlar kullanan sistemlerde, bu yöntem GPU bellek maliyetlerini düşürürken, promptların yeniden kullanımını iyileştiriyor ve düşürülen KV önbellek değerlerinin yeniden hesaplanmasına gerek kalmadığı için gecikmeyi 8 kata kadar azaltıyor. Çoklu tur konuşmalar ve uzun kodlama oturumları gibi senaryolarda, KV önbelleği büyük boyutlara ulaşarak sistem performansında darboğaz yaratabiliyor.
LLM'lerin çoklu kullanıcıya aynı anda hizmet vermesi, GPU belleğinin tükenmesi nedeniyle hesaplama süresinden çok bellek sınırlarıyla kısıtlanıyor. Nvidia'nın kıdemli derin öğrenme mühendisi Adrian Lancucki, bu nedenle KV önbellek yönetiminin kritik olduğunu ve boşta kalan önbelleklerin hızlıca GPU belleğinden çıkarılıp gerektiğinde tekrar yüklenmesi gerektiğini belirtiyor. Mevcut çözümler, önbelleği CPU belleği veya SSD gibi daha düşük seviyeli depolamalara aktarsa da, bu yöntemler ağ bant genişliğini zorlayarak yeni darboğazlar oluşturuyor.
KVTC, bu sorunu çözmek için medya sıkıştırma tekniklerinden esinlenerek, KV önbelleğin yapısal özelliklerini kullanıyor. Yöntem, öncelikle ana bileşen analizi (PCA) ile önbellekteki verilerin en önemli özelliklerini belirliyor ve gereksiz bilgileri ayıklıyor. Ardından dinamik programlama ile her veri boyutuna ne kadar bellek ayrılacağı optimize ediliyor. Son olarak, veriler DEFLATE adlı entropi kodlayıcı ile GPU üzerinde yüksek hızda sıkıştırılıyor. Kullanıcı geri döndüğünde ise veriler katman katman açılarak modelin hızlıca yanıt üretmesi sağlanıyor.
Nvidia, KVTC yöntemini 1.5 milyar ile 70 milyar parametre arasında değişen Llama 3 ailesi, Mistral NeMo ve Qwen 2.5 gibi modeller üzerinde test etti. Sonuçlar, bellek kullanımını 20 kat azaltırken doğrulukta %1’den az bir düşüş olduğunu gösterdi. Bu gelişme, büyük dil modellerinin daha verimli ve ekonomik şekilde kullanılmasını sağlayarak yapay zeka uygulamalarında önemli bir ilerleme olarak değerlendiriliyor.