Yerel olarak büyük dil modellerini (LLM) çalıştırmak, abonelik maliyetlerini azaltmak ve verilerin gizliliğini artırmak isteyen kullanıcılar arasında hızla yaygınlaşıyor. Yeni nesil açık ağırlıklı modellerin geliştirilmesi ve bunları bilgisayarlarda çalıştırmayı kolaylaştıran ücretsiz araçların çoğalması daha fazla kullanıcının kendi bilgisayarında yapay zekayı deneyebilmesine olanak tanıyor.
NVIDIA RTX GPU’lar bu deneyimleri hızlandırarak akıcı bir performans sağlıyor. Ayrıca Project G-Assist’e gelen yeni güncellemelerle dizüstü bilgisayar kullanıcıları artık cihazlarını yapay zeka destekli sesli ve yazılı komutlarla kontrol edebiliyor.
NVIDIA, yerel yapay zekayı güçlendiriyor
NVIDIA’nın RTX AI Garage blogunda öğrencilerin, geliştiricilerin ve yapay zekayla ilgilenenlerin PC’lerinde LLM kullanmaya nasıl başlayabilecekleri detaylı şekilde anlatılıyor. Bu kapsamda öne çıkan araçlardan biri Ollama. Bu açık kaynaklı yazılım PDF sürükleyip bırakma, sohbet etme ve metin-görsel tabanlı çok modlu iş akışları oluşturma gibi özelliklerle kullanıcı dostu bir arayüz sunuyor.

Ollama’nın RTX GPU’lar için optimize edilen son sürümü OpenAI’nin gpt-oss-20B modeli için yüzde 50’ye, Gemma 3 modelleri içinse yüzde 60’a varan performans artışı sağlıyor. Aynı zamanda bellek kullanımı daha verimli hale getirilirken çoklu GPU desteği de güçlendirildi.
Ollama üzerine inşa edilen AnythingLLM aracı kişisel bir yapay zeka asistanı oluşturmayı mümkün kılıyor. Kullanıcılar not, sunum veya doküman yükleyerek kendi özel öğretmenlerini yaratabiliyor. Bu sistem özellikle öğrenciler için ders notlarını quizlere çevirebilen, sınav soruları hazırlayabilen ve metin tabanlı karmaşık soruları yanıtlayabilen bir yapı sunuyor. Tüm bunlar yerel olarak gerçekleştiği için veri gizliliği korunuyor ve kullanım sınırlaması bulunmuyor.
LM Studio ise popüler llama.cpp framework’ü üzerine kurulu bir arayüzle onlarca farklı modeli yerel olarak çalıştırma imkanı tanıyor. Kullanıcılar farklı LLM modellerini yükleyip gerçek zamanlı sohbetler yapabiliyor ve bu modelleri özel projelerine entegre etmek için yerel API uç noktaları olarak kullanabiliyor.
NVIDIA, LM Studio performansını artırmak için llama.cpp üzerinde çeşitli optimizasyonlar yaptı. Bu güncellemeler arasında Nemotron Nano v2 9B model desteği, varsayılan olarak etkin Flash Attention ve CUDA çekirdek optimizasyonları yer alıyor.
Project G-Assist, yeni güncellemesiyle dizüstü bilgisayar kullanıcıları için önemli yenilikler getiriyor. Yapay zekayla çalışan bu sistem, artık pil, fan hızı ve performans ayarlarının sesli veya yazılı komutlarla değiştirilmesine izin veriyor.
Ayrıca BatteryBoost özelliğiyle pil ömrü uzatılırken WhisperMode teknolojisiyle fan sesi yüzde 50’ye kadar azaltılabiliyor. Kullanıcılar, G-Assist Plug-In Builder aracılığıyla sisteme yeni komutlar ekleyip işlevleri kişiselleştirebiliyor.
Microsoft da Windows 11 kullanıcıları için önemli bir güncelleme yayınladı. Windows ML’nin NVIDIA TensorRT ile RTX hızlandırmalı yeni versiyonu kullanıma sunuldu. Bu sürüm LLM’ler ve difüzyon modelleri dahil olmak üzere farklı model türlerinde yüzde 50’ye kadar daha hızlı çıkarım sağlıyor. Ayrıca dağıtımı kolaylaştırıyor ve geliştiriciler için daha esnek bir yapı sunuyor.
Tüm bu gelişmeler RTX destekli bilgisayarlarda yerel yapay zekayı kullanmayı hem daha erişilebilir hem de daha güçlü hale getiriyor. Kullanıcılar artık abonelik ödemeden verilerini bulut ortamına taşımadan yüksek performanslı LLM’leri kendi bilgisayarlarında çalıştırabiliyor.