Google’ın paylaştığı kıyaslamalara göre Gemini 3.1 Pro, “Humanity’s Last Exam” adlı testte 44,4 puana ulaştı. Şirket, önceki sürümün 37,5 seviyesinde kaldığını; OpenAI’ın GPT 5.2 modelinin ise 34,5 puan aldığını aktarıyor.

Bir diğer dikkat çeken veri ARC-AGI-2’de geldi. Yeni ve alışılmadık akıl yürütme problemlerine odaklanan bu testte, Google’a göre Gemini 3’ün 31,1 olan skorunun 77,1’e çıktığı görülüyor. Öte yandan Google, her alanda zirvede olmadığını da kabul ediyor: Kullanıcı oylamasına dayanan Arena sıralamasında, metin kategorilerinde Claude Opus 4.6’nın Gemini’nin önünde olduğu belirtiliyor. Google ayrıca bu tür oylama tabanlı sıralamaların, “doğru gibi görünen ama ince hatalar barındıran” yanıtları ödüllendirebileceğine işaret ediyor. 

Google, Gemini 3.1 Pro’yu özellikle geliştiriciler için konumlandırıyor: daha büyük kod bloklarını tek oturumda işleyebilme, karmaşık fonksiyonları açıklama ve hata ayıklama gibi alanlarda iyileştirme vurgusu yapılıyor. Şirket, bu sayede geliştirme sürecinde “bölünmelerin” azalacağını söylüyor.

Uzun bağlam tarafında da iddialı bir tablo var. Google’ın açıklamasına göre model, 1 milyon girdi token’ı ve 64 bin çıktı token’ına kadar destek sunuyor. Böylece şirketler uzun sözleşmeleri, raporları veya araştırma dokümanlarını parçalara bölmeden modele yükleyip ayrıntılı sorular sorabilecek. 

Gemini 3.1 Pro, Google ekosistemine yayılıyor: geliştiriciler AI Studio ve Antigravity IDE üzerinden erişirken, kurumsal tarafta Vertex AI ve Gemini Enterprise öne çıkıyor. Google, güvenlik kontrolleri ve izleme sistemlerini de güçlendirdiğini belirtiyor; özellikle hassas veriyle çalışan işletmelerin “stabil ve öngörülebilir” çıktılara ihtiyaç duyduğunun altı çiziliyor.