Yapay zekâ en zor matematik sınavından nasıl sonuç aldı? “First Proof” sonuçları tartışma yarattı

Yapay Zekânın Matematikteki Yetenekleri Büyük Bir Denemeyle Ölçüldü

Büyük dil modellerinin matematikte ne kadar ileri gidebileceği, 11 seçkin matematikçi tarafından yapılan “First Proof” adlı meydan okumanın ilk sonuçlarına dayanarak değerlendirildi. 5 Şubat’ta başlayan testin sonuçları Sevgililer Günü sabahı açıklandı. 10 matematik problemi üzerinde yapılan çalışmalar, büyük dil modellerinin henüz tüm soruları çözemediğini gösterdi. First Proof ekibi, yapay zekâya matematikte daha büyük sonuçlar elde etme fırsatı sunacak olan 10 lemma sundu. Bu lemma’lar, geleneksel tekniklerle çözülemeyen, özgün yaklaşımlar gerektiren problemler içeriyordu.

Stanford Üniversitesi’nde matematik profesörü olan Mohammed Abouzaid’e göre, seçilen problemler standart tekniklerle çözülemeyecek kadar karmaşıktı ve belirli bir özgünlük gerektiriyordu. Bu meydan okuma, yapay zekânın sınırlarını belirlerken aynı zamanda matematik camiasında büyüyen yapay zekâ meraklısı alt kültüre de ışık tuttu.

First Proof ekibinin cumartesi sabahı açıkladığı bulgular, yapay zekânın her problem için son derece kendinden emin ispatlar üretebildiğini ancak bunlardan yalnızca ikisinin doğru olduğunu gösterdi. Bazı çözümlerde insan katkısı olduğu izlenimi oluştu ve uzmanlar yapılan gönderilerdeki hataları sorguladı. Yapay zekânın başarıları, matematiği değiştirmenin eşiğinde olduğumuzu gösterirken bazı matematikçiler ise modellerin zorlandığını düşündüklerini ifade etti.