Büyük dil modellerini nasıl değerlendiririz?

Düşündüğünüz kadar kolay değil.

OpenAI'nin ChatGPT'si ve Meta'nın Llama'sı gibi büyük dil modelleri (LLM'ler) bir süredir hayatımızı dönüştürüyor. Yine de, seçilebilecek bu kadar çok model varken, birçok kişi hangi modelin "en iyi" olduğunu merak ediyor. Bu soruyu yanıtlamak için hem araştırmacılar hem de kullanıcılar, hangi modelin en zor kodlama problemlerini çözdüğünü veya en yüksek SAT puanını aldığını görmek için genellikle kıyaslamalara ve testlere başvurur. Bu yazıda üç noktayı tartışacağım.

Modern LLM'lerin yeteneklerini değerlendirmek için ne benchmarklar ne de geleneksel testler uygun değildir.
İnsan benzeri zeka ve bilişe sahip olmadan insan benzeri yetenekler sergileyen LLM'ler, psikometri alanına tamamen yeni boyutlar katıyor.
Sonuçları güvenle yorumlanabilecek LLM değerlendirmelerine ulaşmak için kapsamlı araştırma gerekecektir.

Benchmarklar

Benchmarklar geleneksel olarak yazılım ve donanımın performansını değerlendirmek için kullanılmıştır. Bir kıyaslama, bir aracın özel olarak tasarlandığı bir dizi görevi tamamlamasını sağlayarak onun performansını değerlendirir. Bir görüntü sınıflandırıcısı, bir seçilmiş görüntü sınıflandırması ile kıyaslanır ve bir bilgisayar işlemcisi karmaşık hesaplamalar dizisi çalıştırarak kıyaslanır.

LLM'ler söz konusu olduğunda, kıyaslama yapmak basit değildir. Birincisi, LLM'ler belirli bir görev için eğitilmez: metin sınıflandırması için kullanılabilirler, ancak metin sınıflandırıcı değildirler; Deneme puanlamalarında kullanılabilirler, ancak otomatik puanlayıcı değiller – ve benzeri. Bu nedenle, herhangi bir kıyaslama sonucu sadece hangi LLM'nin kullanıldığına değil, aynı zamanda nasıl kullanıldığına da bağlıdır. Bu belirsizlik, sonuçların güvenilirliğini azaltır ve örneğin farklı bir promptun farklı sonuçlara yol açıp açmayacağı konusunda tartışmalara yol açar.

Benchmark'larla ilgili iki diğer yaygın sorun ise doygunluk, yani tüm yeni modellerin mükemmel puanlara yaklaşması ve kirlenme, yani bir benchmark'ın bazı veya tüm unsurlarının modelin eğitim verilerine dahil edilmesidir. Her iki sorun da LLM'ler için özellikle akrittir çünkü ilerlemeleri hızlıdır ve eğitim verileri neredeyse tüm interneti kaplar.

Bu ve diğer sorunlar nedeniyle, birçok LLM kıyaslaması, LLM'nin genel kalitesini değerlendirmede sınırlı değer sunar. Bu eksiklik, kıyaslamaların çeşitli kalite kriterlerine göre kıyaslanması için girişimlerin tetiklenmesine yol açtı. Bu tür çabalar, özenle hazırlanmış sorun setlerinden oluşan, doygunluk ve kirlenme açısından izlenen ve gerekirse güncellenen veya yeniden kalibre edilen yüksek kaliteli bir kıyaslama seti oluşturmayı amaçlar. Bu bağlamda, kıyaslamalar bu tür uygulamaların başından beri yaygın olduğu geleneksel testlere yaklaşıyor. Ancak, kıyaslamadan yapay zeka testine geçmek kendi zorluklarını getiriyor.

Testler

Neredeyse herkes hayatının bir noktasında sınavdan geçti; ister üniversiteye giriş, ister mesleki lisans, ister ehliyet olsun. Bu tür testler, kıyaslamalardan belirgin şekilde farklıdır. En önemlisi, bir testin değerlendirdiği yetenek veya bilgi doğrudan ölçülenemeyecek kadar karmaşıktır. Örneğin, bir öğrencinin üniversiteye hazırlığı, belirli lisans programlarına katılmasına izin verilerek test edilemez. Bu nedenle, testlerin geçerli olması için dikkatlice tasarlanması gerekir.

İki yaygın geçerlilik kanıtı türünü ele alın: öngörücü ve içerikle ilgili. Bir testin geçerliliği için öngörücü kanıt, puanının önemli gözlemlenebilir sonuçları ve performansları ne ölçüde öngörmesiyle belirlenebilir. Örneğin, SAT puanları akademik başarının çeşitli ölçütleriyle iyi korelasyonludur. İçerikle ilgili kanıtlar, testin test edilen yeteneği yansıttığını göstermektedir. Örneğin, tenis bağlamında bir cebir sorusu tenis kurallarını bilmesi gerekmemeli ve sadece tenis kuralları bilgisiyle cevaplanabilmemelidir.

LLM'lerin insanlar için tasarlanmış testlere girmesine izin verdiğimizde geçerlilik sorunları kaçınılmaz olarak ortaya çıkar. Öngörücü kanıtları ele alın: Bir LLM SAT'tan üstün olabilir ama üniversiteye kaydolmaz; Baro sınavını başarıyla geçebilir, ancak en azından öngörülebilir gelecekte müvekkillerini mahkemede temsil etmeyecek. Benzer sorunlar içerikle ilgili kanıtlarda da ortaya çıkar. Bir insan cebir testinde yüksek puan alırsa, testin maddeleriyle incelenen cebir yasalarını anladığı ve uygulayabildiği sonucuna varılabilir. Buna karşılık, LLM'lerin cebir problemlerini nasıl çözdükleri ve gerçekten genelleştirilebilir yasaları öğrenip öğrenmedikleri sorusu hâlâ büyük ölçüde cevapsızdır. Genellikle, test edilen yapı ne kadar karmaşıksa, LLM sınav puanının yorumu o kadar spekülatif hale gelir: Tıbbi lisans sınavında yüksek puan alan bir LLM gerçekten klinik tıp bilgisini veya hasta yönetimi yeteneklerini gösterir mi?

Ancak, LLM'lere daha fazla görev ve sorumluluk devredildikçe, özellikle LLM'ler için tasarlanmış erken testlerin ortaya çıktığını görüyoruz. Örneğin, müşteri hizmetleri için bir LLM kullanan bir şirket, yeni bir modeli dağıtmadan önce test etmek zorundadır. Bu tür testler kıyaslamalar ve akıl sağlığı kontrolleri koleksiyonu olarak başlasa da, zamanla daha yapılandırılmış hale gelir ve önceki modellerin karşılaştığı ve belki de yanlış yönetilen zorlukların önemli yönlerini kapsayan daha sofistike öğeleri içerir. Sonuç olarak, test bir modelin şirketin müşteri hizmetleri ihtiyaçlarını karşılama yeteneğinin giderek daha bilgilendirici bir göstergesi haline gelecektir.

Böyle "proto testler" faydalı olsa da, genellikle tescilli, kapsamı sınırlıdır ve bilimsel sorgulamadan ziyade operasyonel ihtiyaçlar tarafından yönlendirilir.

Araştırma Zorlukları

Yukarıda belirtildiği gibi, LLM'lerin belirgin insan dışı zekası, test teorisi ve psikometri temelinde duran birçok varsayımı geçersiz kılar. LLM'ler için hangi testlerin uygun olduğunu ve test sonuçlarının hangi yorumlarının bilimsel olarak sağlam deneylerle desteklenebileceğini belirlemek için önemli araştırma çalışmaları gerekecektir.

Ayrıca, sıfırdan devasa veri setleriyle eğitilen büyük ağlar, insan benzeri yeteneklere sahip tek sistemler olarak kalması pek olası değildir. Örneğin, Ortak Gömülü Öngörücü Mimariler (JEPA'lar) çevrelerini doğrudan gözlemleyip etkileşime girerek daha insani bir şekilde öğrenirken, nörosembolik yapay zekalar sembolik akıl yürütme ve açık bilgi temsiline odaklanır. Bu nedenle, araştırmacılar yakında aynı yetenekleri ortaya çıkaran çok sayıda farklı zekâ türüyle karşılaşabilirler.

Bu temel soruları gündeme getiriyor: Yapıları altta yatan zeka türünden bağımsız olarak tanımlayabilir miyiz? Örneğin, "eleştirel düşünme" yeteneği insanlar ve çeşitli yapay zeka türleri için aynı mi? Eğer öyleyse, bunu nasıl ölçmeliyiz ? Her tür zekanın kendi testini gerektirecek mi? Örneğin, eleştirel düşünme testi teste girenlerin farklı derecelerde okuryazarlık düzeyini hesaba katabilir, ancak muhtemelen tüm sınav yapanların ana yönleri sayabildiğini ve bildiğini varsayacaktır. LLM'ler için durum tam tersidir: tasarım gereği oldukça okuryazarlar ama temel becerilerde eksik olabilirler. Bu farklılıklar hesaba katılmadığı sürece, LLM test sonuçları yanlış yorumlanmaya açık kalacaktır.

Son olarak, yapay zeka testleri ile psikometrinin daha yerleşik alanları arasında ilginç bir çapraz döllenme olabilir. Örneğin, yaş, cinsiyet, kültür ve eğitim gibi faktörlerin nörolojik bozuklukların yanı sıra bireylerde bilişsel süreçleri etkilediği gösterilmiştir. Bu bağlamda, yapay zeka nöroçeşitli bir zekanın aşırı bir örneği olarak görülebilir. Bu aşırı durumun daha iyi anlaşılması, daha kişiselleştirilmiş, daha adil ve daha objektif değerlendirmelerin yolunu açabilir; böylece benzersiz bilişsel özelliklere sahip öğrencilerin yetkinliklerinin tam yelpazesini göstermesini sağlayabilir.

Sonuç olarak, LLM'lerin değerlendirilmesi önemli bir zorluk olsa da, ETS'deki araştırmacı arkadaşlarım ve ben, sınırları zorlama ve modern psikometri tekniklerini geliştirme fırsatından dolayı heyecanlıyız.

Michael Fauss , ETS Araştırma Enstitüsü'nde araştırma bilimcisidir. Çalışmaları etik yapay zeka üzerine odaklanmaktadır.

{"teaserCardGridModuleHeader":"İçgörü İlerlemeyi Sağlar","teaserCardGridModuleDescription":"Eğitimi, işi ve insan potansiyelini ileriye taşıyan araştırmaları, hikayeleri ve fikirleri keşfedin.","teaserCardGridModuleTheme":"ets-xdark","showSeparator":true,"teaserCards":[{"teaserCardTitle":"ETS\u0027de yapay zekaya Keşf","teaserCardDescription":"Yapay zeka vizyonumuz, ilkelerimiz ve çözümlerimiz hakkında bilgi edinin - ve iş gücümüzü gerçek dünya yapay zeka becerileriyle nasıl güçlendirdiğimizi öğrenin.","teaserCardImage":"/content/dam/ets-org/brands/insights-and-perspectives/ai.png","teaserCardImageAlt":"Resim 1","teaserCardLink":"/ai.html","enableGatedContent":false,"ctas":[]},{"teaserCardTitle":"İnsan İlerleme Raporu","teaserCardDescription":"ETS\u0027nin misyonunun insanlar ve etki yoluyla nasıl hayata geçtiğini görün. Bunlar dönüşüm, fırsat ve eylemde ilerleme hikayeleridir.","teaserCardImage":"/content/dam/ets-org/Rebrand/Photos/insights-teaser-card-image-1.webp","teaserCardImageAlt":"Resim 2","teaserCardLink":"/human-progress-report.html","enableGatedContent":false,"ctas":[]}],"ctas":[]}