← Tüm yazılar
deep-dives 9 dk okuma

AI eval nasıl yapılır? Modeli test etmenin sistematik yolu

Vibe check yetersiz. Eval dataset, metrikler, otomatik test, insan değerlendirmesi — bir eval pipeline kur.

AI Eval Nasıl Yapılır?

"Prompt'u değiştirdim, daha iyi çalışıyor" — bunu nasıl biliyorsun? Hissetle mi? Eğer cevap "evet" ise, eval'ın yok demektir.

Eval Nedir?

Eval = AI çıktısının kalitesini sistematik ve tekrarlanabilir şekilde ölçmek.

Vibe check ≠ eval. Vibe check birkaç örneğe bakıp "iyi görünüyor" demektir. Eval, N tane girdiyi çalıştırıp skorlamak ve önceki versiyonla karşılaştırmaktır.

Eval Pipeline'ının 4 Adımı

1. Dataset Oluştur

En az 50-100 örnek girdi-çıktı çifti. Kaynaklar:

  • Gerçek kullanıcı sorguları (production logları)
  • Edge case'ler (bilinçli olarak zor senaryolar)
  • Regression örnekleri (daha önce bozulan şeyler)

2. Metrik Belirle

  • Doğruluk: Cevap doğru mu? (binary veya 1-5 skala)
  • Uygunluk: İstenilen format ve tona uyuyor mu?
  • Hallucination oranı: Uydurma bilgi var mı?
  • Güvenlik: Zararlı içerik üretiyor mu?
  • Latency: Ne kadar sürüyor?

3. Otomatik Değerlendirme

İlk geçiş için başka bir AI modeli kullanarak otomatik skor:

def eval_response(question, response, expected):

prompt = f"""

Soru: {question}

Beklenen cevap: {expected}

AI cevabı: {response}

Bu cevabı 1-5 arasında skorla:

1 = tamamen yanlış

5 = mükemmel

Sadece sayı yaz.

"""

score = call_claude(prompt)

return int(score)

4. İnsan Değerlendirmesi

Otomatik eval %70-80 doğru. Geri kalan %20-30 için insan:

  • Rastgele 20 örnek seç
  • 2 kişi bağımsız skorlasın
  • Inter-annotator agreement hesapla

CI/CD'ye Entegrasyon

Her prompt değişikliğinde otomatik eval çalıştır:

  • Baseline skoru kaydet
  • Yeni prompt'un skorunu karşılaştır
  • Skor düşerse PR'ı blokla

Sonuç

Eval olmadan AI geliştirmek, test olmadan yazılım geliştirmek gibidir — bir süre çalışır, sonra çöker ve nerede bozulduğunu bulamazsın.

İlgili yazılar