AI eval nasıl yapılır? Modeli test etmenin sistematik yolu
Vibe check yetersiz. Eval dataset, metrikler, otomatik test, insan değerlendirmesi — bir eval pipeline kur.
AI Eval Nasıl Yapılır?
"Prompt'u değiştirdim, daha iyi çalışıyor" — bunu nasıl biliyorsun? Hissetle mi? Eğer cevap "evet" ise, eval'ın yok demektir.
Eval Nedir?
Eval = AI çıktısının kalitesini sistematik ve tekrarlanabilir şekilde ölçmek.
Vibe check ≠ eval. Vibe check birkaç örneğe bakıp "iyi görünüyor" demektir. Eval, N tane girdiyi çalıştırıp skorlamak ve önceki versiyonla karşılaştırmaktır.
Eval Pipeline'ının 4 Adımı
1. Dataset Oluştur
En az 50-100 örnek girdi-çıktı çifti. Kaynaklar:
- Gerçek kullanıcı sorguları (production logları)
- Edge case'ler (bilinçli olarak zor senaryolar)
- Regression örnekleri (daha önce bozulan şeyler)
2. Metrik Belirle
- Doğruluk: Cevap doğru mu? (binary veya 1-5 skala)
- Uygunluk: İstenilen format ve tona uyuyor mu?
- Hallucination oranı: Uydurma bilgi var mı?
- Güvenlik: Zararlı içerik üretiyor mu?
- Latency: Ne kadar sürüyor?
3. Otomatik Değerlendirme
İlk geçiş için başka bir AI modeli kullanarak otomatik skor:
def eval_response(question, response, expected):
prompt = f"""
Soru: {question}
Beklenen cevap: {expected}
AI cevabı: {response}
Bu cevabı 1-5 arasında skorla:
1 = tamamen yanlış
5 = mükemmel
Sadece sayı yaz.
"""
score = call_claude(prompt)
return int(score)
4. İnsan Değerlendirmesi
Otomatik eval %70-80 doğru. Geri kalan %20-30 için insan:
- Rastgele 20 örnek seç
- 2 kişi bağımsız skorlasın
- Inter-annotator agreement hesapla
CI/CD'ye Entegrasyon
Her prompt değişikliğinde otomatik eval çalıştır:
- Baseline skoru kaydet
- Yeni prompt'un skorunu karşılaştır
- Skor düşerse PR'ı blokla
Sonuç
Eval olmadan AI geliştirmek, test olmadan yazılım geliştirmek gibidir — bir süre çalışır, sonra çöker ve nerede bozulduğunu bulamazsın.