deep-dives 9 dk okuma

AI eval nasıl yapılır? Modeli test etmenin sistematik yolu

Vibe check yetersiz. Eval dataset, metrikler, otomatik test, insan değerlendirmesi — bir eval pipeline kur.

AI Eval Nasıl Yapılır?

"Prompt'u değiştirdim, daha iyi çalışıyor" — bunu nasıl biliyorsun? Hissetle mi? Eğer cevap "evet" ise, eval'ın yok demektir.

Eval Nedir?

Eval = AI çıktısının kalitesini sistematik ve tekrarlanabilir şekilde ölçmek.

Vibe check ≠ eval. Vibe check birkaç örneğe bakıp "iyi görünüyor" demektir. Eval, N tane girdiyi çalıştırıp skorlamak ve önceki versiyonla karşılaştırmaktır.

Eval Pipeline'ının 4 Adımı

1. Dataset Oluştur

En az 50-100 örnek girdi-çıktı çifti. Kaynaklar:

Gerçek kullanıcı sorguları (production logları)
Edge case'ler (bilinçli olarak zor senaryolar)
Regression örnekleri (daha önce bozulan şeyler)

2. Metrik Belirle

Doğruluk: Cevap doğru mu? (binary veya 1-5 skala)
Uygunluk: İstenilen format ve tona uyuyor mu?
Hallucination oranı: Uydurma bilgi var mı?
Güvenlik: Zararlı içerik üretiyor mu?
Latency: Ne kadar sürüyor?

3. Otomatik Değerlendirme

İlk geçiş için başka bir AI modeli kullanarak otomatik skor:

def eval_response(question, response, expected):
    prompt = f"""
    Soru: {question}
    Beklenen cevap: {expected}
    AI cevabı: {response}

    Bu cevabı 1-5 arasında skorla:
    1 = tamamen yanlış
    5 = mükemmel
    Sadece sayı yaz.
    """
    score = call_claude(prompt)
    return int(score)

4. İnsan Değerlendirmesi

Otomatik eval %70-80 doğru. Geri kalan %20-30 için insan:

Rastgele 20 örnek seç
2 kişi bağımsız skorlasın
Inter-annotator agreement hesapla

CI/CD'ye Entegrasyon

Her prompt değişikliğinde otomatik eval çalıştır:

Baseline skoru kaydet
Yeni prompt'un skorunu karşılaştır
Skor düşerse PR'ı blokla

Sonuç

Eval olmadan AI geliştirmek, test olmadan yazılım geliştirmek gibidir — bir süre çalışır, sonra çöker ve nerede bozulduğunu bulamazsın.

AI eval nasıl yapılır? Modeli test etmenin sistematik yolu

AI Eval Nasıl Yapılır?

Eval Nedir?

Eval Pipeline'ının 4 Adımı

CI/CD'ye Entegrasyon

Sonuç

İlgili yazılar

RAG nedir? Retrieval Augmented Generation açıklaması

Prompt Engineering temelleri: 7 teknik