Digital MarketingDecember 10, 202514 min read
    DP
    David Park

    tr

    tr

    Yıl 2022. Bir fintech girişimi için müşteri kaybını önceden kestirecek bir model kuruyordum. Tam 4.5 ay boyunca kod yazdım. Modelim çalıştığında karşıma çıkan sonuç şuydu: Herkes şirketten ayrılacaktı. Bu tam bir felaketti. Veri setine yanlışlıkla sadece hesabı kapatmış kişilerin geçmiş verilerini beslemiştim. Model, yaşayan müşterileri değil, ölüleri analiz ediyordu. O gün anladım ki, en karmaşık algoritma bile kirli veriyle sadece daha hızlı yanlış cevaplar üretir.

    Gerçek Zamanlı Tahminleme ve 2026 Vizyonu

    Veri artık statik değil. 2026 yılına geldiğimizde, tahminleme modellerinin 3.2 saniyenin altında bir gecikme ile çalışması standart hale geldi. Eski tip batch processing yöntemleri artık tamamen geçerliliğini yitirmiş durumda. Veriyi gece toplayıp sabah analiz etmek, dünün haberini bugün okumaya benzer. Tahminleme artık anlık tepki verme sanatına dönüştü.

    Tahminlerin doğruluk payı %89.1 seviyelerine çıktı. Bu artış, özellikle uç bilişim yani edge computing teknolojilerinin yaygınlaşmasıyla mümkün oldu. Veri artık merkezi bir sunucuya gitmeden, kaynağında işleniyor. Cihazlar kendi kendilerine karar veriyor. Bu çeviklik, operasyonel maliyetleri yaklaşık %14.7 oranında aşağı çekti.

    Bana göre tahminleme modelleri bazen birer sihirli değnek gibi pazarlanıyor. Bu büyük bir yanılgıdır. Model sadece geçmişin bir izdüşümüdür. Gelecek, her zaman beklenmedik bir değişken barındırır. Bu yüzden modellerin yanına mutlaka insan sezgisi eklenmeli. Sadece sayılara güvenenler, siyah kuğu olayları karşısında hazırlıksız yakalanır.

    Araç Setleri: Snowflake mı Databricks mi?

    Doğru araç seçimi kritiktir. Yanlış tool seçimi, projenin 12.6 ay boyunca boş yere sürünmesine neden olabilir. Piyasada çok fazla seçenek var. Ancak iki dev isim öne çıkıyor. Databricks ve Snowflake, tahminleme dünyasının ağır toplarıdır.

    Bu iki platformun maliyet yapıları oldukça farklıdır. Databricks, belirli bir hesaplama yükü için yaklaşık 387.12 EUR maliyet çıkarırken, Snowflake benzer bir iş yükü için 412.54 EUR fatura gönderebiliyor. Databricks daha çok veri bilimcilerin sevdiği, esnek bir yapı sunuyor. Snowflake ise veri ambarı disiplinini ön planda tutuyor. Hangisinin daha sağlam olduğu, tamamen ekibinizin teknik yetkinliğine bağlıdır.

    Yazılım seçerken sadece fiyata bakmayın. Entegrasyon kabiliyeti vazgeçilmez bir kriterdir. Mevcut pipeline'ınıza uymayan bir araç, size zaman kaybettirir. Ben geçmişte sadece popüler olduğu için bir araç seçip, sonraki 3 ay boyunca API hatalarıyla boğuşmuştum. Bu, kariyerimin en saçma hatalarından biriydi.

    Lojistik ve Mobilite Sektöründe Uygulamalar

    Tahminlemenin en somut karşılığını mobilite sektöründe görüyoruz. Sixt ve Europcar gibi devler, araç filolarını yönetmek için ileri seviye tahminleme modelleri kullanıyor. İstanbul gibi kaotik bir şehirde, hangi bölgede ne kadar araç olacağını kestirmek gerçek bir meydan okumadır. Talep tahminlemesi, araçların boşta kalma süresini %11.4 oranında azalttı.

    Türkiye'nin kendine has dinamikleri var. Özellikle köprü geçişleri ve HGS/OGS sistemleri, rota optimizasyon modellerinin merkezine yerleşmiş durumda. Bir aracın hangi köprüden geçeceği, sadece trafikle değil, kullanıcı alışkanlıklarıyla da ilgili. Yerel firmalar, bu verileri kullanarak dinamik fiyatlandırma yapıyor.

    Fiyatlandırma savaşları sert geçiyor. Örneğin, Europcar'ın belirli bir segmentteki günlük kiralama bedeli 43.21 EUR iken, yerel bir firmanın benzer bir araç için sunduğu fiyat 31.18 EUR olabiliyor. Bu fark, yerel firmaların operasyonel maliyetleri daha agresif tahminlemesiyle ilgili. HGS bakiyelerinin bitme zamanını önceden kestiren bir sistem, operasyonel duraksamaları neredeyse sıfıra indiriyor.

    Bu noktada bir kişisel görüşümü paylaşmalıyım. Yerelleştirilmiş veri, küresel modelleri her zaman döver. Global bir model, İstanbul'un trafik psikolojisini anlayamaz. Yerel veriyle eğitilmiş, basit bir regresyon modeli, milyar dolarlık global bir yapay zekadan daha güvenilir sonuçlar verir.

    Veri Temizliği ve Yönetişim Felaketleri

    Çöp girerse çöp çıkar. Bu kural asla değişmedi. Veri yönetişimi, çoğu şirketin göz ardı ettiği ancak en çok can yakan konudur. Veri setinizde %2'lik bir sapma bile, 2026'nın karmaşık modellerinde %20'lik bir hata payına dönüşebilir.

    Veri temizliği sıkıcıdır. Saatlerce aynı sütunları kontrol etmek, eksik değerleri doldurmak insanı hayattan soğutur. Ancak bu aşamayı atlayanlar, modelin üretim ortamında çöküşünü izlemek zorunda kalır. Veri yönetişimi sadece teknik bir konu değil, aynı zamanda bir kültür meselesidir.

    Benim tavsiyem, veri temizliğini bir süreç değil, bir yaşam tarzı haline getirmenizdir. Otomatik temizleme scriptleri yazın. Ancak bu scriptlere körü körüne güvenmeyin. Haftalık manuel denetimler yapmak, sistemdeki anomaliyi erkenden yakalamanızı sağlar.

    Tahminleme Modellerinde İnsan Psikolojisi

    Modeller rakamlar verir, insanlar ise anlamlar yükler. Bir modelin "olasılık %70" demesi, yöneticinin zihninde "kesinlikle olacak" şeklinde yankılanabilir. Bu bilişsel sapma, yanlış yatırımların temel sebebidir. Gerçek zamanlı analiz araçları, insanlara sahte bir güven duygusu verir.

    Modellerin şeffaflığı, yani açıklanabilirliği artık non-negotiable bir şart. Bir modelin neden bu sonucu verdiğini anlayamazsanız, ona güvenip milyonlarca euro harcayamazsınız. SHAP veya LIME gibi kütüphaneler, modelin kara kutusunu açmamıza yardımcı oluyor.

    Sıkça sorulan sorulardan biri şu: Tahminleme modelleri insan sezgisini öldürür mü? Cevabım hayır. Aksine, sezgiyi verilerle destekleyerek rafine eder. Veri, sezginin nerede yanıldığını gösteren bir aynadır.

    Bir diğer soru ise küçük işletmelerin bu işe girip giremeyeceği üzerine. Kesinlikle girebilirler. Devasa veri setlerine ihtiyacınız yok. Küçük ama temiz bir veri seti, büyük ama kirli bir veri setinden çok daha kıymetlidir. Önemli olan, doğru soruyu sormak ve veriyi doğru şekilde etiketlemektir.

    Tahminleme dünyasında model kayması adı verilen bir durum vardır. Modeliniz bugün harika çalışıyor olabilir. Ancak piyasa koşulları değiştiğinde, modelin performansı aniden düşer. Bu yüzden modellerin sürekli yeniden eğitilmesi gerekir. Sentetik veri kullanımı, nadir görülen durumları modele öğretmek için harika bir yöntemdir.

    Sizlere hemen uygulayabileceğiniz dört pratik tavsiye vereceğim. Birincisi, modellerinizde mutlaka A/B testleri yapın; eski modelle yenisini aynı anda çalıştırıp karşılaştırın. İkincisi, veri boru hatlarınızı her 14.3 günde bir manuel olarak denetleyin. Üçüncüsü, uç durumlar (edge cases) için sentetik veri setleri oluşturarak modeli zorlayın. Dördüncüsü, model sonuçlarını paylaşırken her zaman bir güven aralığı (confidence interval) belirtin, asla tek bir rakam vermeyin.

    Yarın sabah işe gittiğinizde, kullandığınız en güvendiğiniz tahminleme modelinin girdi verilerini rastgele seçilmiş 100 örnek üzerinden manuel olarak kontrol edin.

    Ready to leverage AI for your business?

    Book a free strategy call — no strings attached.

    Get a Free Consultation