Yazı: 13:27 Editörden

OpenAI’nin Yeni Telemetri Servisi 3 Saatlik Hizmet Kesintisine Neden Oldu

ChatGPT, API ve Sora hizmetlerinde yavaşlamalar ve erişim sorunları yaşandı.

OpenAI, 11 Aralık Çarşamba günü yaşanan 3 saatlik kesintinin, yeni telemetri hizmetinin devreye alınması sırasında oluşan teknik sorunlardan kaynaklandığını açıkladı. Kesinti sırasında ChatGPT, API ve Sora hizmetlerinde yavaşlamalar ve erişim sorunları yaşandı.

Kubernetes Sistemindeki Çakışma Kesintiyi Tetikledi

OpenAI’nin yayımladığı olay raporuna göre, şirketin Kubernetes kontrol düzlemini iyileştirmek için yeni bir telemetri servisi devreye alındı. Bu servis, sistemlerin detaylı metriklerini toplayarak görünürlüğü artırmayı ve sistem güvenilirliğini iyileştirmeyi amaçlıyordu. Ancak servis devreye alındıktan yalnızca dört dakika sonra, Kubernetes API sunucularını aşırı yükleyen kaynak yoğun operasyonlar devreye girerek sistemde zincirleme arızalara neden oldu.

Olay, OpenAI’nin kritik altyapı kümelerini etkileyerek Kubernetes kontrol düzlemini devre dışı bıraktı. Sorunun tespiti dakikalar içinde sağlanırken, çözüm süreci 3 saat sürdü. Şirket, bu tür durumların tekrarlanmaması adına altyapı değişikliklerinde kademeli devreye alma ve gelişmiş izleme sistemlerinin uygulanacağını belirtti.

Özür ve Önlemler

OpenAI, raporda şu açıklamayı yaptı: “Bu olay, filomuz genelinde yeni bir telemetri hizmetini kullanıma sunmaya yönelik içsel bir değişiklikten kaynaklanmıştır. Bir güvenlik ihlali ya da yakın zamandaki bir lansmanla ilişkili değildir. Yaşanan bu kesintinin ChatGPT kullanıcılarından geliştiricilere, OpenAI ürünlerine güvenen işletmelere kadar tüm müşterilerimiz üzerindeki etkisi için içtenlikle özür dileriz. Beklentilerimizin altında kaldık.

OpenAI, yaşanan bu olayın ardından altyapı değişikliklerinde daha iyi izleme ve kademeli dağıtım yöntemlerini öncelikli olarak uygulayacaklarını belirtti.

OpenAI’nin Kullanıcı Tabanı Büyümeye Devam Ediyor

Son dönemde OpenAI, hızla büyüyen kullanıcı tabanıyla dikkat çekiyor. ChatGPT, haftalık 300 milyon aktif kullanıcıya ulaşırken, günde 1 milyar kullanıcı mesajı işliyor. Şirket, Kasım 2023’teki yeni mağaza lansmanından kısa bir süre sonra “büyük bir kesinti” yaşamıştı.

Öte yandan, OpenAI’nin 1 yıl içinde 1 milyar kullanıcıya ulaşmayı hedeflediği belirtiliyor. Şirket, özellikle geliştirici ekosistemindeki ivmesini sürdürerek şu anda 1.3 milyon geliştiriciye ev sahipliği yapıyor.

OpenAI gibi teknoloji devleri, hizmetlerin sürekliliğini sağlamak adına yenilikçi çözümler üretirken, bu tür kesintiler kullanıcı güvenini ve iş sürekliliğini test ediyor. Altyapı iyileştirmeleri büyük faydalar sağlasa da, devreye alma süreçlerinin detaylı planlama ve kademeli dağıtımlarla yapılması kritik önem taşıyor. OpenAI’nin bu olaydan ders çıkarması, yalnızca kendi sistemlerinin güvenilirliğini artırmakla kalmayıp, teknoloji dünyasında benzer sorunlarla karşılaşan diğer şirketlere de bir rehber niteliğinde olabilir.

Kapat