Cloudflare olayının lanet olası reteksi: peki gerçekte ne oldu? - Dünyadan Güncel Teknoloji Haberleri

Cloudflare olayının lanet olası reteksi: peki gerçekte ne oldu? - Dünyadan Güncel Teknoloji Haberleri

Cloudflare itiraf ediyor “çok gevşekti ve yeni ürünlerin ve bunlarla ilişkili veritabanlarının yüksek kullanılabilirlik kümesine entegre edilmesini gerektirmesi gerekirdi” ”


Kaynak : “ZDNet

Yüksek kullanılabilirliğin avantajları ve dezavantajları

Şimdiye kadar, çok iyi Ne için ? Çünkü Cloudflare personeli neyin yanlış olduğunu anlamak için günlüklere bakamadı


2 Kasım 2023’te müşteri arayüzleri Bulut parlamasıWeb siteleri ve API’lerin yanı sıra günlükler ve analiz araçları da dahil olmak üzere , düzgün çalışmayı durdurdu Örneğin devre kesicilerin neredeyse tamamı patlamıştı ve Flexentail bunları değiştirmek için yenilerini satın almak zorunda kaldı

Bu arada Cloudflare, bazı kritik sistem ve hizmetlerin henüz yüksek kullanılabilirlik kurulumuna entegre edilmediğini zor yoldan keşfetti 470 voltluk bir akım

Daha sonra veri merkezine güç sağlayan PGE transformatöründe toprak arızası oluştu Ayrıca Cloudflare’in tarama sürelerinin kabul edilebilir olması nedeniyle günlük sistemlerini yüksek kullanılabilirliğe sahip kümeye entegre etmeme kararının bir hata olduğu ortaya çıktı Milyonlarca avroluk soru şu: “Ne oldu?”

Şirketin üç ana veri merkezinden birinde elektrik kazası meydana geldi

Cloudflare CEO’su Matthew Prince’e göre cevap, şirketin Oregon’daki (Amerika Birleşik Devletleri) üç ana veri merkezinden birinde meydana gelen bir elektrik kazasıydı

Hata!

Tek personel olarak bir hafta boyunca bir teknisyen iş başında

Belki de kimse başa çıkamadı Daha da kötüsü Flexential, Cloudflare’e bir şekilde jeneratör gücüne geçtiğini söylemedi

Veri merkezinin en iyi uygulamalarına aşina olmayanlar için bu yaklaşımdan kaçınılmalıdır 280’i İçerik Dağıtım Ağı (CDN) hizmetlerine güveniyor Ama hepsi birbirinden bağımsız Ve toprak arızası dediğimde, sigortayı tamir etmek için sizi bodruma inmeye zorlayan türden bir kısa devreden bahsetmiyorum

Talihsizlik! Flexential, güç kaynağını desteklemek için jeneratörlerini açtı

Üç veri merkezi, doğal bir felaketin hepsinin birden çökmesine neden olmayacağı kadar birbirinden yeterince uzakta Bölgenin diğer iki veri merkezi yüksek kullanılabilirlik kümesini destekledi ve kritik hizmetleri çevrimiçi tuttu Bu açıkça gerçek bir sorundu Bu olaydan ve bunun müşterilerimize ve ekibimize yaşattığı zorluktan dolayı üzgünüm ve utanıyorum Dağıtılmış sistemlerde iyiyiz Ancak Flexential, kesilen elektriği tamamlamak için jeneratörlerini çalıştırdı Ancak yüksek kullanılabilirlik kümesinde olması gereken hizmetlerin bir alt kümesi, yalnızca yeni ölen veri merkezinde çalışan hizmetlere bağlıydı

Bağlantıyı ve tüm jeneratörleri kesen 12

Merkezi sistemine bağlı kalan dağıtık sistemlerin kralı

Birçok şirket bunu yapıyor ancak Prens itiraf ediyor Bu durum “Cloudflare’in lehine çalışmıyor Portland General Electric (PGE), binanın bağımsız güç kaynaklarından birini kesmek zorunda kaldı Her birinin birden fazla yedekli ve bağımsız güç kaynağı ve İnternet bağlantısı vardır Her ne kadar pek çok sistem beklendiği gibi çevrimiçi kalsa da, bazı kritik sistemlerde, onları kullanılamaz hale getiren belirgin olmayan bağımlılıklar vardı 000 web sitesinden 3 Bu olayın asla yaşanmaması gerekirdi

Teorik olarak, invertörlerin sunucuları 10 dakika boyunca çalışır durumda tutması gerekiyordu, bu da jeneratörlerin tekrar çalışır duruma gelmesi için yeterli olurdu Kötü haber şu ki Cloudflare Dashboard ve uygulama programlama arayüzleri (API’ler) neredeyse iki gün boyunca ulaşılamadı


7,5 milyondan fazla web sitesi Cloudflare kullanıyorve dünyanın en popüler 10 Otuz altı saat sonra Cloudflare hizmetleri nihayet normale döndü Bu cümleyi okumanızdan daha kısa bir sürede bağlantıyı ve tüm jeneratörleri devre dışı bırakan 12 Büyük veri merkezi sağlayıcılarımızdan biri felaketle sonuçlanabilecek bir arıza yaşadığında bile bu tür bir kesintiyi önleyecek yüksek kullanılabilirliğe sahip sistemlerimiz olduğuna inanıyorduk

Saha dışı enerji ve jeneratörleri aynı anda kullanmıyoruz

İlk olarak Flexential’ın tesisindeki elektrik kesintisi beklenmedik bir hizmet kesintisine neden oldu Esnekve bu da birbirini takip eden sorunların ortaya çıkmasına neden oldu Cloudflare’in kontrol düzlemi ve analiz sistemleri, Hillsboro, Oregon çevresindeki üç veri merkezinde bulunan sunucularda çalışır Üstelik hizmetlerinin büyük bir kısmı temel tesislerin mevcudiyetine bağlıdır Ancak sitede gece nöbetçisi personeli “güvenlik ve yalnızca bir haftadır işte olan refakatsiz bir teknisyenden oluşuyordu Bu konu, yıl sonuna kadar benim ve ekibimizin büyük bir kısmının tüm dikkatini koruyacak İleriye dönük olarak Bay Prince şu sonuca vardı: “Veri merkezi sağlayıcımızda gördüğümüz ardışık kesintilere bile dayanabilecek doğru sistem ve prosedürlere sahibiz, ancak bu sistemleri ve prosedürleri uygularken daha titiz olmamız gerekiyor ve bunları bilinmeyen bağımlılıklar açısından test etmek Dolayısıyla HA küme hizmetleri Kafka ve Clickhouse’u aradığında yanıt alamadılar ” Kısacası durum umutsuzdu ” Merkezi tesislerimizde kesinti olsa bile neredeyse normal şekilde çalışmaya devam edebilmeleri için tüm hizmetlerimizi tüm müşterilerimizin kullanımına sunuyoruz ”

Birkaç saat sonra nihayet her şey normale döndü Bunun yerine, invertörler yaklaşık dört dakika sonra ölmeye başladı ve jeneratörler zaten asla zamanında çalıştırılamayacaktı Ve bu kolay değildi Ve son iki günün zorluğu bizi daha iyi hale getirecek

Birkaç güç dalgalanması olacağını tahmin eden Cloudflare ayrıca “tek güvenli kurtarma işleminin tüm kurulumun tamamen yeniden başlatılması olduğuna” karar verdi Yani tasarım gereği tesislerden biri arızalanırsa diğerleri yükü devralmalı ve çalışmaya devam etmelidir 470 volttan bahsediyorum Böylece kesinti devam etti Bu olay boyunca küresel ağımız beklendiği gibi çalışmaya devam etti ancak çekirdeğin mevcut olmaması durumunda çok fazla sistem başarısız oluyor Ancak veri merkezi, tesise güç sağlayan, belirli düzeyde bağımsızlığa sahip birden fazla güç kaynağına sahiptir

Prince sorunu açıklamak için elinden geleni yaptı:

Öncelikle bunun asla olmaması gerekirdi

4 Kasım’a kadar süren olay nihayet çözümlendi com”



genel-15

İyi haber şu ki CDN başarısız olmadı

O haklı Bu yaklaşım, tüm sunucuların yeniden inşa edilmesini ve yeniden başlatılmasını gerektiriyordu; bu da saatler sürdü Aynı zamanda aktif, yedekli veri kümelerinden yararlanabilecek kadar da yakındırlar Dağıtılmış sistemler ürünlerini kullanmamız gerekiyor

Bu tür bir şey büyük internet hizmet şirketlerinin başına gelmez veya en azından gelmemesi gerekir

Özellikle, günlükleri işleyen ve Cloudflare’in analitiğini güçlendiren iki kritik hizmet: Kafka’nın Ve ClickHouse – yalnızca çevrimdışı veri merkezinde mevcuttu

Ve üç veri merkezi “çoğunlukla” yedekli olsa da tamamen yedekli değildi

Kulağa harika geliyor, değil mi? Ama olan bu değil