Facebook’ta Çalışan Türk Mühendis Çöküş Gecesini Anlattı

 Facebook’ta Çalışan Türk Mühendis Çöküş Gecesini Anlattı
Okunuyor Facebook’ta Çalışan Türk Mühendis Çöküş Gecesini Anlattı

ÖZEL HABER – Dünyanın en güçlü şirketlerinden Facebook, tarihin en büyük internet krizini yaşadığında milyarlarca insan bağlantıdan mahrum kaldı. Yaklaşık 8 saat süren kesinti sebebi ile şirket 60 milyon dolar ziyan etti. Bu sayı gözünüze büyük görünebilir elbette, lakin okyanusun tabanına kendi internet çizgisini döşeyen, yılda 30 milyar dolara yakın para kazanan bir şirket için devede kulak kalıyor.

İlgili İçerikler:

Pekala o gece ne oldu, ne oldu da bir anda Facebook internetin altyapısından silindi, nasıl oldu da mühendisleri -adeta bir mağara adamı gibi- kendi şirketlerinin muhafaza kalkanlarını kesmek zorunda kaldı? Bundan 7 ay evvel Uber’den Facebook’a Kıdemli Yazılım Mühendisi olarak transfer olan Eren Algan çöküş gecesi yaşananları Webtekno’ya anlattı.

Facebook, Instagram, WhatsApp ve Oculus neden çöktü? Başlamadan evvel bilmeniz gereken iki kavram var: BGP ve DNS

  • BGP (Border Gateway Protocol): Kısaca ‘internetin posta servisi’ diyebiliriz. WhatsApp’tan bir ileti göndermek istediğinizde bu bilgiyi en hızlı/verimli formda karşıdaki şahsa göndermek için çalışır.
  • DNS (Domain Name System): Kısaca ‘internetin telefon rehberi’ diyebiliriz. Tarayıcıya “facebook.com” yazdığınızda bu adresin hangi IP’ye (bir nevi kimlik numarasına) sahip olduğunu söyleyen sistemdir.

Eren Algan, “Herhangi bir internet adresine ulaşabilmeniz için bu iki sistem de gereklidir. DNS, size yazdığınız karakterlerin hangi IP’ye ilişkin olduğunu söylerken, sizin bulunduğunuz ağdan gitmek istediğiniz ağa en süratli biçimde nasıl gideceğinizi söyleyen sistem ise BGP’dir.” diyor. Kolay bir örnekle anlatalım: WhatsApp’a girdiniz arama kutusuna bir kişinin ismini yazdınız; sonuçlar karşınıza geldi ve kişi ismi telefon numarası/profili ile eşleşti (DNS). Kişiyi aradınız, komut bilgisi evvel size en yakın baz istasyonuna, akabinde en yakın uydu ve karşıdaki şahsa en yakın baz istasyonuna son olarak telefonuna ulaştı (BGP).

Sonun başlangıcı: Yalnızca bir mühendis ve bir yanılgılı komut!

Şirketi Facebook hakkında “Kendi bilgi süreç merkezleri (data center’ları) olan, devasa bir ağ yapısına sahip bir kurum” diyen Eren Algan “Hatta ve hatta Pasifik Okyanusu’nun altindan kendi fiber optik kablolarini geçiren muazzam boyutta bir şirketten kelam ediyoruz. Bütün bu kablolu ağlar ise Facebook’un ‘backbone network’ ismini verdiği bir kablolama sistemi üzerinden geçiyor.” diyor.

Yani çoğunlukla kablosuz olarak temas kurduğumuz Facebook, aslında internetin tabiatı gereği tüm sistemlerini kablolara borçlu. Dolayısı ile şirket, bu kablolu altyapıya nizamlı olarak bakım yapması gerekiyor, yalnızca bu işle ilgilenen mühendislik grupları sistemli olarak testler gerçekleştiriyor.

“4 Ekim’de rutin bir ‘backbone’ bakım süreci sırasında bir mühendis, bu ağın ne kadar kapasitesinin olduğunu anlamak için bir komut çalıştırdı. Sonun başlangıcı olan bu komut, istenmeyen bir biçimde ‘backbone’ ağının bütün kontaklarını alaşağı etti; Facebook’u bütün bilgi süreç merkezlerini çevrimdışı hale getirdi.

Talihsizlikler serüveni devam ediyor: Eren, Facebook’un internetten -gerçek anlamda- yok olduğu o anı şöyle anlattı

Facebook sistemlerinin olağanda bu şekil kusurları engellemek üzerine heyeti olduğunu söyleyen Eren Algan; “Ancak talihsizlik olacak ki bu yanlışları anlamak için geliştirilen yazılımda da bir yanılgı meydana geldi, bu nedenle mühendisin girdiği kusurlu komut durdurulamadı. Sonucunda Facebook’un bilgi süreç merkezleri ile internet ortasındaki bağ koptu.” diyor:

“Facebook’un DNS sunucuları; şayet kendi bilgi süreç merkezlerine ulaşamazsa, kendilerini ‘ulaşılamaz/hatalı’ olarak işaretliyor, durumu posta servisine (BGP’ye) bildiriyor. Çöküş gecesi ise DNS sunucuları ‘Biz konutta yokuz, hatta mesken bile yok’ manasına gelen yanılgı verdi.”

Facebook’un bir anda çağlar öncesine dönüşü: Spiral testereyle sunucu kapılarını kesip, bir hırsız üzere kendi şirketine girmek…

Facebook ve bağlı tüm uygulamalarında bir sorun olduğunu anlayan çabucak mühendislerin işe koyulduğunu söyleyen Eren Algan “Hiç de beğenilen olmayan öbür bir sürprizle karşılaştılar. Bütün bilgi süreç merkezleri çevrimdışı olduğu için hiç kimsenin internet üzerinden müdahale etme ihtimali yoktu.” diyor. Yani dünyanın en büyük internet şirketlerinden Facebook’un çalışanları, yeryüzünde internet varken “internetsiz” kalıyor.

“Tek yapılabilecek şey, fiziki olarak bilgi süreç merkezlerine gidip, DNS sunucularını ayağa kaldırmak olacaktı. Alışılmış ki de bu o kadar kolay değildi. Facebook, hacker’lar bilgi süreç merkezlerine girmesinler diye ekstra güvenlik tedbirleri almıştı. Mühendisler bu bilgisayarlara ulaşmak için spiral testere makinesi alip adeta bir hırsız üzere kendi şirketlerinin fiziki güvenlik mahzurlarını kesmek zorunda kaldılar.”

Her şey olağana dönse de problemler bitmedi:

Mühendislerin kendi şirketlerine hırsız üzere girip yanlışlı komutu düzelttikten sonra sistemi ayağa kaldırdıklarını söyleyen Eren Algan “Tabii ki sıkıntılar bununla bitmedi. Bütün sistemleri bir anda açmak, bu boyuttaki şirketler için hiçbir vakit yanlışsız tahlil olamaz. Sistemler ayağa kaldırıldığında bilgisayarlarda çok fazla yük olacağı için, bu sistemlerin muhakkak siralarla ve aşikâr kapasitelerle ayağa kaldırılması gerekir.” diyor ve WhatsApp’ın neden yalnızca bir adet ampul üzere açma-kapama anahtarına sahip olmadığını anlıyoruz.

“Facebook, bu üzere muhtemel sorunları evvelden öngördüğü için ‘storm drills’ denilen ve mümkün bir felaket durumunda sistemlerin nasıl davranacağını test ettikleri bir protokole sahiptir. Bu durumda da sistemler aşikâr bir sırayla ve kapasiteyle ayağa kaldırmayı başardılar. Yaklaşık 5 saati geçen hummali çalışmanın sonunda Facebook, Instagram, WhatsApp, Oculus uygulamalarına erişim sağlandı :)”

“Ben 4 Ekim’de ofise gittiğimde içeride kullanılan ağa ulaşım sağlanamıyordu. Hatta ve hatta yazıcılar bile çalışmıyordu. İçerideki haberleşme sistemleri çalışmayınca, olaylardan haberimizin olması bile çok sonradan oldu.”

Artık herkesin aklındaki soruyu cevaplamaya geldi sıra… O kusurlu komutu yazan, Facebook’a 67 milyon dolar kaybettiren o mühendise n’oldu?

“Hiç bir şey olmadı, olmaz da. Facebook üzere şirketler bu türlü yanılgılara öğrenme fırsatı olarak bakarlar ve sistemlerini geliştirmek için post-mortem (otopsi) yaparlar. Genelde bu türlü yanlışlar yüzünden beşerler kovulmazlar. O beşerler için mesleklerinde unutulmaz bir öykü, Facebook için ise çok değerliye mal olmuş bir kusur olur.”

İçeriğe verdiği dayanak için Eren Algan’a teşekkür ederiz, kendisinin LinkedIn hesabına buradan, Instagram hesabına da buradan ulaşabilirsiniz.

Facebook’un çöküş gecesinde yaşananları aşağıdaki videomuzdan da öğrenebilirsiniz:

O gece yaşananlara ait başka haberlerimiz:

Bu Yazı İçin Ne Düşünüyorsun?

Yorum Yap
Giriş Yap
Yazı Ekle