Plníme sľuby: Nová architektúra


  • Zdieľať na Google+

Meníme hardvérovú a softvérovú infraštruktúru WebSupportu tak, že čochvíľa neostane nič po starom. S plánovaním projektu sme začali už v novembri 2012. Chceme sa s vami podeliť o priebeh nášho rozhodovania.

WebSupport rástol rýchlo, dokonca tak rýchlo, že sme sa mu nestačili prispôsobovať ani my, ani servery. Škálovať IT takejto firmy je výzva, ktorá však časom prerástla do enormnej spotreby času a energie na prevádzku. Sú to problémy, s ktorými sa menšie hostingové firmy nestretli, takže škálovať IT znamenalo častokrát vymýšľať úplne nové riešenia, pretože to, čo funguje v menšom meradle, už nemusí fungovať vo veľkom. WebSupport už presahoval hranicu 90 serverov a prudkým rastom v uplynulom období stúpala prudko aj jeho komplexnosť.

Dostupnosť služieb a komplexnosť IT sú previazané veličiny a nie je tajomstvom, že sme s tým mali problém. Aktuálny stav s výpadkami pritom nebol až taký zlý, aký sa v javil: pohybujeme sa stále na úrovni 99,9% dostupnosti. Zakaždým sme však považovali za dôležité o týchto udalostiach s našimi klientmi komunikovať, a to aj keď išlo o menšie/ kratšie nedostupnosti služieb.

Na základe týchto skúseností sme koncom októbra 2012 dospeli k záveru, že k vyriešeniu všetkých našich problémov je nutné vymeniť naše IT. Kompletná výmena IT je drastický a komplikovaný krok, ktorý sa bežne nedeje, my sme však potrebovali preťať bremeno histórie, ktoré nam zvyšovalo komplexnosť a znižovalo flexibilitu. Zároveň sme chceli povýšiť IT na úplne novú úroveň aplikovaním najlepšieho know-how, ktoré sme za uplynulé roky nazbierali.

Konzultovali sme aj s odborníkmi zvonka, s ktorými sme vytvorili “IT advisory board”, ktorá nám jednotlivé návrhy pripomienkovala. Týmto im všetkým verejne ďakujeme za večery strávené vo WebSupporte. Špeciálne poďakovanie patrí Mariánovi Hanzelovi, ktorý nám pomohol prelomiť niektoré stereotypy v uvažovaní a začať tak na “zelenej lúke”.

V hre bolo 6 dodávateľov, ktorí nám ponúkali rôzne riešenia. Po náročných 5 mesiacoch príprav, analýz, rátania a diskusií s manažmentom sme dospeli k finálnemu riešeniu.

Pred pár dňami sme podpísali zmluvy s hlavnými dodávateľmi nového hardvéru. Novú platformu postavíme na diskovom poli FAS 3250 od NetAppu s čistou kapacitou 60 TB tierovaného storage, čiže najčastejšie používané dáta budú dostupné cez enterprise SSD disky, zvyšok na 96 x 900GB SAS diskoch.

NetApp FAS 3250 - ilustračný obrázok

Ako výpočtovú silu sme sa rozhodli pre Blade riešenie od spoločnosti Dell (M1000e) v podobe 24 ostrých žiletiek Dell PowerEdge M620. Srdcom týchto žiletiek sú dva procesory Intel Xeon E5-2680 na frekvencii 2.7 Ghz. Na základe Passmark benchmarku sú tieto procesory približne 2x výkonejšie ako naše najčastejšie používané procesory Intel Xeon E5620 2.4 Ghz. Plošne tak navýšime výkon všetkým službám. Každá žiletka ponesie 192 GB RAM.
Pre zaujímavosť: Prvý server, s ktorým sme začínali poskytovať naše služby, mal parametre 1000 Mhz, 256 MB RAM a 40 GB miesta.

Dell PowerEdge M620 -ilustračný obrázok
Samozrejme, že takéto riešenie si vyžaduje medzi sebou prepojenie. Zvolili sme ako core switche riešenie od firmy Cisco Catalyst 4500x a všetko je prepojené 10Gbit ethernetom.

Nová hardvérová infraštruktúra je našou najväčšou investíciou od dôb založenia WebSupportu, celé riešenie stálo cez 350 000 eur. Tešíme sa, že nám do mesiaca príde pol tony nového železa. Prezradíme toľko, že ako virtualizačnú platformu sme si vybrali OpenStack, čo bude pravdepodobne jeho najväčšia inštalácia v okolí. Virtualizáciou získame potrebnú flexibilitu, aby sme mohli efektívnejšie reagovať na dennodenné nástrahy, ktoré so sebou prevádzka prináša.

Pracujeme aj na vysokom stupni automatizácie, kedy už nebude konfigurácia serverov riešená ručne, ale pomocou nástroja CFEngine3, ktorý zaručí stálosť konfigurácie, pretože servery majú prirodzenú tendenciu vychyľovať sa z pôvodnej konfigurácie.

Nová IT nám vytvorí stabilné, flexibilné základy, na ktorých môžeme stavať a prevádzkovať ďalšie služby. Homogénnym prostredím odstránime množstvo premenných, ktoré na prevádzku vplývajú, a konfiguračným manažmentom eliminujeme ľudský faktor.

O ďalších podrobnostiach novej architektúry a priebežnom procese migrácie všetkých našich klientov budeme postupne informovať s vlastnou fotodokumentáciou.

Ladies and gentlemen, stay tuned.

Komentáre

  • node
    Odpovedať
    Autor
    node

    node.js hosting sa nechysta?

    • Tomáš Čorej
      Odpovedať
      Autor
      Tomáš Čorej

      zatial nie, po prechode na novu architekturu vsak bude podstatne jednoduchsie implementovat nove aplikacne servery ako je to teraz, takze snad do konca roka.

  • akim
    Odpovedať
    Autor
    akim

    Gratulujem Vam! Pre zvysok by ste to mohli zdokumentovat prostrednictvom fotiek. Myslim ze sa najde dost zaujemcov ako ja, co by si to velmi radi pozreli niekde na nete, ako to vsetko bude vyzerat, prichod zabaleneho zeleza, rozbalenie, stavanie, umiestnenie a vsetko ostatne az po spustenie agregatov. drzim palce ! 🙂

    • Michal Truban
      Odpovedať
      Autor
      Michal Truban

      presne to planujeme robit. cize budu aj dalsie blogposty.

  • Marek
    Odpovedať
    Autor
    Marek

    Gratulujem, staré železo budete používať ďalej alebo ho plánujete rozpredať?

    • Michal Truban
      Odpovedať
      Autor
      Michal Truban

      budeme to vyuzivat na dalsie ine sluzby, nove projekty, prenajmy …

  • petob.
    Odpovedať
    Autor
    petob.

    perfektne !!! WS rulz decka, len tak dalej 🙂

  • Martin Krcho
    Odpovedať
    Autor
    Martin Krcho

    Znie to super, teším sa na rýchlejší web 🙂 Plánujete meniť spôsob konfigurácie aplikácií/procesov, ktoré bežia na VPS-kách? Skúsim aj po slovensky 😀 Budem si meniť nastavenia nginx, mysql atď cez príkazový riadok alebo predstavíte nejaké web rozhranie? Vďaka.

    • Tomáš Čorej
      Odpovedať
      Autor
      Tomáš Čorej

      do konfiguracie VPS zasahovat nebudeme, budu presunute tak ako su.

  • Peter Gurčin
    Odpovedať
    Autor
    Peter Gurčin

    OpenStack, ten je velmi fajn, do toho vagrant, puppet, salt, juju a bude juchuuu 😉

    • Tomáš Čorej
      Odpovedať
      Autor
      Tomáš Čorej

      skor cfengine3, salt, celery a fai-project.org . ten vagrant pozrieme este, dik .

      • Martin Riesz
        Odpovedať
        Autor
        Martin Riesz

        zaujimavy by mohol byt este fabric, chef a ansible

  • Martin
    Odpovedať
    Autor
    Martin

    Drzim palce, je to pozitivna sprava…

  • Tamtatam
    Odpovedať
    Autor
    Tamtatam

    Zdravim, preco ste nesli do ultra low latency switchov, ako je Cisco Nexus 3k?

    • Tomáš Čorej
      Odpovedať
      Autor
      Tomáš Čorej

      No povodne tam switche neboli, ratali sme s tym, ze ich pripojime napriamo k blade skrinkam a uplink z nich pojde uz k providerovi.

      Neskor sme vsak usudili, ze switche potrebujeme kvoli tomu, aby sme mali pod kontrolov networking (BGP,vlan mng a pod) . Pole sme sa nasledne rozhodli pripojit cez tieto switche kvoli tomu, aby sme to nemuseli v buducnosti rozpajat pretoze skalovanie do dalsich skriniek by pri pripojeni na priamo mohlo byt problematicke.

    • Peter Mihalik
      Odpovedať
      Autor
      Peter Mihalik

      4500-X ma L2 aj L3 latency <5 usec, ak berieme do uvahy storage latency, ktora pravdepodobne nebude ani pri zapnutej cache pod 6 msec, bavime sa o overheade na urovni menej ako 1.7% (ak pocitam RTT pri switch latency)
      4500-X boli k dispozicii za velmi vyhodnych podmienok a poskytuju ovela vacsie moznosti co sa tyka feature setu (ci uz aktualneho alebo planovaneho) a moznosti rozsirenia oproti nexusom

      • Peter Mihalik
        Odpovedať
        Autor
        Peter Mihalik

        A ak by sme teda porovnavali latenciu CAT4500-X vs. NX3k, tak je to ~1.4usec vs. 5usec (=3.6usec) ak pocitame worst-case scenario pri oboch, tak ide o riesenie, ktore je ‚pomalsie‘ o 1.2%, v pripade, ze storage ma konstantnu latenciu 6 msec.

  • Petr Duchek
    Odpovedať
    Autor
    Petr Duchek

    Skvele, drzim Vam palce a at se vsechno povede jeste stokrat lip nez ocekavate.

  • Rudo
    Odpovedať
    Autor
    Rudo

    vyborne, NetApp je super 🙂

  • Blažej
    Odpovedať
    Autor
    Blažej

    Zacina mi to pripadat ako otvorený projekt datacentra ceskeho Wedosu, na ktory sa ludia chytili. Tak preco to neskusit aj vo Websupporte, nie?

    • WebSupport
      Odpovedať
      Autor
      WebSupport WebSupport

      Tak my sme nikdy nemali s otvorenosťou problém 🙂

  • Petr
    Odpovedať
    Autor
    Petr

    Parádní, už se těším!

  • Tomas
    Odpovedať
    Autor
    Tomas

    Parada, super:) Bolo by celkom fajn, keby ste povysili aj na asp.

  • Robix
    Odpovedať
    Autor
    Robix

    350000E je vela predanych hostingov. Zobrali ste to na leasing? Ak ano, tak to musi byt mesacna splatka 🙂 Inak spicka HW. Storage bude prepojeny ako NAS, alebo SAN? Storage pojde tiez cez tie 10 Gbit switch? Je netapp lepsi ako ZFS?

    • Tomáš Čorej
      Odpovedať
      Autor
      Tomáš Čorej

      storage bude prepojeny ako NAS a ano storage pojde cez n*10 gbit (agregovanim liniek) s MTU 9000 B (jumbo frames).

      ZFS pouzivame, ma svoje nesporne vyhody, ale silne nam vadi ze nevie robit resize vdevu a rebalancovanie dat, co pokial rastie storage postupne, sposobuje nerovnomerne rozlozenie dat. Aby to bolo rovnomerne, treba vsetko odkopirovat prec, prerobit pool a znova nakopirovat co pri 10kach TB dat je celkom problem.

      Zaroven by sa hodilo mat perzistentnu l2arc cache. WAFL ma tieto vlastnosti by design .

  • drunkez
    Odpovedať
    Autor
    drunkez

    U mna aj trocha sklamanie dell blejdy a ich mgmt software…nic moc….nerozumiem preco ste nesli do ucs ked budu core switche tiez ciska…s fexami je management lahoda…a napr cfenfine by som tiez nahradil puppetom….

    • drunkez
      Odpovedať
      Autor
      drunkez

      ….ale ono je to aj tak hlavne o adminoch….takze gl..nech to frci…

      • Tomáš Čorej
        Odpovedať
        Autor
        Tomáš Čorej

        UCS boli sucastou ponuky ktoru sme nevybrali. Tam sa posudzovalo velmi vela faktorov a manazment bol len jeden z nich.

        puppet sme svojho casu skusili, je fajn, ale povazujeme cfengine3 pre nas lepsi uz len kvoli model based monitoringu, silnemu teoretickemu zakladu (promise theory, takze sa nezmeni najblizsich xx rokov), knowledge management a mensi overhead na agentovi.

        • drunkez
          Odpovedať
          Autor
          drunkez

          Tak ak to nie je tajnost mozte zverejnit win kriteria pre dell?

        • Tomáš Čorej
          Odpovedať
          Autor
          Tomáš Čorej

          Co rozhodlo bol vyber Openstacku. Povodne sme sa snazili o VMWare, ale nevychadzal nam okolo toho biznis plan.

          Kedze pre Openstack mal vtedy (2-3 mesiace dozadu) najlepsiu a najdlhsie podporu pre Netapp, padol vyber na neho. To nepriamo ukazalo na Dell + referencie nasho integratora.

  • Karol Mares
    Odpovedať
    Autor
    Karol Mares

    Drzim Palce !

    • Lars Schotte
      Odpovedať
      Autor
      Lars Schotte

      koho palce?

  • Ivan
    Odpovedať
    Autor
    Ivan

    Pripájam sa ku gratuláciám a držím palce!

  • Dudel
    Odpovedať
    Autor
    Dudel

    Well done, guys!
    A nejaku podporu SOLR/Lucene/ElasticSearch/Spinx apod nahodou v dohladnej buducnosti nechystate?

  • evan70
    Odpovedať
    Autor
    evan70

    Drzim palce, vcera mi prisla sms, bol vypadok len nejakych 11minut 😉
    Chcel by som sa spytat, ci neuvazujete o zjednodusenom a lacnejsom hostingu bez pristupu k databazam, len pre startupy a jednoduche php/html/css/javascript riesenia,

    vdaka, pekny & uspesny den

  • Ako pokračujeme s novou architektúrou – WebSupport blog
    Odpovedať
    Autor
    Ako pokračujeme s novou architektúrou – WebSupport blog

    […] hardvér, o ktorom ste sa mali možnosť dozvedieť z blogu, k nám dorazil už začiatkom júna. Celá jeho kompletizácia trvala cca mesiac, pričom […]