Preskočiť na obsah
Kategórie
Technológie Zákulisie

Plníme sľuby: Nová architektúra

Meníme hardvérovú a softvérovú infraštruktúru WebSupportu tak, že čochvíľa neostane nič po starom. S plánovaním projektu sme začali už v novembri 2012. Chceme sa s vami podeliť o priebeh nášho rozhodovania.

WebSupport rástol rýchlo, dokonca tak rýchlo, že sme sa mu nestačili prispôsobovať ani my, ani servery. Škálovať IT takejto firmy je výzva, ktorá však časom prerástla do enormnej spotreby času a energie na prevádzku. Sú to problémy, s ktorými sa menšie hostingové firmy nestretli, takže škálovať IT znamenalo častokrát vymýšľať úplne nové riešenia, pretože to, čo funguje v menšom meradle, už nemusí fungovať vo veľkom. WebSupport už presahoval hranicu 90 serverov a prudkým rastom v uplynulom období stúpala prudko aj jeho komplexnosť.

Dostupnosť služieb a komplexnosť IT sú previazané veličiny a nie je tajomstvom, že sme s tým mali problém. Aktuálny stav s výpadkami pritom nebol až taký zlý, aký sa v javil: pohybujeme sa stále na úrovni 99,9% dostupnosti. Zakaždým sme však považovali za dôležité o týchto udalostiach s našimi klientmi komunikovať, a to aj keď išlo o menšie/ kratšie nedostupnosti služieb.

Na základe týchto skúseností sme koncom októbra 2012 dospeli k záveru, že k vyriešeniu všetkých našich problémov je nutné vymeniť naše IT. Kompletná výmena IT je drastický a komplikovaný krok, ktorý sa bežne nedeje, my sme však potrebovali preťať bremeno histórie, ktoré nam zvyšovalo komplexnosť a znižovalo flexibilitu. Zároveň sme chceli povýšiť IT na úplne novú úroveň aplikovaním najlepšieho know-how, ktoré sme za uplynulé roky nazbierali.

Konzultovali sme aj s odborníkmi zvonka, s ktorými sme vytvorili “IT advisory board”, ktorá nám jednotlivé návrhy pripomienkovala. Týmto im všetkým verejne ďakujeme za večery strávené vo WebSupporte. Špeciálne poďakovanie patrí Mariánovi Hanzelovi, ktorý nám pomohol prelomiť niektoré stereotypy v uvažovaní a začať tak na “zelenej lúke”.

V hre bolo 6 dodávateľov, ktorí nám ponúkali rôzne riešenia. Po náročných 5 mesiacoch príprav, analýz, rátania a diskusií s manažmentom sme dospeli k finálnemu riešeniu.

Pred pár dňami sme podpísali zmluvy s hlavnými dodávateľmi nového hardvéru. Novú platformu postavíme na diskovom poli FAS 3250 od NetAppu s čistou kapacitou 60 TB tierovaného storage, čiže najčastejšie používané dáta budú dostupné cez enterprise SSD disky, zvyšok na 96 x 900GB SAS diskoch.

NetApp FAS 3250 - ilustračný obrázok

Ako výpočtovú silu sme sa rozhodli pre Blade riešenie od spoločnosti Dell (M1000e) v podobe 24 ostrých žiletiek Dell PowerEdge M620. Srdcom týchto žiletiek sú dva procesory Intel Xeon E5-2680 na frekvencii 2.7 Ghz. Na základe Passmark benchmarku sú tieto procesory približne 2x výkonejšie ako naše najčastejšie používané procesory Intel Xeon E5620 2.4 Ghz. Plošne tak navýšime výkon všetkým službám. Každá žiletka ponesie 192 GB RAM.
Pre zaujímavosť: Prvý server, s ktorým sme začínali poskytovať naše služby, mal parametre 1000 Mhz, 256 MB RAM a 40 GB miesta.

Dell PowerEdge M620 -ilustračný obrázok
Samozrejme, že takéto riešenie si vyžaduje medzi sebou prepojenie. Zvolili sme ako core switche riešenie od firmy Cisco Catalyst 4500x a všetko je prepojené 10Gbit ethernetom.

Nová hardvérová infraštruktúra je našou najväčšou investíciou od dôb založenia WebSupportu, celé riešenie stálo cez 350 000 eur. Tešíme sa, že nám do mesiaca príde pol tony nového železa. Prezradíme toľko, že ako virtualizačnú platformu sme si vybrali OpenStack, čo bude pravdepodobne jeho najväčšia inštalácia v okolí. Virtualizáciou získame potrebnú flexibilitu, aby sme mohli efektívnejšie reagovať na dennodenné nástrahy, ktoré so sebou prevádzka prináša.

Pracujeme aj na vysokom stupni automatizácie, kedy už nebude konfigurácia serverov riešená ručne, ale pomocou nástroja CFEngine3, ktorý zaručí stálosť konfigurácie, pretože servery majú prirodzenú tendenciu vychyľovať sa z pôvodnej konfigurácie.

Nová IT nám vytvorí stabilné, flexibilné základy, na ktorých môžeme stavať a prevádzkovať ďalšie služby. Homogénnym prostredím odstránime množstvo premenných, ktoré na prevádzku vplývajú, a konfiguračným manažmentom eliminujeme ľudský faktor.

O ďalších podrobnostiach novej architektúry a priebežnom procese migrácie všetkých našich klientov budeme postupne informovať s vlastnou fotodokumentáciou.

Ladies and gentlemen, stay tuned.

Autor: Tím Websupport

Sme slobodná a otvorená firma. Robíme to, čo nás baví a chceme každou našou činnosťou posúvať štandardy vyššie.

36 odpovedí na “Plníme sľuby: Nová architektúra”

zatial nie, po prechode na novu architekturu vsak bude podstatne jednoduchsie implementovat nove aplikacne servery ako je to teraz, takze snad do konca roka.

Odpovedať

Gratulujem Vam! Pre zvysok by ste to mohli zdokumentovat prostrednictvom fotiek. Myslim ze sa najde dost zaujemcov ako ja, co by si to velmi radi pozreli niekde na nete, ako to vsetko bude vyzerat, prichod zabaleneho zeleza, rozbalenie, stavanie, umiestnenie a vsetko ostatne az po spustenie agregatov. drzim palce ! 🙂

Odpovedať

Gratulujem, staré železo budete používať ďalej alebo ho plánujete rozpredať?

Odpovedať

perfektne !!! WS rulz decka, len tak dalej 🙂

Odpovedať

Znie to super, teším sa na rýchlejší web 🙂 Plánujete meniť spôsob konfigurácie aplikácií/procesov, ktoré bežia na VPS-kách? Skúsim aj po slovensky 😀 Budem si meniť nastavenia nginx, mysql atď cez príkazový riadok alebo predstavíte nejaké web rozhranie? Vďaka.

Odpovedať

do konfiguracie VPS zasahovat nebudeme, budu presunute tak ako su.

Odpovedať

OpenStack, ten je velmi fajn, do toho vagrant, puppet, salt, juju a bude juchuuu 😉

Odpovedať

skor cfengine3, salt, celery a fai-project.org . ten vagrant pozrieme este, dik .

Odpovedať

zaujimavy by mohol byt este fabric, chef a ansible

Odpovedať

Zdravim, preco ste nesli do ultra low latency switchov, ako je Cisco Nexus 3k?

Odpovedať

No povodne tam switche neboli, ratali sme s tym, ze ich pripojime napriamo k blade skrinkam a uplink z nich pojde uz k providerovi.

Neskor sme vsak usudili, ze switche potrebujeme kvoli tomu, aby sme mali pod kontrolov networking (BGP,vlan mng a pod) . Pole sme sa nasledne rozhodli pripojit cez tieto switche kvoli tomu, aby sme to nemuseli v buducnosti rozpajat pretoze skalovanie do dalsich skriniek by pri pripojeni na priamo mohlo byt problematicke.

Odpovedať

4500-X ma L2 aj L3 latency <5 usec, ak berieme do uvahy storage latency, ktora pravdepodobne nebude ani pri zapnutej cache pod 6 msec, bavime sa o overheade na urovni menej ako 1.7% (ak pocitam RTT pri switch latency)
4500-X boli k dispozicii za velmi vyhodnych podmienok a poskytuju ovela vacsie moznosti co sa tyka feature setu (ci uz aktualneho alebo planovaneho) a moznosti rozsirenia oproti nexusom

Odpovedať

A ak by sme teda porovnavali latenciu CAT4500-X vs. NX3k, tak je to ~1.4usec vs. 5usec (=3.6usec) ak pocitame worst-case scenario pri oboch, tak ide o riesenie, ktore je ‚pomalsie‘ o 1.2%, v pripade, ze storage ma konstantnu latenciu 6 msec.

Odpovedať

Skvele, drzim Vam palce a at se vsechno povede jeste stokrat lip nez ocekavate.

Odpovedať

Zacina mi to pripadat ako otvorený projekt datacentra ceskeho Wedosu, na ktory sa ludia chytili. Tak preco to neskusit aj vo Websupporte, nie?

Odpovedať

Parada, super:) Bolo by celkom fajn, keby ste povysili aj na asp.

Odpovedať

350000E je vela predanych hostingov. Zobrali ste to na leasing? Ak ano, tak to musi byt mesacna splatka 🙂 Inak spicka HW. Storage bude prepojeny ako NAS, alebo SAN? Storage pojde tiez cez tie 10 Gbit switch? Je netapp lepsi ako ZFS?

Odpovedať

storage bude prepojeny ako NAS a ano storage pojde cez n*10 gbit (agregovanim liniek) s MTU 9000 B (jumbo frames).

ZFS pouzivame, ma svoje nesporne vyhody, ale silne nam vadi ze nevie robit resize vdevu a rebalancovanie dat, co pokial rastie storage postupne, sposobuje nerovnomerne rozlozenie dat. Aby to bolo rovnomerne, treba vsetko odkopirovat prec, prerobit pool a znova nakopirovat co pri 10kach TB dat je celkom problem.

Zaroven by sa hodilo mat perzistentnu l2arc cache. WAFL ma tieto vlastnosti by design .

Odpovedať

U mna aj trocha sklamanie dell blejdy a ich mgmt software…nic moc….nerozumiem preco ste nesli do ucs ked budu core switche tiez ciska…s fexami je management lahoda…a napr cfenfine by som tiez nahradil puppetom….

Odpovedať

….ale ono je to aj tak hlavne o adminoch….takze gl..nech to frci…

Odpovedať

UCS boli sucastou ponuky ktoru sme nevybrali. Tam sa posudzovalo velmi vela faktorov a manazment bol len jeden z nich.

puppet sme svojho casu skusili, je fajn, ale povazujeme cfengine3 pre nas lepsi uz len kvoli model based monitoringu, silnemu teoretickemu zakladu (promise theory, takze sa nezmeni najblizsich xx rokov), knowledge management a mensi overhead na agentovi.

Odpovedať

Tak ak to nie je tajnost mozte zverejnit win kriteria pre dell?

Odpovedať

Co rozhodlo bol vyber Openstacku. Povodne sme sa snazili o VMWare, ale nevychadzal nam okolo toho biznis plan.

Kedze pre Openstack mal vtedy (2-3 mesiace dozadu) najlepsiu a najdlhsie podporu pre Netapp, padol vyber na neho. To nepriamo ukazalo na Dell + referencie nasho integratora.

Odpovedať

Pripájam sa ku gratuláciám a držím palce!

Odpovedať

Well done, guys!
A nejaku podporu SOLR/Lucene/ElasticSearch/Spinx apod nahodou v dohladnej buducnosti nechystate?

Odpovedať

Drzim palce, vcera mi prisla sms, bol vypadok len nejakych 11minut 😉
Chcel by som sa spytat, ci neuvazujete o zjednodusenom a lacnejsom hostingu bez pristupu k databazam, len pre startupy a jednoduche php/html/css/javascript riesenia,

vdaka, pekny & uspesny den

Odpovedať

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *