Ce este toleranța la erori?

Cele mai importante aplicații de calculator necesită un design care să includă mai multe componente redundante. Acest design tolerant la erori include, de obicei, hardware, software, alimentare de rezervă și măsuri de siguranță în rețea. Toleranța la erori este un design care asigură că o aplicație computerizată va rămâne funcțională în cazul unei defecțiuni catastrofale. Majoritatea băncilor, guvernelor și companiilor de utilități folosesc acest tip de design pentru aplicațiile lor critice.

Toleranța la erori de alimentare este un design ingineresc care oferă mai multe prize de alimentare echipamentelor informatice. Câteva exemple de redundanță de alimentare includ mai multe circuite de alimentare, furnizori de prize de alimentare sau sisteme de rezervă pentru baterii. Acest sistem va porni automat alimentarea de rezervă dacă se pierde serviciul electric.

Planurile de alimentare de rezervă concepute pentru a păstra sistemele informatice includ de obicei generatoare alimentate cu combustibil și unități mari de baterii. Când un centru de date pierde energie electrică, sistemul generator devine automat activ. De obicei, aceste clădiri pot menține puterea timp de câteva săptămâni fără a afecta performanța generală.

Toleranța la erori hardware este un design care distribuie procesele de afaceri pe mai multe componente ale computerului. Acest lucru permite unei aplicații să rămână funcțională atunci când un echipament se defectează din cauza unor probleme mecanice. O bază de date în cluster este un exemplu de utilizare a hardware-ului tolerant la erori. În acest design, o bază de date fizică este distribuită și replicată pe mai multe dispozitive hardware. Dacă vreun echipament eșuează în cluster, baza de date rămâne activă deoarece este distribuită în mai multe unități hardware.

Toleranța la erori de rețea este un alt exemplu de redundanță într-un sistem informatic. Majoritatea operațiunilor centrelor de date includ configurații tolerante la erori de rețea. Acest lucru necesită utilizarea mai multor furnizori de telecomunicații și linii telefonice într-o clădire. În cazul unei defecțiuni complete din partea unui furnizor, ceilalți furnizori de rețea îl înlocuiesc automat. Acest tip de configurație necesită de obicei două linii de telecomunicații active într-o clădire fizică.

Multe organizații mari și agenții guvernamentale necesită toleranță la erori pentru a-și susține infrastructura fizică. Acest lucru garantează că evenimentele catastrofale, inclusiv deteriorarea energiei electrice și distrugerea rețelei, nu afectează operațiunile de afaceri ale acestor organizații. Deși toleranța la erori nu garantează că aplicațiile nu vor eșua, ea reduce probabilitatea unei defecțiuni complete a sistemului din cauza problemelor computerului.
Cele mai critice instituții guvernamentale includ toleranța la greșeală pentru întregi unități de afaceri. Aceasta include de obicei relocarea personalului, echipamentelor și resurselor care pot susține dezastrele naturale pentru perioade lungi de timp. Acest tip de soluție tolerantă la erori este de obicei situată adânc în subteran, unde dezastrele naturale au un impact redus asupra operațiunilor fizice.