הקלות הבלתי נתפסת של נפילת מרכזי מחשוב

יגאל שניידר

איני בקיא בלטינית, דבר שלא הפריע לי רבות במהלך חיי, אך ביטוי אחד בלטינית חקוק בזיכרוני מאז ששמעתי את אחד ממורי הבלתי נשכחים משתמש בו: “

PerpetuumMobile בתרגום לעברית – תנועה נצחית. מכונת תנועה נצחית היא מכונה היפותטית שמבצעת עבודה או תנועה ללא הפסק מבלי לצרוך אנרגיה חיצונית. מכונות תנועה נצחית הן בלתי אפשריות למימוש לפי ההבנה המדעית של ימינו שכן הן מנוגדות לחוקי הפיזיקה. מפאת גילי המתקדם והסתיידות העורקים הבלתי נמנעת המתלווה לכך איני זוכר בדיוק באילו חוקים מדובר ואני מקווה שהקורא לא ייטור לי על כך.

ההנהלה הבכירה של ארגונים רבים נוטה לעיתים לחשוב על ה

Datacenter  הארגוני כחסין מנפילות. קיים תמיד ועובד תמיד. מכונה של תנועה נצחית. כל כך נצחית עד שאין להשקיע משאבים ואנרגיה מחשבתית באספקטים של המשכיות העסקית הקשורים בחדרי המחשב.

מחקר של חברת

Ponemon אליו התוודעתי בכנס AFCOM האחרון הראה שנפילות של מרכזי מחשוב תכופות הרבה יותר משחשבתי. המחקר כלל שיחות עם 450 מנהלי חדרי מחשב בארה”ב והתמקד בתקופה של 24 החודשים האחרונים. 41 מתוך הנשאלים זכו לביקור ותחקיר מעמיק באתר הדטה סנטר עצמו כדי לחקור את הסיבות והנסיבות הקשורות לאובדן ההמשכיות העסקית שלו.

לא פחות מ 95% ממרכזי המחשוב שנדגמו סבלו מקריסה משמעותית (

unplanneddowntime) אחת או יותר בשנתיים האחרונות. ממוצע הקריסות בשנתיים האחרונות היה 2.4 פעמים בשנתיים לקריסה מליאה של הדטה סנטר ו-6.8 פעמים בשנתיים לקריסה חלקית. קריסה חלקית מוגדרת כנפילה של שורת ארונות אחת או יותר.

הסקטור הבנקאי וחוות האירוח (

CoLocation) הראו ביצועים טובים יותר מהממוצע אך לא בהרבה: הם קרסו באופן מלא 1.8 ו 1.9 פעמים (בהתאמה) בשנתיים האחרונות. הביצועים של סקטור הציבורי והרפואי היו פחות טובים מהממוצע. אישית הופתעתי מהממצאים משום שהם מראים שחוות האירוח בארה”ב אינן מספקות רציפות עסקית טובה יותר ממרכזי המחשוב הארגוניים.

זמן הדמימה (

downtime) הממוצע לקריסה מליאה של הדטה סנטרים שקרסו היה 102 דקות . זמן הדמימה הממוצע לקריסה חלקית של הדטה סנטרים שקרסו היה 152 דקות.

החוקרים ביקרו ב-41 ממרכזי האירוח שקרסו כדי לאמוד את העלות הממוצעת של נפילת מרכזי המחשוב. עלות קריסה מליאה של חוות השרתים הייתה כ 680,000 דולר בממוצע ועלות קריסה חלקית הייתה 258,000 דולר בממוצע. השונות בנתון זה היא גבוהה מאוד בהתאם לסקטור העסקי. בענף המלונאות עלות הקריסה הממוצעת היה כ-85,000$ בלבד לעומת

M1.1$ בסקטור התקשורת. עלות הקריסה של מרכזי המחשוב נובעת בעיקר מאובדן הכנסות, אובדן נתונים, נזק לחומרה, אובדן שעות עבודה, ואובדן לקוחות.

היריעה קצרה מכדי שנוכל להגיע לדיון מעמיק בסיבות ובנסיבות הקשורות לקריסה של חדרי שרתים וכיצד למנוע אותן. די אם נאמר שניהול מתקדם של הדטה סנטר מחייב בקרה ברמות שאינן נפוצות היום בישראל. אסתפק בדוגמה קצרה אחת מני רבות. דיון מעמיק יותר אנו מספקים בהדרכות שאנו עורכים ללקוחות בנושא נוהגים מיטביים (

BestPractices).

98% מהפסקות החשמל בארה”ב אורכות פחות מ 10 שניות. במהלך אותו זמן קצר, עובר העומס מהחדר אל מערכות האל-פסק (

UPS) ואלו, כמעט תמיד, תלויות במצברים לאספקת האנרגיה החשמלית. אחת הסיבות המובילות לקריסה של חוות שרתים היא לא אחרת מהמצברים. מצברי הגיבוי הם מוצרים אלקטרו-כימיים עשויים בטכנולוגיה בת 200 שנה והם מככבים ברשימת הסיבות המובילות לקריסת מרכזי מחשוב ב-58% מהמקרים!

יתכבד נא המנמ”ר ויסור לחדר האנרגיה שלו. אנחש שלא ביקר שם זמן רב ואולי אף פעם לא. בכל “בנק” של מצברים, יש בדרך כלל עשרות מצברים. בכל מצבר – 6 תאים. כלומר, מאות תאים חשמליים מזינים את האל פסק שלנו. בשורה התחתונה, תא כושל אחד, יכול להפיל את מרכז המחשוב.

שלוש השיטות הנפוצות בישראל להתמודד עם סיכון זה הן:

לא לעשות דבר ולקוות לטוב (אופטימיות היא תכונה כובשת)

או להחליף מצברים כל 3 שנים ( הוצאה עצומה ומיותרת).

המדקדקים מזמינים ספק שיבצע בדיקה למצברים כל חצי שנה או שנה שזה טוב וראוי אך יקר ולא מקטין את הסיכון ברמה ניכרת.

חיישנים ותוכנה המאפשרים לבקר בזמן אמיתי את "בריאות" המצברים

הנוהגים המתקדמים של היום קובעים שיש לבקר את המצברים באופן רציף ובזמן אמיתי באמצעות מערכת חיישנים ייעודיים אשר משדרים את נתוני המצבר דרך

IP לשרת ייעודי. התוכנה מאפשרת לא רק לבקר את “בריאות” המצברים אלא גם לחזות במדויק מתי יגיעו למצב של כשל וניתן להחליף אותם מבעוד מועד. שימוש מעין זה של מערכת בקרת מצברים מאפשר לא רק לצמצם סיכונים באופן משמעותי אלא גם להוריד את עלויות התפעול השוטפות.

את בקרת המצברים ניתן לבצע או על ידי רכש חומרה ייעודית או כשירות מבוסס

IP שבמסגרתו  מתקינים את מערכת הבקרה ומבצעים את ניתוח הנתונים וניהול האתראות דרך IP .

 

תגובות סגורות