27 бер. 2013 р.

Проблеми з охолодженням в ЦОД Microsoft

Проблеми з охолодженням в ЦОД MicrosoftНа минулому тижні сервери в одному з ЦОД Microsoft виявилися в незавидній ситуації: машини сильно перегрілися, що викликало збій в роботі веб-сервісів редмондовцев. Це в свою чергу обернулося безліччю нарікань на якість продуктів Microsoft з боку користувачів електронної пошти компанії. Hotmail і Outlook були офлайн близько 16 годин після невдалого оновлення програмного забезпечення, яке викликало різкий сплеск тепловиділень в одному з машзалі центру обробки даних компанії Microsoft, який використовується для забезпечення працездатності цих сервісів. Проблеми в ЦОД також торкнулися користувачів хмарного сервісу Skydrive, який служить для зберігання медіа-контенту та даних.

Температура піднялася так швидко, що фахівці Microsoft не встигли задіяти механізм автоматичного переходу на резервну схему в разі відмови, який призначений для екстреного перерозподілу обчислювального навантаження в розрізі вільної IT-інфраструктури. Про це представники компанії повідомили через офіційний блог.

Представники Microsoft відзначили, що проблеми виникли тільки в одному дата-центрі, де було вирішено провести оновлення програмного забезпечення, яке контролювало фізичну інфраструктуру об'єкта. За словами Артура де Хаана з Microsoft, до того нещасливого моменту всі оновлення проходили гладко, але на цей раз все обернулось «великою несподіванкою».

«Невдалий апдейт став причиною швидкого і істотного температурного сплеску в дата-центрі», написав де Хаан в блозі Outlook.com. «Цей сплеск був настільки значним, що на безлічі серверів були в автоматичному режимі задіяні спеціальні захисні механізми. Дані механізми не дозволяли користувачам отримати доступ до поштових скриньок, розміщених на цих серверах, а також заважали операторам ЦОД перерозподілити навантаження на інші елементи нашої IT-інфраструктури. Знадобилося багато часу, щоб усунути всі наслідки цього інциденту ».

Переваги та ризики експлуатації обладнання при підвищеній температурі

В офіційному повідомленні редмондовцев не міститься будь-якої конкретної інформації щодо залученого в інцидент програмного забезпечення або устаткування. Ясно одне: постраждала система охолодження дата-центру, в результаті чого температура в машзалі дуже швидко виросла.

Потрібно відзначити, що інженери компанії Microsoft одними з перших стали експлуатувати серверне обладнання в своїх ЦОД при підвищених температурах. Подібна стратегія може забезпечити значну економію електроенергії, так як в даному випадку можна зменшити інтенсивність використання жадібних до електроенергії чілерів і холодильного устаткування.

Зворотним боком медалі (читай: підвищення температури в дата-центрі) є те, що зменшується «тепловий резерв», тому у інженерів залишається менше часу, щоб відреагувати на збій в системі охолодження. Це особливо актуально в умовах високощільного розміщення обладнання, як у випадку ЦОД Microsoft. З якихось причин, автоматизовані системи перехоплення управління при відмові виявилися не в змозі впоратися з ситуацією.

Зростання IT-інфраструктури та збільшення числа компаній, в чиєму віданні перебувають цілі групи величезних дата-центрів, дозволили ключовим гравцям індустрії ЦОД переосмислити поняття дублювання. У минулому дублювання припускало наявність резервного обладнання в самому ЦОД. Це вимагало придбання додаткових дизельних електрогенераторів і джерел безперебійного живлення (ДБЖ). Але за допомогою групи хмарних дата-центрів необхідного рівня дублювання ключових систем можна добитися шляхом переміщення робочих навантажень з одного дата-центру на інший, щоб обійти виниклі проблеми.

У деяких випадках робочі навантаження можуть переміщатися з одного масиву серверів на інший в межах одного об'єкта. В інших випадках вони можуть переміщатися на досить віддалений з географічної точки зору ЦОД. Фахівці Microsoft активно працюють над удосконаленням свого програмного забезпечення для автоматизації систем контролю за наслідками відмов і переведення навантаження на доступну IT-інфраструктуру. Але недавній інцидент показав, що роботи в даному напрямку редмондовцам ще вистачає. Управління дата-центром - досить складний процес, і інженерам непросто спрогнозувати всі можливі сценарії відмови.

 

Немає коментарів:

Дописати коментар