Selectel. Отказ за отказом.

NEMO · 04-04-12 20:30:09

Довольно занятная череда происшествий, тянущаяся по сей день.
Есть облачный сервис у Selectel. Крутится на Линуксе, регулярно падает, аптайм чудовищно низкий для облаков. Постоянные попытки поднять кластер заканчивались рассыпанием оного на атомы. Представители Селектела пытаются сохранять лицо, сетуют на баги в ядре.
После ликвидации последствий первой аварии об истории можно было бы забыть, но она вздумала повториться.
Ознакомится можно здесь:
http://habrahabr.ru/post/139368/
http://habrahabr.ru/post/140862/
Особенно интересны комментарии второго акта сей трагикомедии.

amarao пишет:

После аварии всем желающим будет предложено перенести диски на некластеризованное хранилище, аналогичное используемому в первом пуле.
Что с этим делать пока не знаю, следующая попытка перевода с raid10 на комбинацию raid1 + 0 (это не одно и то же).
В долгосрочной перспективе мы будем искать варианты принципиального решения проблемы (проприентарные решения, смена схемы построения массивов и т.д.).
Врят ли кого-то это утешит, но подобные аварии нам крайне болезенны, т.к. мы несём одновременно имиджевые, прямые денежные (компенсации), косвенные денежные (недопоставленные услуги) и ресурсные (время специалистов на устранение) потери. Соответственно, мы приложим все усилия для устранения подобного.

Ну, что думаете? Ядро с гнильцом али криворукие Селектеловцы виноваты?
Призываю сюда людей, державших raid массивы. Хотелось бы услышать их мнение.

Babusha · 04-04-12 21:43:41

Линукс тут реально не причем, во всем винить надо
1. Криворукость
2. Ниасиляторство
3. Венду (вендакапец уже скоро, кстате)
4. Тупую проприентарщину
5. Кривое железо, которое ниасилило линух
6. Балмера
7. Нада была написать скрипт на баше и питоне

Редактировался Babusha (04-04-12 21:51:08)

UPS · 04-04-12 22:09:28

NEMO пишет:

Ну, что думаете? Ядро с гнильцом али криворукие Селектеловцы виноваты?

Судя по приведенному в ссылке №2 ошибка именно в модуле ядра, причем ее удалось неоднократно произвести.

После прошлой аварии был найден баг в ядрах 3.1/3.2 (и подтверждён в 3.3), приводящий к падению хоста в следующей конфигурации:

После того как ошибка была подтверждена было принято решение о даунгрейде на 3.0 (в которой этой ошибки нет).
В ходе даунгрейда (8:00-10:30) один хост был успешно переведён на 3.0. Тогда же была обнаружены проблемы с диском в одном из массивов (io error, pending sectors). Диск был заменён, начался ребилд.

После 3 ядра->>>>>>>>>>>

Ужас в том, что второй баг воспроизвёлся именно на 3.0. И это вопроизводилось достаточно много раз, чтобы говорить про совершенно точный сценарий.

ЗЫ Речь, кстати, о ядре linux? Я не ошибся?

Да именно о нем big_smile По крайней мере все это именно так и выглядит.

IvanOFF · 05-04-12 23:44:54

Это надо быть конченым дебилом, чтобы использовать третье ядро в продакшене. Ну и вещи такого уровня надо как-бы сначала тестировать, потом допиливать и только потом запускать в работу. Налицо желание срубить легкого бабла на модных технологиях усугубленное типичным для нашего бизнеса желанием экономить на спецах и вообще везде где только можно.

Форум StopLinux

Объявление

#1 04-04-12 20:30:09

Selectel. Отказ за отказом.

#2 04-04-12 21:43:41

Re: Selectel. Отказ за отказом.

#3 04-04-12 22:09:28

Re: Selectel. Отказ за отказом.

#4 05-04-12 23:44:54

Re: Selectel. Отказ за отказом.

Подвал форума