Объявление

Односложные и бессмысленные темы, не несущие полезную нагрузку или не содержащие в себе вопрос, будут удаляться!

#1 04-04-12 19:30:09

NEMO
Поджигатель
Здесь с 28-12-11
Сообщений: 942
Windows 7Firefox 11.0

Selectel. Отказ за отказом.

Довольно занятная череда происшествий, тянущаяся по сей день.
Есть облачный сервис у Selectel. Крутится на Линуксе, регулярно падает, аптайм чудовищно низкий для облаков. Постоянные попытки поднять кластер заканчивались рассыпанием оного на атомы. Представители Селектела пытаются сохранять лицо, сетуют на баги в ядре.
После ликвидации последствий первой аварии об истории можно было бы забыть, но она вздумала повториться.
Ознакомится можно здесь:
habrahabr.ru/post/139368/
habrahabr.ru/post/140862/
Особенно интересны комментарии второго акта сей трагикомедии.

amarao пишет:

После аварии всем желающим будет предложено перенести диски на некластеризованное хранилище, аналогичное используемому в первом пуле.
Что с этим делать пока не знаю, следующая попытка перевода с raid10 на комбинацию raid1 + 0 (это не одно и то же).
В долгосрочной перспективе мы будем искать варианты принципиального решения проблемы (проприентарные решения, смена схемы построения массивов и т.д.).
Врят ли кого-то это утешит, но подобные аварии нам крайне болезенны, т.к. мы несём одновременно имиджевые, прямые денежные (компенсации), косвенные денежные (недопоставленные услуги) и ресурсные (время специалистов на устранение) потери. Соответственно, мы приложим все усилия для устранения подобного.

Ну, что думаете? Ядро с гнильцом али криворукие Селектеловцы виноваты?
Призываю сюда людей, державших raid массивы. Хотелось бы услышать их мнение.

Вне форума

#2 04-04-12 20:43:41

Babusha
Нехристь
Здесь с 12-03-10
Сообщений: 2,221
Windows 8Chrome 18.0

Re: Selectel. Отказ за отказом.

Линукс тут реально не причем, во всем винить надо
1. Криворукость
2. Ниасиляторство
3. Венду (вендакапец уже скоро, кстате)
4. Тупую проприентарщину
5. Кривое железо, которое ниасилило линух
6. Балмера
7. Нада была написать скрипт на баше и питоне

Отредактировано Babusha (04-04-12 20:51:08)


Удовлетворен GNU/Linux (с) Linups_Troolvalds
13-значный пароль, состоящий из одних цифр, ломается за полчаса (с) Rector. Авторитетный Хакер у себя в классе
Я тебя просто отсюда выпилю.  (с) Рехтур. Взламывает анусы по ойпи.

Вне форума

#3 04-04-12 21:09:28

UPS
Участник
Здесь с 19-02-12
Сообщений: 2,174
Windows 7Firefox 11.0

Re: Selectel. Отказ за отказом.

NEMO пишет:

Ну, что думаете? Ядро с гнильцом али криворукие Селектеловцы виноваты?

Судя по приведенному в ссылке №2 ошибка именно в модуле ядра, причем ее удалось неоднократно произвести.

После прошлой аварии был найден баг в ядрах 3.1/3.2 (и подтверждён в 3.3), приводящий к падению хоста в следующей конфигурации:

После того как ошибка была подтверждена было принято решение о даунгрейде на 3.0 (в которой этой ошибки нет).

В ходе даунгрейда (8:00-10:30) один хост был успешно переведён на 3.0. Тогда же была обнаружены проблемы с диском в одном из массивов (io error, pending sectors). Диск был заменён, начался ребилд.

После 3 ядра->>>>>>>>>>>

Ужас в том, что второй баг воспроизвёлся именно на 3.0. И это вопроизводилось достаточно много раз, чтобы говорить про совершенно точный сценарий.

ЗЫ Речь, кстати, о ядре linux? Я не ошибся?

Да именно о нем big_smile  По крайней мере все это именно так и выглядит.


К счастью, мой заработок не сильно зависит от компьютера, иначе бы Линукс было бы проблематично использовать. Меня не особо интересует, что там у других. Меня волнует линукс для моих задач. А если ~1.5% пользователей устраивает линукс - остальным 98.5% от этого не сильно легче. #178. SemyonKozakov
stoplinux.org.ru/plugin/comments/show/? … 854&page=4

Вне форума

#4 04-04-12 22:30:59

MOP3E
Участник
Здесь с 05-10-09
Сообщений: 4,208
Windows 7Firefox 11.0

Re: Selectel. Отказ за отказом.

Да уж, самое надёжное в линухе - это ведро!


Я не игрушечный. Я, б*я, коллекционный! (с) Duke Nukem Forever
Я не специалист по [вставить название]. Мне главное концептуально решить задачу! (с) АхаRu.
Линукс - это альтернативная ОС о которой известно, что она не является ОС ну вот просто ни разу. (с) Linups_Troolvalds.
А с какого такого перепугу пользователей линукса должно быть больше 1%? (с) petrun

Вне форума

#5 05-04-12 00:56:45

petrun
Участник
Здесь с 22-10-09
Сообщений: 3,172
LinuxFirefox 11.0

Re: Selectel. Отказ за отказом.

NEMO пишет:

Призываю сюда людей, державших raid массивы. Хотелось бы услышать их мнение.

И то и то.
1) Недостатки тестирования(особенно во второй раз, находители багов хереновы) это пиздец.
2) Сторонний драйвер(flashcache)  + ядро вышедшее 2 месяца назад(на момент старта всей системы) в продакшене при отсутствии программистов должного уровня это леденящий душу пиздец.
3) Отказоустойчивая архитектура, которая зависит от обработки ошибок на сбойном узле это тоже весело. Именно так тупящие LSI SAS контроллеры сам видел.


Анархия-мама сынов своих любит

Вне форума

#6 05-04-12 22:44:54

IvanOFF
Участник
Здесь с 26-12-09
Сообщений: 1,653
Windows 7Chrome 18.0

Re: Selectel. Отказ за отказом.

Это надо быть конченым дебилом, чтобы использовать третье ядро в продакшене. Ну и вещи такого уровня надо как-бы сначала тестировать, потом допиливать и только потом запускать в работу. Налицо желание срубить легкого бабла на модных технологиях усугубленное типичным для нашего бизнеса желанием экономить на спецах и вообще везде где только можно.


"Оно, конечно, можно научить медведя ездить на велосипеде. Да только будет ли медведю от этого польза и удовольствие?" (с) А. и Б. Стругацкие

Вне форума

Сейчас в этой теме пользователей: 0, гостей: 1
[Bot] ClaudeBot

Подвал форума

Под управлением FluxBB
Модифицировал Visman

[ Сгенерировано за 0.011 сек, 7 запросов выполнено - Использовано памяти: 1.71 Мбайт (Пик: 1.81 Мбайт) ]