Вaлентин Юрковский (jorkoffski) wrote,
Вaлентин Юрковский
jorkoffski

себе, ого, какая статья

Оригинал взят у a_str в себе, ого, какая статья
 "Как ломаются сложные системы", очень сильно на подумать еще и потом еще раз.

Опасность – неотъемлемый атрибут сложных систем
Сложные системы тщательно и успешно защищаются от сбоев
Катастрофа подразумевает множество сбоев – одиночных нарушений недостаточно
Сложные системы содержат постоянно меняющуюся комбинацию скрытых сбоев
Сложность рассматриваемых систем делает невозможной работу без множественных внутренних ошибок. Поскольку каждая из них неспособна привести к аварии, на операционном уровне они рассматриваются как несущественные. Устранение всех этих ошибок признается экономически нерациональным; кроме того, проактивная оценка их влияния на возможность возникновения системной аварии затруднена. Набор ошибок в составе системы постоянно меняется.

Сложные системы работают в режиме ограниченной производительности
Из сказанного выше следует, что сложные системы всегда работают как поврежденные системы. Система продолжает функционировать, поскольку содержит множество дополнительных средств обеспечения устойчивости, а также поскольку люди заставляют ее работать, несмотря на наличие множества ошибок. В ходе разбора случившихся аварий почти всегда отмечается, что в системе накоплена история «прото-сбоев», которые чуть не стали причиной аварии. Утверждение, что эти ситуации должны были быть выявлены заранее, обычно основано на упрощенном понимании работы систем. В то время как эта работа – и результирующая производительность системы – есть непрерывно меняющееся сочетание сбоев и восстановлений компонентов.

Закладывать на все задачи: дополнительное время. Дополнительный ресурс. Дополнительный стог соломки, если уж на то пошло, ну да.
Всегда, всегда, всегда  иметь набор действий для наименее желательного развития событий. 
План эвакуации. Быстрый и эффективный возврат к рабочему состоянию после единичного сбоя (или, вернее, серии сбоев, единичный не очень-то и замечаешь), потому что накопление сбоев дает катастрофу, а не отсутствие рабочего состояния.
И еще один неожиданный и забавный вывод: если работу системы останавливают просто сбои, это простая система. 

Да, и вот еще что. Относительная несущественность внутренних ошибок (несущественных для сложной системы и очень существенных для простой) может привести к двум одинаково вредным выводам, хотя сами они противоположны:
- да тут за что ни возьмешься, ничего не работает как следует
- этой штуке все ни по чем, все выдержит


This entry was originally posted at http://three-is-one.dreamwidth.org/140413.html. Please comment there using OpenID.

Tags: В сундук, перепост, смысл жизни
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 1 comment