Еще раз о кластерах

Компьютер-Информ || Архив || Рубрики || Поиск || Подписка || Работа || О "КИ" || Карта

Еще раз о кластерах

Когда человек (или организация) покупает нечто выше среднего по цене, автоматически появляется мысль: значит, оно будет работать лучше и требовать внимания меньше. Ведь хорошая стиральная машина тем и отличается, что стирает тише, лучше и после набора программы не требует к себе внимания хозяев. С компьютерами, увы, не так. И у владельца (владельцев) производства, на которое приехала дорогая новинка, появляются крамольные мысли: ╚И откуда взялась на нашу голову эта информатизация? Да еще такая дорогая?╩.

Говорят, недавно подобная история приключилась с одной немаленькой петербургской компанией. Купили они кластер, а запустить так и не смогли. Включили по отдельности и используют его как 2 независимых сервера. Только вот стоимость каждого из них по сравнению с аналогами (по производительности) получилась неразумная.

В чем причина неудачи, и что такое кластер? Попытка обеспечить надежность процесса вычисления и управления. Попытка выполнять процессы сложных вычислений различных задач дешевым (относительно стоимости суперкомпьютера) путем.

К сожалению, благими намерениями дорогу в ад мостят. Кластерная технология обеспечивает надежность и быстроту вычислительного процесса. Но вот процесс переведения кластера в рабочее состояние (то, что называется запуском и установкой конфигурации) превращается в адовы мучения для специалистов. К сожалению, не всегда с положительным результатом.

Так почему простая мысль ≈ распараллелить процессы или запустить их каждый на своем сервере с возможностью переключения их на другие ресурсы (серверы) системы автоматически по определенным условиям, стараясь сохранить баланс нагрузок ≈ так не просто реализуется? Ответ прост: кластер является сложным программно-аппаратным комплексом, в котором все компоненты ≈ и серверные и клиентские ≈ взаимодействуют по определенным правилам и должны быть написаны с соблюдением конкретных правил. Поэтому, когда вам говорят, что любое приложение может быть легко запущено с использованием кластерных технологий ≈ это ложь.

Наша редакция заказала статью по этой теме специалистам известной питерской фирмы Эврика, известной не в последнюю очередь тем, что ее кластеры 3-й год работают и обслуживают весьма требовательных пользователей. Так же они заставляют работать и кластеры серьезных мировых производителей. А самое первое собственной разработки кластерное решение они поставили заказчику еще в 1994 г. Оно до сих пор работает и тиражируется.

От редакции

А.═О. Кунтыш,

Введение

Немного истории. Впервые понятие кластера как системы, создаваемой с целью повышения надежности, было введено корпорацией DEC в 1984 г. В то время компьютеры моделей PDP&WAX широко использовались для управления технологическими процессами. Конечно, они еще не были кластерами в современном понятии, но уже позволяли распараллеливать вычисления и выполнять переключение задач между компьютерами при наступлении некоторых событий.

С тех пор прошло уже много лет, но возможности кластеров, в отличие от стремительно развивающейся элементной базы, изменились гораздо скромнее. Возможно потому, что создание кластерных систем по-прежнему невозможно свести к конвейерной сборке аппаратуры и поточной установке ПО.

В опубликованном в конце 1999 г. отчете TechWise Research, Inc. исследовалась общая стоимость владения кластерными решениями нескольких производителей, и было введено понятие ╚Общей стоимости владения с учетом требований надежности╩ (Reliability-Adjusted TCO). Рассматривались кластеры среднего (по меркам США) ценового диапазона на базе RISC-серверов. Данный показатель для каждого решения вычислялся в 2 этапа. На первом подсчитывалось среднее количество незапланированных (аварийных) простоев кластера в год для каждого кластерного решения. Затем, используя примерную оценку стоимости 1-го сбоя, вычислялись ежегодные убытки и, с учетом этого, 3-летняя ТСО каждым кластером. Полученные оценки существенно отличались от традиционных ТСО, учитывающих только покупку, пусконаладочные работы и эксплуатационные расходы.

Данная идея имеет право на существование и может быть успешно использована для оценки стоимости владения не только кластеров, но и традиционных серверных решений. Оправданы ли затраты на надежный сервер, на грамотный кластер? Не станет ли высокодоступное решение еще более дорогим, если незапланированные простои будут по-прежнему приносить убытки?

Объясняется ли это традициями или неграмотностью, но отношение к последствиям сбоев компьютерного оборудования в нашей стране нередко печально-снисходительное: ╚Ну что же тут поделаешь?╩ Действительно, маленькие и большие неприятности могут произойти и, к сожалению, происходят с любым аппаратным обеспечением любого производителя в любых условиях эксплуатации. Стихия. А уж когда на все это ненадежное великолепие наслаивается программистский (назвать человеческим язык не поворачивается ≈ шутка!) фактор, полученное программно-аппаратное чудо становится практически непобедимым.

В силу ряда причин мне нередко приходится общаться со студентками гуманитарного факультета одного из наших вузов (на одной из них я даже женился, в исследовательских целях, конечно). Относятся они к компьютеру, как к молодому человеку (а как же ≈ мужского рода). Молодой человек этот далеко не лучший: непонятный, непредсказуемый, нудный, утомительный, подлый и, все-таки, небесполезный. Кто же, собственно, заставляет терпеть? Непонятно. Но если женщин и молодых девушек понять невозможно, и с этим приходится мириться, то отношение к вычислительной технике взрослых и здравомыслящих руководителей иногда, все-таки, вызывает недоумение.

Невыполнение обязательств по вине компьютера считается прямо-таки форс-мажорными обстоятельствами. Как будто ╚гуманитарное╩ отношение к технике является обязательным требованием для приема на работу администратором вычислительной сети. Иногда точно так же студенты, даже технических вузов, пытаются оправдать мелкие и крупные задолженности: ╚Дискетка не читается ≈ компьютер не загружается╩. И частенько их за это прощают. Вот откуда все начинается. Раньше нужно было двойки ставить. Мы все в ответе за тех, кого пожалели.

Доступность автоматизированных систем

Доступность является одной из самых важных характеристик автоматизированной системы (АС), т.═к. позволяет определить, насколько АС готова к использованию по назначению. Очевидно, что доступность связана с надежностью и работоспособностью отдельных элементов АС и системы в целом, но не является синонимом этих понятий. Например, введение некоторой избыточности (резервного блока питания), позволяет сохранить доступность системы при выходе из строя какого-либо из элементов. Существенно также, что работоспособная система становится недоступной, если ее, например, просто выключить ≈ по ошибке или для выполнения регламентных работ.

В качестве показателя доступности АС может быть использован так называемый коэффициент готовности. Он определяется как отношение между временем, в течение которого АС была недоступна ко времени, в течение которого она использовалась по назначению. Нередко коэффициент измеряется ╚в девятках╩, точнее, количеством этих цифр до и после запятой в полученном отношении. ╚5 девяток╩ ≈ система, которая доступна на 99,999%.

Очевидно, что между каждой ╚девяткой╩ имеется довольно существенная разница. Система, которая доступна на 99,9%, за год эксплуатации может ╚остановиться╩ почти на 9 часов. Это меньше, чем почти 4 дня у 99%, но и больше, чем 50 минут у 99,99%.

Естественно, при этом должны учитываться как плановые, так и незапланированные перерывы в работе.

Среди причин планового прекращения функционирования выделяют:
"═необходимость превентивной замены исправных комплектующих;
"═остановки для выполнения планового же ремонта и модернизации.

Причинами аварий могут быть:
"═программные или аппаратные проблемы;
"═человеческий фактор;
"═внешние по отношению к АС происшествия.

Наверное, в будущем появятся и другие причины. Например, из-за отсутствия у АС желания работать по семейным обстоятельствам.

Принятая классификация систем приведена в таблице.

Наименование	Коэффициент готовности %	Время простоя в год системы %
Обычная	99,0 - 99,5	876 - 44 часов
Высокая	99,9 - 99,99	9 часов - 5 минут
"5 девяток"	99,99 - 99,999	50 минут - 5 минут
Системы непрерывной работы или системы, устойчивые к сбоям	100	-

Средства и способы повышения доступности

╚Простои денег стоят╩. То, что это не самый удачный каламбур, так же очевидно, как и то, что он совершенно верный по своей сути. Простои ≈ это потеря данных, снижение производительности, доходов, появление клиентов, неудовлетворенных морально, и расходов на техническую поддержку.

Осознание всего этого и привело к возникновению средств обеспечения и поддержания доступности системы на требуемом уровне, от обычного (для систем серверного класса) до систем, устойчивых к сбоям (Fault Tolerant System), сохраняющих доступность в любых ситуациях. Практически в любых, поскольку не следует забывать пословицу о том, что даже на очень пожилую женщину может найтись своя внештатная ситуация.

В представленной на рис. пирамиде от Hewlett-Packard условно, но довольно наглядно показано разделение систем по классам доступности. Так, на первом уровне иерархии находятся системы, удовлетворяющие некоторым базовым требованиям к надежности и качеству изготовления систем.

Системы второго уровня оснащаются простейшими средствами преодоления сбоев ≈ системами резервного копирования, источниками бесперебойного питания, специальными платами автоматической перезагрузки сервера.

На третьем уровне располагаются системы, в которых использованы средства повышения доступности на основе избыточности элементов. Это оперативная память с коррекцией ошибок и контролем четности (ECC), избыточные дисковые массивы (RAID), блоки питания, сетевые карты, контроллеры, вентиляторы. С другой стороны, это возможность ╚горячей╩ замены практически всех элементов и устройств, от ╚hotswap╩ жестких дисков до ╚hotplug╩ (заменяемых во время работы) адаптеров PCI.

На четвертом уровне располагаются средства повышения доступности, ╚работающие╩ не на уровне отдельных элементов, а на уровне систем и приложений в целом. Этот уровень принадлежит кластерным решениям или системам высокой доступности (High Availability).

На последнем, пятом уровне (следует отметить, что с продвижением вверх по иерархии, стоимость системы также возрастает, причем, как правило, нелинейно), располагаются ╚пятидевяточные╩ системы и системы непрерывной работы.

Принципиальных отличий систем высокой доступности от систем 5-го уровня (за исключением главного ≈ заоблачной стоимости последних) несколько:
"═в системах высокой доступности могут быть продублированы не все элементы;
"═пользователи систем высокой доступности при программно-аппаратном сбое, как правило, получают кратковременный отказ в обслуживании;
"═характеристики систем высокой доступности, в частности, производительность систем после аппаратного сбоя могут ухудшиться.

Средства повышения доступности систем до 3-го уровня включительно достаточно подробно рассмотрены в литературе производителей компьютерного оборудования и нами рассматриваться не будут. Остановим наше внимание на системах 4-го уровня, в классификации Hewlett-Packard ≈ высокодоступных комплексах, использующих избыточность на уровне приложений и систем.

Кластеры ≈ высокая доступность на уровне систем

Естественным решением для обеспечения устойчивости автоматизированных систем к сбоям на уровне системы, как таковой, является создание кластеров ≈ многомашинных вычислительных комплексов (ММВК). Наибольшее распространение получили так называемые слабосвязанные (с общей внешней памятью) ММВК.

Принципиальным в понятии кластера является факт наличия нескольких (более одного) компьютерных систем (серверов), которые управляются и используются как единое целое.

Несмотря на то, что целью создания высокодоступных кластеров является повышение именно доступности данных и приложений, кластерные системы по сравнению с несколькими, находящимися в ╚холодном╩ резерве ╚на всякий случай╩ серверами, имеют и некоторые дополнительные преимущества:

"═улучшенная производительность ≈ благодаря принципиальной возможности использовать все узлы кластера для обслуживания клиентов;
"═улучшенная масштабируемость ≈ благодаря принципиальной возможности как модернизации узлов, так и увеличения количества узлов в кластере;
"═улучшенная управляемость ≈ благодаря наличию средств централизованного управления вычислительным комплексом.

Интуитивно понятно, что кластерные технологии, помимо определенных аппаратных ╚довесков╩, требуют особой поддержки и на программном уровне. В общем случае, для некоторых типов приложений можно обойтись и без дополнительной аппаратуры. В предельном случае кластер может быть построен из нескольких серверов, связанных между собой по ЛВС. Несмотря на наличие разделяемого ресурса ≈ общего коммуникационного канала между узлами системы ≈ такая схема называется архитектурой без разделения ресурсов (Shared Nothing Architecture).

Примером кластерного ПО, которое может быть использовано с архитектурой без разделения ресурсов (но не только с ней), является MS Load Balansing Server ≈ Network Load Balancing в составе MS Windows 2000 Advansed Server. ПО предназначено для балансировки входящего TCP/IP-трафика и может быть использовано для повышения доступности и масштабируемости IP-приложений.

При использовании приложений, которые занимаются модификацией данных, возникает проблема синхронизации копий, расположенных на разных серверах. Для решения этой задачи помимо обычных сетевых средств, которых не всегда может быть достаточно, или же для разгрузки TCP/IP-стека могут использоваться специализированные средства межсерверного взаимодействия. В качестве примера можно привести технологии Compaq ServerNet или Hewlett-Packard Advansed Server Cluster (ASC).

Что касается последней, термин Advansed Server Cluster по смыслу соответствует терминам Server или System Area Network и используется аббревиатура ASC, главным образом, для повышения ее узнаваемости и предотвращения путаницы с SAN ≈ Storage Area Network.

Данная архитектура занимает промежуточное положение (но не в ценовом диапазоне) между архитектурой без разделения ресурсов и архитектурой с общими (разделяемыми) жесткими дисками (Shared Disk Architecture). Рассмотрим основные характеристики таких систем более подробно.

Классификация кластеров по способам преодоления сбоя

Способы преодоления сбоя для кластера определяются не только особенностями его реализации, но и тем, каким образом кластер сконфигурирован. То есть один и тот же кластер может быть по-разному настроен.

В 2-узловом кластере, один узел которого в нормальном режиме не занимается обслуживанием запросов клиентов, могут быть использованы:

1.═Несимметричная схема (Iddle Standby ≈ простаивающий резерв). Владельцем группы ресурсов является активный узел с более высоким приоритетом. При сбое и восстановлении работоспособности приоритетного узла происходит передача ресурсов к резервному узлу и обратно.
Достоинства. Вычислительная мощность узлов может быть различной.
Недостатки. Один из узлов простаивает. При восстановлении работоспособности более приоритетного узла из-за обратной передачи ресурсов клиенты получают кратковременный отказ в обслуживании.

2.═Симметричная схема (Rotating Standby ≈ ротация резерва). Владельцем группы ресурсов оказывается узел, который первым становится активным.
Достоинства. При восстановлении работоспособности более приоритетного узла из-за обратной передачи ресурсов клиенты не получают отказов в обслуживании.
Недостатки. Один из узлов простаивает. В отличие от симметричной схемы вычислительная мощность обеих узлов должна быть примерно одинаковой или достаточной для владения группой ресурсов.

Для 2-узлового кластера, все активные узлы которого занимаются обслуживанием запросов клиентов:

1.═Несимметричная схема (Simple Takeover ≈ простой подхват). Одному из узлов с более высоким приоритетом (главному узлу) принадлежат наиболее важные группы ресурсов. Другому узлу принадлежат менее критичные приложения. При выходе из строя главного узла приоритетные группы ресурсов передаются другому узлу. При этом выполнение некритичных приложений может быть остановлено. При восстановлении работоспособности главного узла происходит обратная передача ресурсов и восстановление работоспособности некритичных приложений.
Достоинства и недостатки аналогичны схеме ╚Простаивающий резерв╩. Ни один узел не простаивает.

2.═Симметричная схема.

"═Статическое распределение нагрузки (Mutual Takeover ≈ встречный подхват). Оба узла равноправны и могут быть использованы для выполнения собственных ресурсов и ресурсов другого узла.
Достоинства. При восстановлении работоспособности одного из узлов клиенты не получают отказов в обслуживании из-за обратной передачи ресурсов. Ни один из узлов не простаивает.
Недостатки. Вычислительная мощность каждого узла должна обеспечивать приемлемую производительность при владении ресурсами обеих узлов одновременно.

"═Параллельное выполнение (Concerrent Access ≈ одновременный доступ). Оба узла выполняют одно и то же приложение. При выходе из строя одного из узлов кратковременный отказ в обслуживании могут получить не все пользователи данного ресурса, а только клиенты, которые были подключены к вышедшему из строя серверу. Такая схема требует поддержки на уровне приложения (например, Oracle Parallel Server, IBM DB2 Universal Database Enterprise Extended Edition и Informix Extended Parallel Server), а также предъявляет повышенные требования к пропускной способности межсерверного взаимодействия.

В кластерах, имеющих более 2-х узлов, способы преодоления сбоя, так или иначе, основаны на комбинации способов, названных выше. Наличие 3-х и более работоспособных узлов позволяет сформировать для каждой группы ресурсов некоторый список с указанием одного или нескольких резервных узлов кластера в порядке предпочтения. Такая схема позволяет администраторам создавать группы ресурсов, устойчивых к нескольким отказам, а также управлять распределением групп ресурсов между работающими узлами кластера.

Особенности кластерной архитектуры с разделяемыми жесткими дисками

Наиболее доступным и широко используемым интерфейсом для создания кластеров с разделяемыми жесткими дисками является сегодня интерфейс SCSI (Small Computer System Interface). Могут быть использованы стандартные подключения к SCSI-шине с использованием PCI-адаптеров (подключения с несколькими инициаторами, многохостовые подключения) и подключения к SCSI-устройствам по волоконно-оптическому каналу по протоколу FCP (Fibre Chanell Protocol for SCSI).

Так или иначе, все сравнительно доступные кластерные архитектуры используют алгоритм индивидуального доступа к данным. Он определяет способ управления локальными и общими устройствами и ресурсами кластера. В кластере с индивидуальным доступом каждый сервер владеет собственными локальными устройствами. Устройства, общие для кластера, такие как общий дисковый массив или среда подключения, в каждый конкретный момент находятся в собственности и под управлением только одного сервера.

Модель с индивидуальным доступом облегчает управление дисковыми устройствами и стандартными приложениями, не требует специальных кабельных соединений или специальных приложений и позволяет использовать ╚обычные╩ сетевые ОС. Хотя некоторые изменения все-таки нужны. В общем случае, это:

"═способность динамического создания и удаления сетевых имен и адресов;
"═механизм, обеспечивающий закрытие открытых файлов при отсоединении дисков;
"═обеспечение подсистемой ввода/вывода общего доступа к дискам и наборам томов для нескольких узлов кластера.

Следует отметить, что SCSI не идеально приспособлен для создания кластеров. Например, для включения и выключения питания одного из узлов кластера (или физического его отсоединения), в то время как другой узел продолжает нормально функционировать. Для успешной работы широкое распространение получили специальные устройства, которые можно назвать терминирующими переключателями.

Устройства подобного типа при выключении питания на одном из серверов (возможно, вследствие серьезной аппаратной неисправности) изолируют SCSI-сегмент этого сервера от остатков кластера. В то же время переключатель начинает работать как терминатор, функции которого до сбоя выполнял SCSI-адаптер сервера. При включении сервера терминирующий переключатель определяет его присутствие и восстанавливает соединение между кластером и вновь прибывшим участником.

Алгоритм его работы достаточно прост. Для нормального функционирования SCSI-терминаторов на несколько разъемов SCSI-шины должно быть подано напряжение, так называемые линии TermPower. (Теоретически это должно делать только одно из устройств. Практически ≈ ничего плохого не произойдет, если этим ╚займутся╩ все: тогда можно не беспокоиться, вынимая один из жестких дисков, не был ли он тем самым, единственным.) Если TermPower ╚теряется╩, переключатель инициирует сброс шины и физически разъединяет шину на 2 сегмента. При ╚появлении╩ TermPower переключатель после некоторого тайм-аута соединяет оба сегмента. Причем если во время задержки TermPower снова ╚пропадает╩, таймер задержки запускается снова.

Общие впечатления от кластерных решений на основе ╚обычного╩ SCSI неоднозначны. С одной стороны ≈ простота и дешевизна конструкции. С другой стороны ≈ огромное количество проблем, причиной которых может стать элементарная неаккуратность. Неосмотрительность, начиная от выбора комплектующих и заканчивая настройкой и тестированием, может привести не только к созданию неработоспособной системы (наверное, наилучший вариант), но и к тому, что количество и длительность простоев кластерной системы из 2-х серверов будет выше, чем у каждого из серверов по отдельности. Впрочем, все это так же справедливо и для кластеров на основе технологии FibreChanell, которая в настоящее время выглядит все более перспективной.

Самый главный классификатор и некоторые технические подробности

Успешное завершение ряда проектов по созданию кластеров в нашей компании объясняется не только и не столько наличием технических специалистов или средств и инструментов по настройке оборудования (испытательного стенда для тестирования серверов). На большую часть лавров, безусловно, претендуют грамотные и осторожные (что, собственно, одно и то же) менеджеры.

Точно так же, как всеобщая компьютеризация позволила значительно потеснить работников√исполнителей, например, так же как компьютеры и текстовые процессоры местами победили машинисток с печатными машинками, так и для решения более сложных задач сейчас требуется все меньше специальных знаний. Установить ОС ≈ означает всего лишь уклончиво (клавиша Enter) ответить на задаваемые программой установки вопросы. Купить сервер ≈ да все знают, что для этого необходимо: процессоров побольше, еще бы хорошо, чтобы все это было, например, от IBM ≈ не ошибешься. Кластер нужен? Как же, знаем, есть такое предложение у капиталистов, кластер кит (ClusterKit) называется. А уж если воспользоваться каким√нибудь Order Assistant от Hewlett-Packard, тогда совсем хорошо, несколько нажатий и готово. ╚Вот мы и в ╚Хопре╩.

Почему-то всегда в неудачах неявно обвиняется технический персонал компании, хотя, как правило, и все лавры достаются им, т.═е. нам. Когда говорят, что компания поставила вычислительный или отказоустойчивый кластер, подразумевается именно инженерно-исследовательский состав. Ну и молодцы же те парни, которые у них там работают, и это утверждение ≈ совершеннейшая правда. И наоборот, если бы какой-нибудь из проектов, не дай Бог, не был бы завершен в срок к обоюдному удовлетворению всех его участников, раздавались бы разной степени легкости насмешки: ╚Вот мол, инжене-е-е-ры╩. При этом нередко забывают о весьма существенном, на мой взгляд, аспекте. Речь идет о влиянии менеджеров среднего звена на технический прогресс, имидж компании и самооценку ее технического персонала. Ниже приводится пояснение данного утверждения или классификация менеджеров.

1. Не секрет, что излишняя компетентность человека, работающего с заказчиками, редко идет на пользу делу.

Например, пытаясь ответить на вопрос: ╚Может ли этот сервер обслужить 100 человек?╩, менеджер компетентный и малоопытный начинает испытывать некоторые нравственные страдания. Что значит ╚обслужить╩ в прошедшем времени? На протяжении жизненного цикла? Что понимать под словом ╚обслужить╩? Речь идет о пользователях локальной вычислительной сети? Какого рода задачи решаются пользователями? И он пытается ответить конкретно, для чего вставляет в свою речь целый ряд оговорок, чтобы уточнить вопрос и сделать ответ более правильным, и тон у него будет немного неуверенным и маловыразительным. Понравится ли это тому, кто спрашивает? Маловероятно и понятно почему. Точно описанные технические возможности воспринимаются при этом как ограничения.

2. Теперь сравните разговор с менеджером бодрым и напористым. ╚┘100 человек?╩ ≈ ╚Ха! 100?! Откуда такие┘ жалкие цифры?╩ Несколько фривольная лексика должна подчеркнуть энтузиазм. Это же закон: произведение компетентности на энтузиазм есть величина постоянная! Хотя, пожалуй, это было еще в религиозных руководящих документах, о том, что ╚во многом знании многия печали╩. Действительно, грустно. Возможности кластера далеко не так безграничны, как казалось поначалу и как хотелось бы.

В дальнейшем ситуация может развиваться по нескольким направлениям.

Во-первых, все может закончиться хорошо. Клиент окажется достаточно грамотным и выберет правильно; на каком-то этапе квалифицированные менеджеры√продавцы смогут обнаружить ошибку и переубедить клиента не делать этого; OrderAssistant не подведет; кластер успешно отработает на выставках и будет разобран за ненадобностью. Комментарии излишни. Хотя нет, вот они, в короткой неновой юмористической истории неизвестного автора: ╚Как же вы, комсомолка, из простой рабочей семьи, стали валютной девушкой по вызову?!╩ ≈ ╚Повезло, я думаю, мне просто повезло╩.

Во√вторых, все может закончиться плохо или очень плохо. Менеджер не станет разубеждать клиента, не объяснит, чем может обернуться выбор данного решения, какие ограничения имеет данная технология сама по себе.

В-третьих, все может завершиться ни плохо, ни хорошо, с перевесом в ╚хорошо╩ или ╚плохо╩. Возможны ошибки, проявление которых маловероятно или не очень болезненно.

Например, для создания кластера заказаны 2 комплекта кабелей по 6 метров каждый ≈ для подключения 2-х серверов, дисковой стойки и терминирующих переключателей. Общая длина SCSI-шины при этом составит 6+6=12 метров, плюс некоторое количество, как правило, сантиметров шины, которые приходятся на дисковый массив. Теоретически, это разрешенные почти 12 метров, и проблем быть не должно. Но правильно ли это? Нет, дело не в деньгах; может быть, коротких кабелей в тот момент было не купить, или, бывает же, 6-метровые кабели продавали по цене 40-сантиметровых, и сердце менеджера дрогнуло и, дрогнув, не выдержало?

Будет ли это работать ≈ скорее всего, да. Хорошо ли это ≈ скорее всего, нет. Стоит ли придавать этому значение? Может быть и не стоит, но все, полученное в результате, может быть, РАБОТОСПОСОБНОЕ, уже не будет БЕЗУПРЕЧНЫМ.

Впрочем, не все так плохо. Системный подход и собственный опыт говорят о том, что бывает (по крайней мере, у нас) и по-другому.

3. Третий тип менеджера, который обычно старательно ╚выращивается╩ и стимулируется. Он опытен настолько, чтобы не ошеломить недостаточно квалифицированного клиента техническими подробностями, и компетентен и осторожен настолько, чтобы не взяться за технически безнадежное предприятие. При необходимости, т.═е. при каждом удобном случае, эти менеджеры консультируются у своих коллег, из тех, которые в силу, может быть, ограниченности, увлекаются техническими подробностями, а не человеческими характерами.

Выводы и заключение

Многообразие вариантов технических и программных средств, которые могут быть использованы для создания кластеров высокой доступности, нисколько не облегчает решение этой задачи, а скорее делает ее еще более многоаспектной и сложной.

Применение программных средств, облегчающих заказ комплектующих (всевозможные Order Assistant) и оборудования известных производителей, различных решений-полуфабрикатов (так называемых ClusterKit), также не гарантируют успешного завершения проекта.

Повышение ценовой привлекательности высокодоступных кластерных решений, наличие большого количества успешно реализованных и функционирующих комплексов, поддержка производителями ОС и аппаратного обеспечения опять-таки не смогут сделать кластерные решения менее сложными, чем они на самом деле являются.

И снизить риск неудач можно только после безоговорочного понимания достаточно очевидного ≈ усложнение (использование нескольких серверов и дополнительного оборудования вместо одного компьютера) системы неизбежно приводит к снижению ее надежности, и повышение доступности сложного программно-аппаратного комплекса в ближайшем будущем, наверное, всегда будет оставаться непростой задачей. Задачей, не решаемой без наличия опыта, технических знаний, условий и инструментов для проведения тщательного и всеобъемлющего тестирования.

КОМПЬЮТЕР-ИНФОРМ
Главная страница || Статьи ╧ 12'2001 || Новости СПб || Новости России || Новости мира

Анкета || Рубрики || Работа || Услуги || Поиск || Архив || Дни рождения
О "КИ" || График выхода || Карта сайта || Подписка

Главная страница

Сайт газеты "Компьютер-Информ" является зарегистрированным электронным СМИ.
Свидетельство Эл ╧ 77-4461 от 2 апреля 2021 г.
Перепечатка материалов без письменного согласия редакции запрещена.
При использовании материалов газеты в Интернет гиперссылка обязательна.

Телефон редакции (812) 118-6666, 118-6555.
Адрес: 196084, СПб, ул. Коли Томчака, д. 9
Пейджер 238-6931(аб.3365)
e-mail:
Для пресс-релизов и новостей