Hardware – vMind.ru

Метрокластер на Отечественном

Живая демонстрации работы технологии метрокластера на отечественном оборудовании и ПО, особенности проектирования и реализации от Инфосистемы Джет.
Поведение прикладного ПО при выходе из строя отдельных компонентов кластера и продуктивной площадки целиком.

Состав стенда:

Два набора оборудования:
- СХД Аэродиск;
- сервер виртуализации Aquarius;
- коммутатор Qtech.
Один набор ПО:
- СУБД Postgres Pro под синтетической нагрузкой;
- платформа анализа данных Visiology с рабочим местом администратора и руководителя ИТ-инфраструктуры и панелью по анализу данных;
- система виртуализации zVirt;
- система мониторинга Пульт.

*Между двумя площадками эмулируется расстояние 60 км.

Смотреть видеозапись.

Добавление FC-коммутаторов с FabricOS 9.x в Brocade Network Advisor

Disclaimer: все дальнейшие рассуждения и действия не соответствуют политике технической поддержки Broadcom. Любое использование оборудования вне списков совместимости Broadcom может быть использовано только на свой страх и риск. В статье рассматриваются коммутаторы на основе G620 первого и второго поколения. BNA ничего не знает про новую функциональность FabricOS 9.x и не сможет с ней правильно взаимодействовать.

Для управления FC-фабриками мы используем Brocade Network Advisor, который прекратил свой жизненный путь и заменен на SANNav.

К сожалению, SANNav поставляется по подписки и у нас есть проблемы с её приобретением.

Первой проблемой для нас стало то, что последняя версия BNA 14.4.5 перестала интегрироваться с VMware vCenter 7.0. Пришлось интеграцию удалить.

Второй проблемой – отсутствие поддержки Fabric OS 9.x, которая стала базовой для новых и обновленных коммутаторов.

У нас коммутаторы G620 второго поколения отображались в схеме фабрик как имеющие неправильные имя-пароль для подключения. Изменение настроек в разделе snmp коммутаторов и сервера – задание уровня шифрования для пользователя мониторинга в BNA и коммутаторе, включения информера не помогали.

Просмотр текущих настроек snmp:

snmpconfig --show snmpv3

1	snmpconfig --show snmpv3

Изучение настроек BNA выявило, что для сканирования оборудования фабрик используется аккаунт domain\access_bna, то есть коммутаторы должны позволять вход под доменными учётными записями.

Настроили и для новых коммутаторов RADIUS- авторизацию:

aaaconfig --show
aaaconfig --add radius_ip_address -conf radius -p 1645 -t 15 -s secret1234 -a pap -e none
aaaconfig --authspec "radius;local"

aaaconfig --show

aaaconfig --add radius_ip_address -conf radius -p 1645 -t 15 -s secret1234 -a pap -e none

aaaconfig --authspec "radius;local"

После этого коммутатор стал доступен для мониторинга и отобразился в схеме фабрики.

А вот коммутатор в другой фабрике по-прежнему остался недоступным. В консоли BNA выводилась ошибка с фразой:

certificates do not conform to algorithm constraints

1	certificates do not conform to algorithm constraints

Начали выяснять отличия первого коммутатора от второго.
Вспомнили, что на первом ломала и пересоздавали сертификат для подключения по https, а второй избежал этой участи, так как проблема была в браузере – подключаться необходимо из Windows 10 с установленной кодовой страницей профиля пользователя EN-US.

Просмотр сертификатов для https выдается командой:

seccertmgmt show -cert https

1	seccertmgmt show -cert https

Разница видна сразу:

Crypto Algorithm
у первого коммутатора
    Signature Algorithm      sha1WithRSAEncryption
у второго
    Signature Algorithm      sha256WithRSAEncryption

Crypto Algorithm

у первого коммутатора

Signature Algorithm sha1WithRSAEncryption

у второго

Signature Algorithm sha256WithRSAEncryption

Команда генерации сертификата, по найденному лайфхаку, была:

seccertmgmt generate -cert https -type rsa -keysize 2048 -hash sha1 -years 10

1	seccertmgmt generate -cert https -type rsa -keysize 2048 -hash sha1 -years 10

Примечание: не все советы в интернете оказываются полезными. Помните это, читая и данную статью!

Создали новый сертификат с другим алгоритмом, соответствующий второму коммутатору:

seccertmgmt generate -cert https -type rsa -keysize 2048 -hash sha256 -years 10

1	seccertmgmt generate -cert https -type rsa -keysize 2048 -hash sha256 -years 10

После перегенерации сертификата, BNA увидел коммутатор и в этой фабрике.

Наука виртуализации

Многие читатели бложика являются практиками виртуализации, кто-то даже пытается заглянуть под капот и посмотреть как это устроено.

Сегодня я подобрал несколько актуальных ссылок на статьи, описывающие как работает на уровне процессора вложенная виртуализация, как самому написать гипервизор, зачем нужны инструкции процессора для аппаратной реализации функций виртуализации.

Virtualization Internals

Как написать гипервизор самому:

Вложенная виртуализация:

Out of Hypervisor (OoH): When Nested Virtualization Becomes Practical
Using SMT to Accelerate Nested Virtualization
The Turtles Project: Design and Implementation of Nested Virtualization – с чего начиналось
Improving KVM x86 Nested Virtualization

Для понимая поддержки аппаратной виртуализации в VMware ESXi есть довольно полезная, хоть и давно не обновлявшаяся таблица ESX(i) Support of Intel VT-x and AMD-V Features. Вроде, все функции были реализованы в 6.5/6.7: Continue reading “Наука виртуализации”

Мониторинг IBM Tape Library по протоколу SNMP в Zabbix 6

Мы несколько лет используем Zabbix для мониторинга различных операционных систем — Linux, Windows, vSphere.

Иногда приходится добавлять и железо. Пришла задачка замониторить ленточную библиотеку IBM TS3310 Tape Library.

Скачать шаблон IBM TS3310 Tape Library SNMP в формате Zabbix 6.

При настройке указать в Макросах {$SNMP_COMMUNITY}. Триггеров пока нет.

P.S. Обнаружение должно работать и на других ленточных библиотеках IBM, про элементы данных(items) не уверен.

Тестирование систем хранения данных Huawei Dorado V6 в кластере HyperMetro

Disclaimer: все дальнейшие рассуждения, настройки и выбранные методы тестирования могут быть ошибочны. Никакого отношения к компаниям Lenovo, Huawei, Broadcom мы не имеем.

Цели тестирования:

определить производительность системы хранения данных (СХД) в кластере HyperMetro и её изменение при различных вариантах отказа оборудования;
оценить влияние на производительность и доступность программно-аппаратного комплекса (ПАК) фирменного MPIO-драйвера (драйвер балансировки подключения по нескольким путям ввод-вывода) Huawei Ultrapath;
протестировать функциональность SmartVirtualization СХД Huawei Dorado 5000V6 – способность выдавать через себя дисковые разделы других СХД.

Дополнительно была проведена проверка работоспособности одного из серверов системы управления базами данных (СУБД) Oracle DB при отказе узла кластера HyperMetro. Для этого сервер был временно перенесён в кластер HyperMetro без прерывания его работы, а по окончании тестирования возвращён обратно.

Оборудование было предоставлено системным интегратором, который также составил и выполнил программу и методику испытаний. Тестирование осуществлялось при помощи программы VDBench, имитировалась нагрузка, аналогичная создаваемой основным сервером СУБД Oracle DB в ежедневной эксплуатации. Профиль нагрузки приведён в Приложении 1.

Для проведения тестирования был собран стенд, имитирующий размещение оборудования в двух пространственно-разнесённых центрах обработки данных, установлено и настроено программное обеспечение (ПО) и развёрнуты тестовые виртуальные машины. Схема стенда и описание используемого ПО приводятся в Приложении 2.

Первичное конфигурирование системы проводилось с использованием штатных MPIO-драйверов среды виртуализации VMware ESXi. Драйвер оказывает решающее влияние на производительность системы и её отказоустойчивость, поэтому было проведено две серии тестов – со штатными драйверами VMware, и с фирменными драйверами Huawei Ultrapath от изготовителя СХД. Перед началом тестирования выживаемости кластера при различных вариантах отказов оборудования и влияние отказов на производительность был выполнен эталонный замер производительности системы в штатном режиме работы. Методика замера и результаты приведены в Приложении 3.

После определения исходного уровня производительности системы, была выполнена оценка изменения производительности при отказе удалённой системы хранения (Приложение 4), локальной системы хранения (Приложение 5) и дирижёра кластера (Quorum Server). С целью проверки выживаемости, в тестовую среду был мигрирован сервер СУБД Oracle DB (DEV03). Оценивалось влияние на работоспособность и доступность сервера отказ одной из реплик хранилища. Результаты приведены в Приложении 6.

Следующим этапом стала оценка влияния на производительность и доступность системы использование MPIO-драйвера Huawei Ultrapath. В процессе подготовки стенда выяснилось, что драйвер существует только для версии VMware ESXi 6.7U3, а на стенде развёрнута VMware ESXi 7. Для проведения работ был подготовлен и подключен новый сервер с требуемой версией ESXi, описание стенда приведено в Приложении 7.

Поскольку среда поменялась, были проведены замеры производительности системы в штатном режиме (Приложение 8). Затем выполнены замеры производительности при отказе удалённого хранилища (Приложение 9) и локального (Приложение 10).

После проведения серии опытов по определению производительности работы и отказоустойчивости кластера, была выполнена оценка функционала виртуализации СХД (SmartVirualization) и сделаны замеры производительности работы системы при прямом подключении к серверу раздела СХД EMC VNX5700 и подключении его через функцию виртуализации СХД Huawei Dorado 5000 V6. Схема стенда и результаты тестирования приведены в Приложении 11.

Дополнительно была выполнена оценка влияния процесса создания и удаления моментальных снимков (снапшотов, snapshots) виртуальных машин (ВМ) на производительность работы ВМ при использовании традиционных томов VMFS (Приложение 12), при использовании виртуальных томов VVOL (Приложение 13), а также влияние на производительность процедуры установки обновлений управляющего ПО СХД (Приложение 14).

Краткое резюме по этапам тестирования производительности приведено в таблице: Continue reading “Тестирование систем хранения данных Huawei Dorado V6 в кластере HyperMetro”

Тестирование СХД Lenovo ThinkSystem DE6000F по протоколу передачи NVMe over FC

Disclaimer: все дальнейшие рассуждения, настройки и выбранные методы тестирования могут быть ошибочны. Никакого отношения к компаниям Lenovo, NetApp, Broadcom мы не имеем.

Вступление

Осенью 2021 года в наши загребущие ручонки попала система хранения данных (СХД) Lenovo ThinkSystem DE6000F с внутренней поддержкой протокола передачи NVMe и установленными дисками SAS SSD. Система также позволяет использовать протокол NVMe в среде сети хранения данных (SAN, Storage Area Network). Поскольку это вторая система хранения такого типа в наших руках, то решено подключить её к SAN по протоколу NVMe over FC (NVMe/FC) и проверить, реализуются ли на практике теоретические преимущества протокола NVMe. Чтобы переключить СХД на использование нового протокола, на сайте Lenovo FOD получена соответствующая лицензия. СХД не может одновременно использовать несколько протоколов в одной среде передачи, поэтому включение протокола NVMe/FC приводит к отключению возможности работы по протоколу FC. Соответственно, СХД пропадает из зоны доступности серверов, FC-адаптеры которых не могут работать с новым протоколом. Из имеющихся для стендирования серверов поддержку NVMe over FC «из коробки» имеют серверы Lenovo ThinkServer SR650 c 32-гигабитными FC-адаптерами и серверы Lenovo ThinkServer SR630 с 16 -гигабитными FС-адаптерами после обновления прошивок и драйверов FC-адаптеров. Continue reading “Тестирование СХД Lenovo ThinkSystem DE6000F по протоколу передачи NVMe over FC”

Потеря доступности LUN-ов и VMFS-томов на хранилищах с прямым FC-подключением после обновления до vSphere 7.0 Update 3

После обновления хостов до ESXi 7.0 Update 3f получили замечательную вещь – диски и тома на них, подключенные к системе хранения данных напрямую (Direct-Attached FC) исчезли на серверах напрочь.

Диагностика проблемы выявила, как минимум, две возможных ситуации:

Кривой драйвер в составе дистрибутива – qlnativefc 4.1.14.0-26vmw.703.0.20.19193900. Пересобрали образ с самой новой версией 5.1.68.0-1OEM.703.0.0.18644231 и проблема у нас ушла.
Начиная с версии vSphere 7.0 Update 3, драйвер brcmnvmefc больше не доступен. Функциональность NVMe over FC, ранее реализованная в brcmnvmefc, теперь включена в драйвер lpfc.Чтобы включить поддержку только протокола SCSI в драйвере lpfc, установите lpfc_enable_fc4_type=1.
Чтобы включить поддержку протоколов SCSI и NVMe, установите lpfc_enable_fc4_type=3.
1. Переведите хост ESX в режим обслуживания
2. Включите SSH-доступ к хосту ESX и подключитесь к хосту ESXi от имени root.
3. Используйте следующую команду esxcli, чтобы отключить поддержку FC-NVMe в драйвере lpfc:
  esxcli system module parameters set -m lpfc -p lpfc_enable_fc4_type=1
4. Перезагрузите хост ESXi для завершения изменений.

Мониторинг IBM Bladecenter AMM по протоколу SNMP в Zabbix 6

Мы несколько лет используем Zabbix для мониторинга различных операционных систем – Linux, Windows, vSphere.

Иногда приходится добавлять и железо. Пришла задачка замониторить лезвийное шасси IBM Bladecenter H.

Поиск выдал старый шаблон Template IBM BC_AMM SNMP Chassis Stats.xml в формате Zabbix 2.0. Мы его посмотрели и наваяли свой под Zabbix 6.0.

Скачать шаблон IBM Bladecenter AMM SNMP в формате Zabbix 6.

P.S. Дополнительно залил пропавший на просторах сети шаблон для Lenovo ThinkSystem XClarity Contoller (заменить USERNAME и PASSWORD в макросах).

Обновление серверов Dell с помощью VMware LifeCycle Manager

Мы ранее уже делились опытом обновления серверов Lenovo, теперь настала очередь Dell.

Допустим, у вас есть парочка серверов R740, и вы слышали, что вроде бы VMware умеет обновлять прошивки.

Вам потребуется Dell OpenManage Integration for VMware vCenter aka OMIVV, который можно скачать отсюда. Начиная с версии 5.3, присутствует поддержка VMware vSphere 7.0 U2.

OMIVV поставляется в виде виртуального апплайнса. Сразу после установки работает пробная лицензия на 5 хостов и 15 серверов vCenter.

Лицензируется продукт по хостам, доступны 3-х и 5-летние пакеты.

После установки необходимо зарегистрировать в OMIVV vCenter и vLCM, поддерживается одновременная работа с 15 vCenter-серверами.

Continue reading “Обновление серверов Dell с помощью VMware LifeCycle Manager”

Обновляем серверы Lenovo Thinksystem/ThinkAgile VX с помощью VMware vSphere Lifecycle Manager

В VMware vSphere 7.0 появился новый встроенный продукт для управления обновлениями Lifecycle Manager. Кратко я о нём упоминал в статье:

VMware ESXi 7.0 и неподдерживаемое оборудование

Данный менеджер умеет проверять HCL и даже, по слухам, обновлять прошивки оборудования!

После несколько обращений по поводу функционала и неполным пониманием собеседников как это работает настало время написать про интеграцию с экосистемой Lenovo. Continue reading “Обновляем серверы Lenovo Thinksystem/ThinkAgile VX с помощью VMware vSphere Lifecycle Manager”