Japan VMUG Christmas Meeting 2019

f:id:tcpninja:20191214104555j:plain 2019 年最後の Japan VMUG Local Meeting は,昨年に引き続き NetApp さまのオフィスで Christmas Event として開催しました. NetApp 加藤さん,いつも暖かいご支援ありがとうございます!

Meeting の方は加藤さんより,日本ではまだ提供が開始されていない KEYSTONE 含め,HCI ( Hybrid Cloud Infrastructure ),NKS, CVO など NetApp Insight の Update をいただきました. C190 の説明は当日無茶振りされたVMUG 初参加の植松さんが初々しく説明をしてくれました.次回 1 月開催予定の Japan VMUG vLadies でも頑張ってもらいたいと思います. また,今回は VMUG に YouTuber のくろかわこうへいさんをお迎えし,IT 系の動画配信に対する熱い思いを語っていただきました. VMUG Session も配信されるかもしれませんので,是非チャンネル登録してみてくださいね.

www.youtube.com

さて,本題ですが,今回の VMUG LT のテーマは VUM です.vmug.com の掲示板で Patch や Update の適用について少し議論があり,VMware 豊嶋さんに VUM 入門講座を開いていただきました.普段 esxcli で patch 適用している方には聴き慣れない Baseline や Remediation 等の用語から,基本的な使い方まで,しっかりカバーしていただきました.豊嶋さん,快く引き受けていただき,ありがとうございました!

私も VUM は使っていなかったので,今回の LT 発表をきっかけに,以前から気になっていた点について動作を確認してみました.


1.DRS 無しでの VUM

ライセンスの関係で,DRS が使えない方もいるかと思います.豊嶋さんからも Host に Baseline を設定して VUM で Patch 適用という方法を紹介していただきましたが,Cluster に対しても VM を suspend させる事で対応できそうです. まず,Update Manager の Settings で,Remediation Settings の Hosts を選択して Edit をクリックします. f:id:tcpninja:20191214122147p:plain

表示された Edit Settings for Host Remediation の画面で [Suspend virtual machines] を選択します. これで Host がメンテナンスモードに入った際に Host 上の全 VM が Suspend 状態になります. f:id:tcpninja:20191214122431p:plain

Remediation Pre-check をかけると Warning が出ますが,DRS available では無いという前提で今回はこのまま進めていきます. f:id:tcpninja:20191214123300p:plain

STAGE -> REMEDIATE を実施すると,Host がメンテナンスモードに入る前に VM が Suspend されます. f:id:tcpninja:20191214130501p:plain f:id:tcpninja:20191214124222p:plain

Suspend 状態の VM は, Host の Patch 適用が完了して再起動すると自動的に Power state が戻ります.VM の数やワークロードに依存するかと思いますが,Host の再起動までのダウンタイムが許容範囲内であれば,DRS 無しでも VUM が使えそうですね. f:id:tcpninja:20191214125047p:plain


2.vSAN と VUM

vSAN 環境では,誤って Cluster 内の複数 Host を同時にメンテナンスモードにするようなミスオペが回避できるので, VUM は重宝しそうです. Cluster で vSAN を有効にすると,自動的に Baseline と Baseline Group が追加されるようです. f:id:tcpninja:20191214133726p:plain

流石にDRS 無しでの vSAN は辛そうなので,DRS は enabled にしておきます. Remediation Pre-check をかけると,vSAN health check の Warning が出ます. f:id:tcpninja:20191214134808p:plain

実は検証で利用している P440ar Controller の Firmware が Recommended の 6.88-0 より上の 7.00-0 であるために,Skyline Health で Warning が出てしまうのです. HPE さんの不具合修正情報を読んでしまうと,6.88 のままでは不安だったため,すでに VUM 検証前に Firmware Update してしまっていました. f:id:tcpninja:20191214135751p:plain

ところが,VUM は Default のままだと Health check 失敗と見做して,Patch 適用処理が途中で終了してしまいます. f:id:tcpninja:20191214140658p:plain

vCSA の /var/log/vmware/vmware-updatemgr/vum-server/vmware-vum-server-log4cpp.log を確認していくと,確かに health check が原因で Remediation が失敗している事がわかります.

[2019-12-09 09:47:00:923 'HostUpdateDepotManager' 140118466733824 ERROR]  [installController, 376] Reboot on host: esxevl02.xxxxx.xx.jp(Entity: host-37) failed. Error: vSAN cluster is not healthy because vSAN health check(s): com.vmware.vsan.health.test.controllerfirmware failed
[2019-12-09 09:47:00:927 'SetFirewallConfig' 140118466733824 INFO]  [hostUpdateBase, 999] No changes to firewall configuration for: updateManager
[2019-12-09 09:47:00:927 'SingleHostRemediateTask.SingleHostRemediateTask{638}' 140118466733824 ERROR]  [singleHostRemediateTask, 291] Remediation error: vSAN cluster is not healthy because vSAN health check(s): com.vmware.vsan.health.test.controllerfirmware failed

ちなみに,P440ar の Firmware はふつーにダウングレードできません(苦笑).

[root@esxevl02:/tmp] ./CP038306.vmexe 
OS: VMkernel 6.7
Online ROM Flash Component for VMware ESXi - Smart Array and Smart HBA H240ar, H240nr, H240, H241, H244br, P240nr, P244br, P246br, P440ar, P440, P441, P542D, P741m, P840, P840ar, and  P841 (6.88), searching...
1) Smart Array P440ar in Slot 0 (7.00)
Select which devices to flash [#,#-#,(A)ll,(N)one]> 1
============ Summary ============
Smart Component Finished

Summary Messages
================
Smart Component opted to not flash 1 device
See log at /var/cpq/Component.log for details

Exit Status: 3
Update not attempted. All selected devices are either up-to-date or have newer versions installed.

Skyline Health の check を無視できれば... と思っていたら,ちゃんと豊嶋さんが教えてくれました. Remediation Settings で default では On になっている [Check host health after installation] のチェックを外せば良いそうです. f:id:tcpninja:20191214142743p:plain

これで Skyline health 由来の VUM の悩みは解決ですが,Patch 適用前に特定の Script 実行させたりとか出来るようになるといいですね.


3.検証時の諸々

普段は便利に使わせてもらっている HOL ですが, VUM に関しては Host の Remediate まで試す事が出来ないので,今回は物理サーバ環境を用意しました. 何度も環境再構築するのは面倒なので,Patch 適用後は Host 起動時の SHIFT+R で直前のバージョンにロールバックしています. その際,(特に Remediation が失敗した後に)vCSA で Status 401 のエラーが出ることがありました. f:id:tcpninja:20191214144224p:plain

ただ,これは KB59696 の記載通り Firefox の cache クリアで解消します.


4.さぁ,一仕事終えたら Party Mode !

会場提供だけでも本当にありがたい限りなのですが,今年もまた素敵な VMUG & NetApp ケーキを用意していただきました! f:id:tcpninja:20191214151257j:plain

すっかり Japan VMUG Family となった Networld Storage Girls も Trivia クイズ大会で盛り上げてくれて,参加者のみなさんには VMUG Meeting を堪能してもらえたのではないかと思います. 唯一の心残りは,クイズ大会終わった時点で既に氏原さんの手料理が完売してた事ですかね.ラズベリーパイ食べたかった(笑. f:id:tcpninja:20191214151717p:plain