再訪OpenVINO 模型優化器，Runtime API 與度量深度學習模型效能與準確度

【教材專區】再訪OpenVINO 模型優化器，Runtime API 與度量深度學習模型效能與準確度

OpenVINO 強大之處在於整合了當前 AI 經常應用的情境，像是圖片或是影像的物件辨識、語音辨識、自然語言與數據推薦系統等等，而透過這個套件的 Open Model Zoo 可以導入現有多個常用框

內容簡介

作者介紹

適合人群

你將會學到什麼

購買須知

使用模型優化器轉換 Tensorflow/Keras 預訓練模型
- OpenVINO 模型最佳化實測：PC/NB 當 AI 辨識引擎沒問題！
  
  簡介上一次（ROS系統YOLOv3效能初體驗）我們談到在 Intel OpenVINO 架構下，當需要進行 AI 運算時利用 Intel GPU 加速一樣可獲得不錯的效能，並且使用 YOLO v3 進行測試。這次我們將會自製一個 CNN 分類器，並透過 OpenVINO 的模型轉換程式轉換成IR模型，並進行模型效能與正確率分析。依據Intel官方網站的說明，OpenVINO 可以針對不同模型進行最佳化，目前支援包括 Tensorflow、Keras、Caffe、ONNX、PyTorch、mxnet 等多種模型。也就是說，當使用者透過其他框架訓練完成的模型檔，例如 Keras 的 model.h5 檔，或者 TensorFlow 的 model.pb 檔，只要經過轉換就可以在 OpenVINO 中以最高效能來執行。圖片來源： Intel OpenVINO 官方網站不過讀者可能會比較在意的就是透過 OpenVINO 加速後，效能是能提昇多少、正確率會不會發生變化？還有就是若我已經有一個訓練好的 Model，我要如何轉換為 OpenVINO 可以讀取的模型呢？本文將分為兩個部份來說明，第一個部份就是如何進行模型轉換，第二部份則來評測轉換前後的執行效能差異，除了模型比較之外，讀者一定會想了解 Intel OpenVINO GPU與NVIDIA CUDA 的差異，這部份也在本文中進行比較，我相信會讓讀者大開眼界。 OpenVINO 模型轉換以目前官方文件所述，OpenVINO 架構執行效能最佳的為 IR(Intermediate Representations) 格式模型，所謂的 IR 模型是「中間表達層」，IR 模型包含一個 bin 及 xml，bin 包含實際權重的網路權重 weight 及誤差 bais 資料，而 xml 則是記載網路結構。後續當 OpenVINO 要載入模型時，只要讀取這兩個檔案即可，雖然這樣轉換須多經過一道手續，但是卻可大幅提高執行效能，在此我們介紹如何轉換模型。資料來源：openvino官網本次就以筆者在教學上最常用的個案「玩猜拳」為例，利用卷積類神經 CNN 模型製作一個圖形分類器，可以對「剪、石、布」以及「無」（代表使用者還沒有出拳）的四種圖形進行判斷。模型採用 [224x224x3] 的圖片格式，本文以 Tensorflow 為例演練轉換過程，其他模型轉換方式類似，讀者可以參考本例作法進行轉換測試。無（N）布（P）石（P）剪（S） 1. TensorFlow模型轉換一般來說以 TensorFlow 訓練模型的話，那麼我們可能會得到兩種格式的檔案，一種為使用 Keras 的 h5 檔，另外一種則是 TensorFlow 的 pb 檔，h5 檔案可以透過 python 轉換成 pb 檔，因此本文僅介紹 pb 檔的模型轉換。另外為了後續測試能有一致的標準，本文的模型使用 Google 的 Teachable Machine（簡稱 TM）進行訓練，這樣可以讓讀者在與自己的電腦進行效能比較時，能有較公平的比較基準，若讀者有自行訓練的類神經模型，一樣可以參考下面的方式進行轉換。關於 TM 的訓練過程，請自行參考其他教程，本文僅針對最後的模型下載過程進行說明。也就是說，當 TM 已經訓練好模型之後，就可以點選右上角的「Export Model」匯出模型。開啟匯出模型視窗後點選：1.Tensorflow，然後點選儲存格式為 2.Savemodel，最後選 3.Download my model。此時下載的檔案內容包含一個文字檔案「labels.txt」及資料夾「model.savedmodel」，而在資料夾內則包含「saved_model.pb」及資料夾「assets」及「variables」，接下來我們就可以將此檔案轉換為 IR 格式。下載的 tensorflow pb 檔案。下一步我們則可以利用 OpenVINO 內建的「model_optimizer」模組進行優化及模型轉換，一般是在「/opt/intel/openvino_安裝版本/deployment_tools/model_optimizer/」資料夾內，我們將會選用的轉換程式為 mo_tf.py，而語法如下 python3 mo_tf.py --saved_model_dir ###draft_code_symbol_lessthen######draft_code_symbol_lessthen###模型檔案存放資料夾路徑>> --output_dir ###draft_code_symbol_lessthen######draft_code_symbol_lessthen###IR模型檔輸出路徑>> --input_shape ###draft_code_symbol_lessthen######draft_code_symbol_lessthen###輸入層結構>> --data_type ###draft_code_symbol_lessthen######draft_code_symbol_lessthen###選用的資料格式>> 舉例來說，假設我的 pb 模型檔存放在「Tensorflow/SaveModel」資料夾內，而要輸出到「IR」資料夾，而第一層架構為 [1,224,224,3]（此代表輸入1張圖，長寬為 224×224，有 RGB 三色），選用 FP32 （預設值）為資料格式，此時語法為 python3 mo_tf.py --saved_model_dir Tensorflow/SaveModel --output_dir IR --input_shape [1,224,224,3] --data_type FP32 轉換完成會出現的訊息。轉換完成的 IR 模型檔案。當轉換完成的訊息出現後，就可以在 IR 資料夾中看到三個檔案「saved_model.bin」、「saved_model.mapping」、「saved_model.xml」，這樣就代表轉換完成了。若您原本是使用 Keras 的 h5 model 檔案的話那該怎麼辦，先轉成 pb 檔結構，再轉換成 IR 即可，以下為 h5 轉換 pb 的 python 語法。 import tensorflow as tf model = tf.keras.models.load_model('saved_model.h5') #h5的檔案路徑 tf.saved_model.save(model,'modelSavePath') #'modelSavePath'為pb模型檔案輸出路徑將 h5 轉換成 pb 檔案後，就可以依照前述方式將再將 pb 轉換成 IR 檔案。除了 TensorFlow 之外，其他模型的轉換方式，可以參考 OpenVINO官方網頁說明。模型轉換效率比較當使用 OpenVINO 進行模型轉換時，並非單純轉換而已，事實上 OpenVINO 在轉換過程會對模型進行最佳化（算是偷吃步嗎？哈哈），最佳化部份包括以下兩種：修剪：剪除訓練過程中的網路架構，保留推理過程需要的網路，例如說剪除 DropOut 網路層就是這種一個例子。融合：有些時候多步操作可以融合成一步，模型優化器檢測到這種就會進行必要的融合。如果要比較最佳化後的類神經網路差異，我們可以透過線上模型視覺化工具，開啟兩個不同模型檔案來查看前後的變化。下圖為利用 netron 分別開啟原始 pb 模型及轉換後的 IR 模型的網路架構圖，讀者可以發現經過轉換後的模型與原始 TensorFlow 模型有很大的差別，IR模型會將多個網路進行剪除及融合，減少網路層數提昇運算效能。以下圖為例，左側為 IR 模型，右側為TF模型，兩者比較後可以發現，原先使用的 Dropout 層已經在 IR 中被刪除。模型轉後前後比較圖左圖為 IR 模型右圖為原始 TensorFlow 模型（由於模型都相當大，此處僅呈現差異的一小部份）在 OpenVINO 轉換工作結束後，就會告知最佳化前後所造成的差異，以本例而言，原本 995 個節點、 1496 個路徑的類神經網路就被最佳化為 729 個節點、1230 個路徑，因此能提昇運算效率。解模型轉換過程之後，接下來就是測試 OpenVINO 在執行上是否有效能上的優勢。以下會有二個測試，測試項目包括效能及正確率，以了解 OpenVINO 是否能具有實用性，也就是說在獲得效能的同時，是否能保有相同的正確性，讓讀者對於後續是否採購支援 OpenVINO 機器有比較的依據：在 RQP-T37 上測試 IR 模型及 TensorFlow Keras h5 模型效能比較 OpenVINO iGPU 及 Colab 的 GPU 效能比較 1. 在 RQP-T37 上測試 IR 模型及 Tensorflow 上的差異本測試是同一台機器 (RQP-T37) 及環境 (Ubuntu 20.04.2 LTS) 之下進行，模型則採用 Google TeachableMachine 所製作的手勢分類器（猜拳遊戲：剪刀石頭布），辨識對象為 800 張 224x224x3 的手勢照片，模型採用 FP32 進行分析辨識總時間及正確率。為了避免單次測試可能造成的誤差，測試取 100 次的平均及標準差，並繪製盒型圖(Box plot)，本測試並不使用其他測試常採用的 fps(Frame per second)，而僅計算的是辨識(inference) 總時間，不計算檔案讀取、資料轉換過程所耗費的時間。因為本測試主要要了解模型轉換後的差異，避免受到其他因素的影響因此不使用 fps。 (a) IR 模型程式碼片段，顯示僅計算推論時間。（評估標準為 Inference 總時間） (b) TensorFlow 模型程式片段，顯示僅計算推論時間。（評估標準為 Inference 總時間）在完成 100 次執行之後，我們先看原始 TensorFlow 模型的執行狀況如下表，做完 800 張照片的手勢推論，平均時間為 38.941，換算辨識一張的時間約 0.04 秒，而標準差 0.103，大致換算 fps 的上限約 25，這樣的結果算是中規中矩。另一方面 IR 模型進行推論結果則呈現在下圖，可以發現效能非常高，分析 800 張照片平均只要 1.332 秒，也就是一張 224×224 的照片僅需要 0.00166 秒，非常不可思議，換算 fps 上限約為 602，若看標準差也只有 0.008，代表耗費時間也相當穩定，並無太大起伏。相對於原始的 Tensorflow pb 模型來說，效能大約提昇了 30 倍，相當令人驚豔。雖然效能提昇如此之多，讀者應該會覺得 OpenVINO 的 Inference 引擎可能會在「效能」與「正確性」之間進行 trade off，是否在大幅提昇效能後，卻喪失了最重要的推論正確性？此時觀察兩次測試時的混淆矩陣可以發現，在 TensorFlow 模型時 800 次只有 3 次將布看成剪刀，正確率為 797/800 大約 0.996。而在 IR 模型時，800 次辨識有 9 次將石頭看成剪刀，所以其正確率為 793/800=0.991，事實上兩者相差無幾，不過有趣的是兩個模型所辨識錯誤的項目不太一樣，值得後續再深入討論。筆者在此必須強調，OpenVINO 架構的效能提昇如此之多，個人認為主要在於模型最佳化 (model_optimizer) 的過程，雖然 Intel CPU 及 GPU 雖然有所幫助，但不可能把效能提升到 30 倍之多。 TensorFlow 模型辨識混淆矩陣 IR 模型辨識混淆矩陣測試小結：經過最佳化的 IR 比 TensorFlow 模型效能上大幅提昇，差異約 30 倍經過最佳化的 IR 與 TensorFlow 模型正確率幾乎相當 2. 比較 OpenVINO iGPU 及 Colab 的 GPU 本測試則是使用 Colab 上的 GPU 進行加速運算，Google Colab 可以說是近幾年來最受歡迎的程式開發平台了，尤其是提供免費的 GPU 加速，可以讓使用者在 AI 運算上獲得相當好的效能。因此本次也針對 Colab 平台進行測試，測試之前查詢 Colab 所提供的 GPU 規格為 Tesla T4。而根據 NVIDIA 的規格表，T4 具有 2,560 個 CUDA 核心，FP32 的算力為 8.1 TFLOPS。 NVIDIA T4 規格（資料來源：NVIDIA）與前次測試相同，推論對象為 800 張 224x224x3 的圖片，採用原始的 TensorFlow pb 模型，且確認有開啟 GPU 加速。經過 100 次分析後，獲得上表可以得知，Colab 的運算速度比本次測試用的電腦採用的 Intel CPU 時效能高，平均一次約 28.52 秒，相當於分類 1 張照片只花 0.035 秒，換算 fps 上限 28.05，這個效能符合Colab 所提供的 GPU 規格。讀者可能會想到在 Colab 上的照片讀取效能比 Local 端差多了，這樣評估不公平，這裡要注意的是，我們測試都僅加總推論時間，並沒有計算檔案讀取的時間。此次測試比較後，OpenVINO 效能還是明顯較好。不過一樣的，筆者認為效能提昇是來自於 OpenVINO 的模型最佳化。測試小結：同樣在 pb 模型下，Colab 採用的 GPU 加速後，效能大於 Intel CPU IR 模型在 OpenVINO 模型最佳化及加速後，效能超過 NVIDIA CUDA 結論本次文章主要讓讀者了解 OpenVINO 架構的效能與正確性的比較，另外也說明自製模型的轉換過程。測試時雖硬體上有明顯差距，以及並未使用 TensorRT 做模型最佳化，但本測試還是有一定的代表性，也就是說當讀者擁有一台 Intel 電腦時，透過安裝 OpenVINO ToolKit 來進行模型最佳化，一樣可以獲得性能相當好的 AI 辨識引擎，不一定要購買超高等級的顯示卡才能進行 AI 專案開發。畢竟一般讀者購買電腦一定有 CPU，卻不一定會購買獨立 GPU 顯示卡，或者像是無法加裝顯示卡的筆記型電腦，以往沒有獨立顯卡的電腦以 CPU 進行 AI 推論時都會花費大量時間，系統無法即時反應，因此缺乏實用性。而本次測試則是證明在 OpenVINO 架構下，就可以透過模型最佳化程式及 Intel GPU 加速，進而在幾乎不影響正確率的結果下得到非常好的效能，這個效能甚至超越 NVIDIA 架構。不過筆者必須提醒讀者，目前 OpenVINO 只有提供 Inferencing，尚不提供 Training 的功能，所以讀者必須先透過其他方式進行訓練獲得模型後，才可以在 OpenVINO 中進行實地推論。雖然如此，無論是採用 Intel 的電腦，還是標榜低價的文書電腦，都可以快速進行 AI 運算，可以說是實做 AI 系統非常好的工具。詳細內容 OpenVINO模型最佳化實測：PC/NB當AI辨識引擎沒問題！ - 引領創新的科技實作社群媒體本文針對OpenVINO進行模型最佳化轉換的效能實測，證明Intel-based PC及NB也能拿來當AI辨識...makerpro.cc
- 不須轉換！OpenVINO 整合 TensorFlow 框架實現推論加速！
  
  簡介有在涉略 AI 邊緣運算的各位們對於 OpenVINO 應該都有基礎的了解：不同框架（如 TensorFlow、PyTorch 等）訓練完成的模型檔在經由 OpenVINO 轉換後可以在不同邊緣運算裝置執行推論加速。若筆者告訴各位，現在不用經過模型轉換可以直接在 TensorFlow 中推論時完成 OpenVINO 加速呢？是的你沒看錯！Intel 在 2021 下半年推出的 OpenVINO™ integration with TensorFlow（以下簡稱OVTF）能夠實現在 TensorFlow 中介接 OpenVINO 執行推論加速。本篇將帶大家實際操作看看在不用改 code 就能夠把 TensorFlow 推論進行加速的方法！ OpenVINO x TensorFlow 幸福來得太突然對於 TensorFlow 開發者來說，只要在程式碼裡增加兩行就可以增加推論速度！什麼程式碼這麼神奇！？眼見為憑，這兩行指令如下： import openvino_tensorflow openvino_tensorflow.set_backend('') 上面第一行嚴格來說不算指令，只是匯入了 OpenVINO 整合 TensorFlow 套件。而第二行呼叫了 openvino_tensorflow 設定後端運算硬體的指令，其中帶入的參數可以設定為 CPU（Intel 處理器）、GPU（Intel 處理器中的整合式顯示卡）、MYRIAD（AI 加速晶片 VPU）等。如此一來就已完成 TensorFlow 推論加速了。而其特別之處從架構圖看來可以得知在原始 TenorFlow 與 OpenVINO toolkit 之間多增加了 Operator Capability Manager (OCM)、Graph Partitioner、TensorFlow Importer 與 Backend Manager，讓前述二者可以渾然天成的結合在一起。簡單來說在執行推論時會對神經網路各個運算進行判讀，是否能夠透過 OpenVINO 進行加速，並讓其對應到 OpenVINO 的相應的運算子，最後分配到指定的後端硬體進行運算，反之若是不行加速的運算則讓其返回在 TensorFlow 中處理。各別功能作用細節可從 github repo 與說明文件進行深入探究。若不了解這些技術細節也不要緊，參考模型支援文件可以得知各個 TensorFlow 模型（包含 TF-Slim Classification、Object Detecion、TF-Hub 等眾多來源）的支援程度，或是跟著我們接下來的步驟進行體驗一番！ OpenVINO™ integration with TensorFlow 架構圖安裝 OpenVINO™ integration with TensorFlow 此篇文章撰稿時 OVTF 的最新版本為 V1.10，釋出時間是為 2021年12月8日，OpeVINO 核心版本是 2021.4.2 長期支援版本，搭配的 TensorFlow 版本為 2.7.0。在 TensorFlow2 版本猶如飆車般的成長今年，還確實有跟上主要版本，算是相當有誠意。筆者的開發環境是 Ubnutu 20.04（搭配硬體為 Intel Core i7-1185GRE），在終端機中執行以下指令，過程約花費兩分鐘內即可完成。 pip3 install -U pip pip3 install tensorflow==2.7.0 pip3 install -U openvino-tensorflow 若讀者的開發環境是在 Windows 或 MAC OS，也可以參照互動式安裝指令表來取得執行安裝所需執行的指令。完成安裝後可透過以下指令確認安裝正確： python3 -c "import tensorflow as tf; print('TensorFlow version: ',tf.__version__);\ import openvino_tensorflow; print(openvino_tensorflow.__version__)" 會看到輸出結果如下則表示已安裝完成： TensorFlow version: 2.7.0 OpenVINO integration with TensorFlow version: b'1.1.0' OpenVINO version used for this build: b'2021.4.2' TensorFlow version used for this build: v2.7.0 CXX11_ABI flag used for this build: 0 可以看到 TensorFlow 版本 2.7.0，OpenVINO 版本 2021.4.2 等資訊，往後有版本更新也可以此作為追蹤。若是輸出訊息中有出現： Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory 等錯誤訊息也毋須理會，這只是在檢測系統有無 GPU 硬體的過程，當偵測不到 GPU 則會出現此訊息。 OVTF 範例試玩在 OVTF github 專案中有附上立即可用的範例程式碼方便我們直接體驗與測試，在終端機下執行下面指令取得專案並且完成設置： git clone https://github.com/openvinotoolkit/openvino_tensorflow.git cd openvino_tensorflow git submodule init git submodule update --recursive cd examples pip3 install -r requirements.txt 完成之後指令後即可在 openvino_tensorflow/examples 目錄下執行影像分類 Classification 或是物件偵測 Object Detection 範例。首先我們先執行影像分類範例： $ python3 classification_sample.py --no_show --backend CPU ...(中間省略)... OVTF Summary -> 149 out of 910 nodes in the graph (16%) are now running with OpenVINO™ backend Inference time in ms: 18.61 military uniform 0.6277221 bow tie 0.34492084 bearskin 0.006691128 theater curtain 0.0056200475 flagpole 0.0028387788 上方命令執行範例程式 classification_sample.py 將會抓取 Grace Hopper 照片，並使用 Inception V3(ImageNet) 模型進行推論，該模型也是取自於TF-Hub，使用推論引擎透過 --backend 參數指定為 CPU，–no_show 代表不顯示推論結果。可以看到輸出訊息中此模型有 16% 的節點可透過 OpenVINO 進行加速，推論時間花費 18.61ms，推論結果 62.7% 為軍服。我們也可以在參數中加上 --disable_ovtf 來停用 OpenVINO 加速，也可以修改 --backend 參數為 GPU 或 GPU_FP16 來換成 Intel GPU 加速推論，藉此來比較加速前後差異（完整參數資訊可以透過 --help 查詢）。筆者使用固定 Inception V3 模型與相同輸入照片，切換不同後端推論硬體，其差異如下表。在沒有啟用 OVTF 需要費時 26ms 進行推論，若採用 GPU 並以 FP16 精度進行推論則可以節省一半以上時間縮短至 12.54ms，若單純以 CPU 加速也能有縮短 30% 以上的時間！此外筆者將模型置換為 Inception、Mobilenet、Resnet V2 152 等四種不同模型，並比較停用 OVTF與 CPU 加速之間的差異，確實發現在 OVTF 啟用後能提升 30%~40% 不等的堆論速度，其中 Mobilenet V3 Large 有 29% 的節點可以透過 OVTF 加速，因此效果最為顯著。 Object Detection with OVTF 接著我們也試玩一下物件偵測範例，在此範例中使用的模型為 Yolo V4，可以偵測 MS COCO 資料集中 80 種物件。在執行之前我們需要把 Yolo V4 由 Darknet 轉換成 TensorFlow 的格式。 $ cd ~/openvino_tensorflow/examples $ chmod +x convert_yolov4.sh $ ./convert_yolov4.sh 筆者接上一個標準 UVC 介面的 WEBCAM，加上 input=0 參數讓範例程式抓取 Webcam 即時影像，並選擇停用 OVTF 與 GPU 後端來比較兩者差異。 #disable OVTF python3 object_detection_sample.py --input=0 --disable_ovtf #backend=GPU python3 object_detection_sample.py --input=0 --backend GPU 實際運行可以看到在沒啟用 OVTF 時每個 frame 花費超過 400ms，而在啟用後可以縮短到 94ms，差異超過四倍！ Webcam Object Detection /w TF Inference @FPS:2 Webcam Object Detection /w OVTF GPU Inference @FPS:10 Running Example on Colab 若是手邊沒有合適的開發環境可以來測試也沒關係，OVTF 專案中也提供了兩個 notebook 檔案可以直接在 Colab 上運行測試，分別為影像分類與物件偵測範例。我們直接執行物件偵測範例中所有程式碼區段來檢視成果，可以看到在於有啟用 OVTF（後端硬體為 CPU）的推論時間為 946ms，相較於無啟用 OVTF 花費了 1258ms 減少了 25% 的推論時間！ Colab 物件偵測範例啟用 OVTF 與關閉 OVTF 之間差異小結這次 Intel 所推出的 OpenVINO™ integration with TensorFlow 專案雖然說不上是個殺手級工具，但也紮紮實實搔到了 AI 開發者的癢處！過往訓練完成 AI 模型後要進行推論驗證，仍需要花費不少心力去轉換與測試，而 OVTF 則大幅削去了開發階段與佈署階段所隔著的鴻溝，直接在開發者熟悉的環境中就能估算實際佈署的效能概況。筆者也是相當期待後續 OVTF 是否還能衍生出什麼方便好用的功能，又或者是針對其他深度學習框架也能有類似的整合，就讓我們繼續看下去！詳細內容不須轉換！OpenVINO整合TensorFlow框架實現推論加速！ - 引領創新的科技實作社群媒體Intel在2021下半年推出的OpenVINO™ integration with TensorFlow能夠...makerpro.cc
標竿深度學習模型效能與初探 OpenVINO 效能增強工具
- 優化 OpenVINO 模型效能：參數設定影響實測
  
  簡介兩年前剛接觸 OpenVINO 的時候，開始感覺機器學習發展的生態似乎有許多的轉變，隨著執行許多範例的過程中，漸漸了解 Open Model Zoo 的 Github 支援了許多可以下載的模型，有種感覺是不是模型載入與使用，會變成隨插即用的狀態。以前要自己看許多論文，花時間蒐集各種模型的執行方法，今年實驗的模型，過一陣子想再執行時常會忘記如何使用，就算記得但碰到模型本身運作環境升級，或者平台不再支援某個方法，辛苦弄完的模型跟寫好的程式又要重新再來一次，這樣的感覺在接觸 OpenVINO 之前，會覺的似乎是做機器學習的無奈與必然。接觸 OpenVINO 後，讓人感覺是一個有趣的環境，過去在教學現場很難與學生介紹機器學習要怎麼學跟用，雖然有雲端的架構可以直接運作準備好的教學環境，實際現場要使用時，還是會碰到不知道如何安裝跟配置的問題。雖然一般的安裝文件嘗試盡可能寫清楚了，但其實許多作業系統環境差異，或開發套件相容性的狀態，常會造成這個月可以執行的模型跟架構，過幾個月又開始不太支援，還好這兩年容器環境相對更成熟，系統安裝的生態也開始發生轉變，透過容器化技術許多套件安裝的流程跟問題，也隨著容器化技術得到緩解。本文嘗試從兩個觀點出發，第一個是如何能夠較為方便快速使用 OpenVINO，主要的目的是介紹容器化的方式使用 OpenVINO，相對過去需要閱讀大量安裝文件，目前已經有較為成熟穩定的容器化環境可以直接安裝與啟動 OpenVINO。第二個是了解如何利用 OpenVINO 跟 Open Model Zoo 所提供訓練好的模型，在運作 OpenVINO 的過程，透過不同參數設定值，觀察系統預測效率的改變，對於機器學習運作環境，除了程式設計技巧與架構整合外，累積模型運作與不同參數設定狀態下需要具備的觀念。相對於作業系統調校的觀念，在 OpenVINO 運作時可以觀察系統在模型運作時預測效能的變化，這個部份可做為後續使用模型時經驗的提昇，在機器運作時累積更好的模型使用經驗，觀察同一台機器運作 OpenVINO 時，可以思考與注意的部份。透過容器化技術快速部署 OpenVINO 運作環境透過容器啟動 OpenVINO，可以快速方便的達成 OpenVINO上線狀態，相對省下非常多套件安裝過程的時間，過去常認為要執行機器學習推論的環境會很複雜，或者需要許多步驟的執行過程。透過 Docker 容器的架構來執行 OpenVINO，可以將過去系統在作業系統不同版本間運作環境產生問題的數量降低，大量減少系統除錯、相容性測試與環境安裝配置的問題與步驟。本文使用的運作環境是 Ubutnu 20.04.2 LTS，OpenVINO 的 docker 容器是 openvino/ubuntu20_data_dev:2021.4_tgl，使用 docker 在 Linux 運作 OpenVINO 最大的好處是幾乎沒有相容性的問題，下載之後就可以直接執行，對於要直接使用或學習 OpenVINO，相對過去容易非常非常多，透過下面的指令就可以執行 OpenVINO 的容器環境。如果機器上面沒有 docker 的環境，要先安裝 docker 容器環境，在 Linux 上面執行以下指令，前面的指令會先把原來的 docker 環境移除，如果你已經安裝過 docker 環境，可以跳過這個步驟，直接執行下載 OpenVINO docker 的 pull 指令： sudo apt update sudo apt-get remove docker docker-engine docker.io containerd runc sudo apt install curl curl -fsSL https://get.docker.com -o get-docker.sh sudo sh get-docker.sh sudo usermod -aG docker $USER ## Need to logout or reboot to run docker as non-root user docker run hello-world 上面安裝好 docker 的容器環境以後，可以用底下的指令直接下載 OpenVINO 的 docker 環境。 docker pull openvino/ubuntu20_data_dev:2021.4_tgl 要執行 docker 環境的時候，如果是使用 ubuntu 桌面版內建的 vnc 環境，可以使用底下的指令來啟動 OpenVINO docker 環境，這樣之後在 docker 環境內如果需要使用到視窗環境，會比較方便做後續的測試。要進入 docker 環境下命令測試 OpenVINO 時，可以使用底下的指令，就可以順利的在 ubuntu 桌面環境下同時使用多個 OpenVINO docker 環境終端做測試。 docker exec -it openvino-ubuntu20_tgl /bin/bash 參數設定在模型運作時效能的變化 OpenVINO 效能量測工具名稱為 benchmark_app，可以在機器上量測模型的執行效能，OpenVINO 2021.4 的 benchmark_app 提供許多參數設定，另一個思考方向是自己寫程式載入模型時，實際的效能是如何，或者日後如何能在自己寫的程式達到測試環境相同的效能，如常用的 ssd 模型在執行 object model zoo 的範例時，運作過程中可以設定許多參數，例如 nireq、nthreads、nstreams 等，device 參數可以設定運作的硬體環境 CPU、GPU、同時使用 CPU 與 GPU 的 MULTI: CPU,GPU 等，令人好奇這些參數之間實際運作的情況，在運作過程中要如何設定，或者朝哪個方向去思考調整會有相對較好的執行結果。圖1 – OpenVINO 效能評估程式 benchmark_app 提供的部份參數 benchmark_app 提供許多參數進行效能量測，相對當執行範例程式時，nireq、nthreads 這樣的參數做調整，會觀察到什麼結果，以下說明一些紀錄與觀察過程，同時可以更了解 OpenVINO 在 docker 環境下執行的方式。在 docker 環境中包含 OpenVINO 2021.4.582 的執行版本，並且提供許多模型運作範例，在 Open Model Zoo 中內含 Object_sample_ssd 的範例，內含 models.lst 檔案。表 1 為 models.lst 檔案裡面支援部份的 ssd 模型列表，跟過去版本最大差異是多了 -at 參數設定，在 models.lst 中說明各種模型對應 -at 參數的設定值。使用模型的時候可以使用 download.py 下載模型，如果下載的不是 OpenVINO 的 IR 格式(附檔名為 .xml 與 .bin)，需要透過 convert.py 轉換成 OpenVINO 的 IR 格式。 OpenVINO 系統目錄內定會安裝在 /opt/intel/openvino，內含子目錄 deployment_tools/open_model_zoo/demos/object_detection_demo/python，此目錄主要為物件偵測的 python 範例程式，可以執行許多機器學習開發架構已經訓練好的模型，包含 centernet、ctpn、faceboxes、ssd、yolo、yolov4 等機器學習框架所訓練好的物件偵測模型。表1 – OpenVINO object_detection_demo 可以執行的機器學習模型參數與預測效能之間的觀察兩年前剛學習使用 OpenVINO 的時候，有很多時候覺得模型會動就好了，但是有些時候希望效能能夠變快一點，嘗試把某些參數調大，但是又感覺好像不是這樣，本文透過 object_detecion_demo 運作觀察，參數設定過程如何影響模型在同一台機器上推論效率的變化，接下來的內容為觀察到的現象，可以作為日後模型推論在配置時參數設定的一些參考。這兩年間比較有趣的變化是同一個模型有 FP32、FP16、FP16-INT8 的版本可以選擇，因此同一個模型在記憶體空間的使用量、運作效能以及預測的精確度，有許多部份可進一步觀察運作過程中的變化。本文針對 object_detection_demo.py 指令的參數，在執行 person-detection-retail-0013 模型中進行效能量測，分別就 FP32、FP16、FP16-INT8 等模型格式，在 CPU、GPU、CPU+GPU 的硬體條件下，分別進行不同的 nireq 以及 nthreads 參數設定，觀察 FPS(Frame per second) 變化情形進行描述與討論。要注意的是本文所使用的是 M.2 Key M SSD 硬碟作為結果輸出裝置，用一般的USB隨身碟作為預測檔案結果輸出時，會影響檔案輸出的效能，進而影響效能觀察的結果。在本文效能量測的結果呈現前，要注意的是 FP16-INT8 模型的運作方式， OpenVINO 中 POT 套件轉換 FP16 模型為 INT8 模型的方式，是經由在 FP16 模型各層間插入 INT8 格式的 FakeQuantize，對於設定不同的 POT 模型最佳化參數， FakeQuantize 將會自動調整的 INT8 的模型數值，或刪除一些不需要的模型計算步驟，在可以滿足精度要求的狀態下，達成模型運作時真正的轉換為 INT8 低精度模型，雖然層數相對可能會增加，但是因為 INT8 所需空間較小且執行效能相對快很多，因而能夠獲得真正的模型空間縮小與效能提昇。因此在 FP16-INT8 模型的運作過程中，透過了 FP16 與 INT8 整數運算於不同層之間的切換的運算過程，如果許多的 FP16 層級被轉換為 INT8，有機會得到儲存空間的較小模型及較快速運算速度的推論效能。同時 INT8 的運算過程於 i7 第 11 代 CPU 中因為支援了 AVX512 的指令集，以及 i7 第 11 代所使用的內顯 GPU 支援 INT8 運算處理，因此在本文量測的結果中 FP16-INT8 的效能將大幅度相對提昇 s。 object_detection_demo.py 程式執行的參數如下：指令執行的參數常用的範例如下：其中 ${1}、${2} 分別代表 nireq 與 nthreads 的參數設定值，${3} 表示 32、16、16-INT8 等設定值，${4} 代表使用的是 CPU、GPU、MULTI:CPU,GPU 等設定值，透過這些設定值的更改，最後將執行過程輸出至各個條件的文字檔案，範例程式執行結束時，於各文字檔案的尾端會得到此次執行的 FPS 數值結果，最後以這個 FPS 數值作為相關的量測效能結果進行討論，詳細的參數設定值說明如表2。表2 – object_detection_demo.py 相關的參數設定說明本文量測數值使用之硬體環境圖2 為本文以東擎 NUC BOX-1165G7 工業用電腦，硬體環境為 Intel i7 第 11 代 CPU，軟體環境使用 Ubuntu 20.04.2 LTS 為作業系統，執行 OpenVINO 2021.4.582 作為系統量測的運作環境，CPU 型號為 11th Gen Intel(R) Core(TM) i7-1185G7E @ 2.80GHz、cache 12288 KB，共有 8 個 Hyper-threading，記憶體為 16GByte、硬碟型號為 KINGSTON OM8PDP3256B-A01(NVM 容量256GByte)。特別要說明的是 Intel 第 11 代 Core CPU 內建的 GPU，是第一個可以執行 INT8 的內建 GPU，利用這個特性在執行 OpenVINO 時可以獲得更好的效能提昇。圖2 – 本文量測使用之東擎工業用電腦，內含 Intel 第 11 代 CPU 與 Wifi-6 無線網路晶片 CPU 執行 person-detection-retail-0013 模型效能變化情形圖3 為 CPU 使用 person-detection-retail-0013 FP32 模型的執行結果，可以觀察當 nireq(nr) 為 1、nthreads(nt) 為 1 時，每秒鐘可以辨識的畫面張數為 35.1 FPS(每秒鐘能預測 35.1 張影像)，進一步調整 nireq、nthreads 參數的數值進行預測，會發現 nireq(nr) 與 nthreads(nt) 設定不同數值時，會影響每秒所能預測的 FPS 效能。圖3 – CPU 執行 person-detection-retail-0013 FP32 模型結果圖3 中可以觀察到一個現象，當 nthreads 設定的值為 3 時，會得到相對最高的 FPS 結果，圖4 為將圖3 放大之後，由 nthreads(nt) 數值為 2 到 8 的設定值，分別在不同的 nireq(nr) 條件下，nireq(nr) 數值為 3 到 8 的執行結果。圖4 – CPU 執行 person-detection-retail-0013.xml FP32 模型， nthreads(nt) 數值為 2 到 8、nireq(nr) 為 3 到 8 的 FPS 變化情形由圖4 中可以觀察到當 nthreads 設定值為 3、nireq 等於 8，CPU 執行 FP32 模型 FPS 此時為 85.1 FPS，之後無論 nthreads 與 nireq 調整為其他數值，執行結果都無法超過此 FPS，一般概念上會認為同時輸入的影像稍微多一點比較好，因為同時處理多一點影像，在機器有能力回應的狀態下，執行結果的效能相對應該會高一些，從這個觀點得到的 FPS 為 nthreads 為 3 與 nireq 為 8 時，表示一次輸入 8 張影像時，同時使用 3 個 CPU 的處理程序來處理 person-detection-retail-0013 模型的運作過程，會有較好的執行效能。圖4 同時顯示如果我們認為將 nireq 與 nthreads 的值設的越大越好可以得到更好的效能，結果顯示並不會有這樣的狀態產生，甚至當 nthreads(nt)為 19 時，不管 nireq(nr) 設定多大的值，會發現此時約為 25.1FPS，這樣的執行效能相對 nthreads(nt) 為 3 時的 85.1 FPS，相當於只能得到最高效能的 1/3 執行效率，可以觀察到很明顯的，單純將 nthreads 與 nireq 值調大，只會效能更差而不會變好。圖5 – CPU 執行 person-detection-retail-0013 FP16 模型效能的變化情形圖5 為 CPU 執行 person-detection-retail-0013 FP16 模型的結果，相對 CPU 執行 FP32 模型效能的情形，觀察圖3 與圖5 可以發現最高的 FPS 都約為 86 FPS，圖3 與圖5 的效能變化非常相似，這個狀態顯示 CPU 在 FP32 與 FP16 的執行具有相同的效能變化趨勢，nthreads 為 9 時同樣會有一個很大的效能下降，原因與執行環境所採用的硬體有關，本文章所使用硬體為 i7 第 11 代核心，包含4核心共 8 個 Hyper-threading，發現 nthreads 分別在 9 與 17 的設定值時，會產生一個相對陡降的 FPS 結果。圖6 – CPU 執行 person-detection-retail-0013 FP16 模型效能的變化情形， nthreads(nt) 數值為 2 到 8、nireq(nr) 為 3 到 8 的 FPS 變化情形由圖6 中會發現最高效能的值雖然在 nthreads 為 3 的時候，但是相對的此時的 nireq 為 5，與圖4 的 nireq 為 8 的情況並不同，此種最佳效能點的差異在各個模型選用時，可以再針對不同的 nireq 的數值做最後的量測進行尋找最佳參數點。觀察 CPU 執行 FP32 與 FP16 的模型效能變化狀態後，圖7 中為 CPU 模式執行 person-detection-retail-0013 FP16-INT8 模型的結果，當 nthreads(nt) 設定的值為 4、nireq(nr) 等於 20，量測範圍中最高的效能為 116.5 FPS，很明顯的相較於 FP32 條件下最高為 86 FPS 高出許多。從圖7 中也可以觀察到 nireq 等於 1，每次輸入 1 個影像，可以發現 nthreads 為 4 時，最高的效能為 68.3 FPS，無論 nthreads 設定多大，預測的 FPS 效能也無法提昇，從這個結果可以觀察到，就算是硬體有很大的效能，nireq 控制同時輸入資料的數量，nireq 太小相對也會影響整體工作效能。圖7 – CPU 執行 person-detection-retail-0013 FP16-INT8 模型效能的變化情形圖8 – CPU 執行 person-detection-retail-0013 FP16-INT8 模型效能的變化情形， nthreads(nt) 數值為 2 到 8、nireq(nr) 為 2 到 20 的 FPS 變化情形圖8為圖7詳細的變化情形，可以觀察到當nthreads(nt)的數值是4的時候，nireq設定值大於等於3之後，相對每秒可以執行推論的影像效能，相對高於其他的nthreads數值的推論效能，可以很明顯的感覺在CPU執行FP16-INT8的條件下，CPU的核心數量、nthreads設定數值，與推論效能最高點較為一致，進一步要注意的是，雖然印象上FP16-INT8執行效率相對會好很多，可是同樣的在nthreads為9的時候，一樣會有很大的效能陡降現象出現，在模型實際上線運作時候，需要先注意到這樣的現象對應於所使用的硬體運作條件(如核心數量、最大的 Hyper-threading 數量)。 GPU 執行 person-detection-retail-0013 模型效能變化情形圖9 – GPU 執行 person-detection-retail-0013 FP32 模型效能的變化情形圖9 為 GPU 執行 person-detection-retail-0013 FP32 模型效能的變化情形，相對 CPU 的運作狀態，以 nthreads 的形式為橫軸座標軸時，會觀察到 nireq 為 1 的時候，系統的運作效能相對是最低的，nireq 大於 1 以上很明顯 FPS 效率好很多，有趣的情況是將圖9 轉換座標軸，以 nireq 作為橫軸的狀態下，可以得到圖10 的結果，此時會發現有趣的現象，當 nireq 大於 3 之後，在 nireq 持續增加相當於不斷的將同時輸入的影像數量提高時，在同樣的 nthreads 的情況下，GPU 執行 FP32 模型的狀態，效能其實會持續降低。圖10 – GPU 執行 person-detection-retail-0013 FP32 模型效能的變化情形由圖10 的結果可以得到一個概念，在單純使用 GPU 狀態下執行 FP32 模型的時候，同時輸入影像的數量增大並沒有幫助，GPU 執行 FP32 的效能最高為 102.7FPS，相對 CPU 執行 FP32 的效能為 86 FPS的狀態下，單純使用 GPU 執行 FP32 模型對於單獨 CPU 執行 FP32 模型約為 1.18 倍的效能，相對另一個有趣的狀態是，nthreads 設定的數值超過 8 之後，似乎在單純 GPU 執行 FP32 模型的狀態下似乎對於推論效能不會有太大的影響，似乎此時設定 nthreads 的值，沒有真正的對應多個 CPU 核心運作的效能。圖11- GPU 執行 person-detection-retail-0013 FP16 模型效能的變化情形圖11 為 GPU 執行 person-detection-retail-0013 FP16 模型效能的變化情形，由圖11 的結果可以得到一個概念，在單純使用 GPU 狀態執行 FP16 模型的時候，nireq 在小於 3 的狀態下，GPU 相對的執行效能並沒有達到滿載的狀態，相對 GPU 執行 FP32 模型效能最高為 102.7FPS，很明顯 GPU 在執行FP16 模型 nireq 等於 2 時就已經接近 130 FPS。圖12- GPU 執行 person-detection-retail-0013 FP16 模型，顯示 nireq(nr) 為 3 到 20，nthreads(nt) 為 1 到 20 的效能變化情形由圖12 的結果可以觀察到，當 GPU 執行 nireq person-detection-retail-0013 FP16 模型，最高的效能在 nireq 為 5、nthreads(nt) 為 17 此時為 148.2FPS，相對在 FP32 的 GPU 與 CPU 運作條件下已有大幅度性能提昇，可以觀察到 nireq 大於等於 5 之後效能會微幅的下降，nthreads 的設定值大小對於效能的影響並不算太明顯，總結來說 nireq 大於 3、nthreads 設定值不論是多少，效能都會大於 140FPS。圖13 – GPU 執行 person-detection-retail-0013 FP16-INT8 模型效能變化圖13 為 GPU 執行 person-detection-retail-0013 FP16-INT8 模型效能變化，與 GPU 執行 person-detection-retail-0013 FP16 模型比較時，會發現 GPU FP16-INT8之nireq 為 1 與 2 時，執行的 FPS 與 GPU FP16 時 nireq 為 1 與 2 的結果相當，而 nireq 為 3 時，執行效能與 GPU 執行 FP16 模型的最高 FPS 相當，進一步的當 nireq 持續增加大於5時，nthreads 無論是哪種數值，均可達到 150FPS 以上，此結果顯示 GPU 執行 FP16-INT8 的效能相對在 CPU 與其他的 GPU 模式下，有著非常高的 FPS 執行效率。圖14 – GPU 執行 person-detection-retail-0013 FP16-INT8 模型效能變化由圖14 的結果可以觀察到 GPU 執行 person-detection-retail-0013 FP16-INT8 模型效能，與 GPU執行 nireq person-detection-retail-0013 FP16 模型比較時會發現，最高效能為 nireq 為 7、nthreads(nt) 為 11，此時效能為 159.2FPS，明顯高於 GPU 執行 FP16 模型的 148.2FPS 的效能。 CPU+GPU 執行 person-detection-retail-0013 模型效能變化情形圖15 的結果可以觀察到 CPU+GPU 執行 person-detection-retail-0013 FP32 模型效能的變化，要注意的是 OpenVINO 在同時使用 CPU 與 GPU 運作時，nthreads 最大的數值在使用本硬體時只能設定到 7，超過 8 之後會顯示只能最大設定到 7 的訊息，nthreads 超過 8 之後就會顯示會將 nthreads 自動設定為 7 進行預測，因此 CPU+GPU 同時運作的環境，nthreads 的量測結果只有 1 到 8 的範圍，而 nireq 維持 1 到 20 的設定值。另外，在運作的參數 -d 中，採用的設定值是 MULTI:GPU,CPU，這樣的條件下會將輸入資料優先派送 GPU，之後再給 CPU 進行處理。圖15 – CPU+GPU 執行 person-detection-retail-0013 FP32 模型效能變化圖15 的結果可以觀察到 CPU+GPU 執行 person-detection-retail-0013 FP32 模型效能的變化，與單純使用 GPU 執行 nireq person-detection-retail-0013 FP32 模型比較時，將圖15 放大為圖16，會發現最高的效能為 nireq 為 14、nthreads(nt) 為 3，此時效能為 106.4FPS，綜合圖15 與圖16 並且比較單純 CPU 執行 FP32 的模型時，當 nireq 大於 3 時，nthreads 持續增加效能同樣無法繼續提昇。圖16 – CPU+GPU 執行 person-detection-retail-0013 FP32 模型， nireq 由 5 到 20，nthreads 由 1 到 8 的效能變化圖16 的結果會發現 CPU+GPU 執行 FP32 模型最高的 106.4 FPS，與 CPU 執行 FP32 的最高 85.1FPS 相比多了約 20FPS，另一方面如果與單純 GPU 執行 FP32 模型最高 95.3FPS 相比，大約多 10FPS。因此可以得到 CPU+GPU 的執行 person-detection-retail-0013 FP32 的模型的狀態下，為 FP32 模型下最高的執行效能(106.4FPS)。因此如果要求預測精度為 FP32，能夠預期最好的 FPS 會在 106 附近。(nthreads 設定為 3、nireq 設定為 14、運作裝置為 MULTI:GPU,CPU)。圖17 – CPU+GPU 執行 person-detection-retail-0013 FP16 模型效能變化相對圖 CPU+GPU 執行 FP32 的結果，圖17 與 18 為 CPU+GPU 執行 person-detection-retail-0013 F16 模型效能的變化。圖18 中顯示 nthreads 為 1 的狀態下，nireq 為 11 與 19 時分別為 149 與 149.5FPS，這兩個數值都非常高，但是由圖18 會發現與單純 GPU 執行 FP16 的模型(圖12) 有著幾乎相同的最高執行 FPS，同時 nthreads 持續變大時FPS呈現持續下降，這種結果呈現 CPU+GPU 執行 FP16 模型的情況下，GPU 與 CPU+GPU 執行的最高效能似乎非常接近。圖18 – CPU+GPU 執行 person-detection-retail-0013 FP16 模型， nireq 由 4 到 20，nthreads 由 1 到 8 的效能變化進一步的回頭觀察 CPU 執行 FP16 模型最高為 86.3 FPS，由此也可以發現單純執行 GPU 或 GPU+CPU 執行 FP16 的效能，約提高 1.73 倍的效率，每秒鐘多 63 FPS。我們可以從上述的觀察中發現，GPU 的運作環境下，其實 nthreads 為 1 的效能就是最好的狀態，至於 nireq 要設定多少，如果在不能夠有太多延遲畫面時間輸入的狀態下，建議一次輸入 6 張資料以上會有不錯的整體預測輸出效能，推論速度可以到 140 FPS 以上。最後來看圖19 中，顯示 GPU+CPU 執行 FP16-INT8 的模型狀態，會發現在 nireq 小於 5 的情形下，最高的預測效能都無法大於 160FPS，可以明顯的看到，當 nthreads 為 1、nireq 大於 5 的條件下，觀察 FPS 效能會發現 nireq 為 14、nthreads 為 1 的狀態下，可跑出 176.9FPS 的最高效能，此效能值相對也是 CPU、GPU、CPU+GPU 執行 FP16-INT8 狀態下最高的結果。圖19 – CPU+GPU 執行 person-detection-retail-0013 FP16-INT8 模型效能變化進一步討論 CPU+GPU 執行 FP16-INT8 的結果，會發現其實隨著 nthreads 的增大，在 nthreads 由 2 到 8 之間，其實對 nireq 為 1 到 5 以下似乎沒有變快的效果，另外在 nireq 為 6 到 20 的情況下，在 nthreads 大於 1 之後，明顯的預測的效能不升反將，推想這種情形發生的原因在於 nireq 其實也是需要 CPU 的執行資源，當把 nthreads 增大的時候，CPU 的資源被瓜分至進行預測處理的後續工作的部份，然而實際上從數據執行結果的現象觀察，似乎只要 nthreads 設定為 1，讓其他的 CPU 專心的進行資料讀取的動作把資料餵給 GPU，然後 CPU 只需要用 1 個核心，專心的把 GPU 預測完的結果進行後續的處理，這樣的協同狀態下的工作組合，就可以達到很高的效率了。結論將目前觀察到的結果做一個總結，你的機器上面如果只有 CPU，當然的狀態只能執行 CPU 運作 FP32、FP16、FP16-INT8 模型，FP16 與 FP32 的模型在 CPU 模式下有同樣的效能，主要是系統會先將 FP16 轉換成 FP32 之後執行，要注意的是 nthreads 的值不能設定超過核心的 Hyper-threading 的最大總數量，否則會有效能陡降的情形。本文目前測試的模型顯示 nthreads 的數量設定在 CPU 的核心數量減 1，這個時候的 CPU 預測效能會是最好的狀態，當然部份的時候也可以試試看 nthreads 的數值設定與 CPU 的核心數量一樣，因為 nthreads 的數值超過 CPU 核心數目之後，FPS 就只會變慢而不會變快了。如果你的機器上面有 Intel GPU 的顯示晶片，目前許多桌上型機器內建Intel GPU顯示晶片，過去只能用來作為顯示卡使用，其實這時可以將這樣的機器作為機器學習預測使用，在本文中所測試的狀態，單純使用 GPU 實際上有著非常好的運作效能，如果需要維持預測精準度又不希望佔用 CPU 的運算效能，可以單純使用 GPU 執行 FP32 模型，相對已經可以快過單純使用 CPU 執行 FP32 預測的效能。最後如果你可以提供機器全部的效能進行機器學習的預測，在這樣的狀態 CPU+GPU 同時協作，如果你使用的機器學習模型在 FP16-INT8 的狀態下可以維持預測的精確度，則使用CPU+GPU的狀態下，運作 FP16-INT8 將大幅度提昇預測的FPS效率，相對 CPU FP32 格式的模型，CPU+GPU 執行 FP16-INT8 相當於在同一台機器上獲得 2 倍的預測效能。後記初學者透過 MakerPRO 系列文章可以學習 OpenVINO 操作，本文描述了參數調整的概念如何的影響OpenVINO模型上線時注意的事項，希望能夠讓系統上線運作模型時，有一定比較清楚要注意的觀念。本文並沒有提及如何將模型換成FP16-INT8，以及使用 benchmark_app 比較 FP32、FP16、FP16-INT8 的結果，benchmark_app 內定可以使用隨機值作為輸入，並單純的測試硬體計算效能對應模型推論的 FPS 結果。最後，對於多攝影機、多模型同時運作在 OpenVINO 的狀態，之後有機會再分享了。詳細內容優化OpenVINO模型效能：參數設定影響實測 - 引領創新的科技實作社群媒體本文透過object_detecion_demo運作觀察，參數設定過程如何影響模型在同一台機器上推論效率的變化...makerpro.cc
壓縮深度學型模型以提升效能
- 小孩才作選擇，AI 推論速度及準確度我全都要 ─ OpenVINO Post-Training Optimization Tool 簡介
  
  簡介身為一個人工智慧(AI)從業人員，好不容易費盡千辛萬苦訓練好一個模型並且得到不錯的推論準確度後，總會遇到客戶抱怨「這個模型太大塞不進我的硬體，這個推論的速度不能再快一些嗎？」。當換了一個較小、速度快一點的模型，又被抱怨「這個推論的準確度不能再高一點嗎？」。此時腦中總會想起星爺的電影「九品芝蔴官」豹子頭的那句經典台詞「我全都要」，難道就沒有折衷一點的辦法，讓我在 AI 推論速度、準確度和模型大小都能滿足嗎？ Intel OpenVINO 算是聽到大家的心聲了吧，日前推出了「Post-Training Optimization Tool (以下簡稱 POT)」來幫助大家，在不用重新訓練模型的情況下，只需執行幾個簡單的命令，模型瞬間縮小，且在僅僅損失一點點推論準確度情況下就能得到 1.1 到 3.3 倍左右推論速度的提升！ POT 究竟用了何種方式才能達成這個結果，接下來就從「何謂量化(Quantization)」、「量化算法(Quantization Algorithms)」、「使用 DL Workbench 快速優化」、「安裝 POT 相依套件」等面向來作一些簡單說明，最後再用一個「影像分類 MobileNet 模型優化」實際案例說明其執行方式及優化結果，希望能讓大家有更愉快的 AI 落地開發體驗。何謂量化 (Quantization) 相信大家平常都有在拍數位照片，一張 1920×1080（俗稱 200 萬畫素）解析度全彩的照片原始檔案大小就要 6,220.8KB，如果不經過壓縮，大概拍沒幾張記憶卡就爆了，所以就有破壞性壓縮的影像格式產生，如 JPG 格式。同樣一張照片經過破壞性壓縮後，檔案就只剩不到 200KB（不同影像壓縮比例不同），檔案大小縮小了 30 倍以上，但人眼卻很難察覺其中的差異，而其中最大的功臣就是「量化(Quantization)」及「編碼(Encoding)」技術。於是就有人想到是否可以套用這樣的概念到 AI 模型壓縮上。那什麼是量化呢？首先要先了解為什麼要量化。在真實世界中大部份的物理量（如色彩、亮度、音量等）都是連續數值（類比信號），我們很難完整直接記錄所有的內容，於是就有了把類比信號轉換成數位信號再記錄的方式產生。而影響數位信號是否能完美還原成類比信號的兩大參數就是「解析度」及「取樣頻率」。其中「解析度」又可分為純整數及整數加小數點表示。前者會以 2 的 n 次方來表示，而為了配合電腦運算，n 通常為 8, 16, 32, 64，又可寫作 INT8, INT16, INT32 及 INT64。而後者為了表示小數點，通常採用浮點數表示，常見有半精度(FP16)、單精度(FP32)及倍精度(FP64)浮點數。這裡明顯可看出不同的數值表示方式，在儲存空間及解析能力有明顯的差異。以 INT8 和 FP32 來舉例比較，INT8 只需 8 個 bit 來表示整數，最多只能表示 2 的 8 次方 256 位階(+127 到 -128 或者 0 到 255)。而 FP32 需要 32bit 來表示整數加小數點，其中 1 bit 表示正負值，8 bit 表示指數(-128 到 +127)，23 bit 表示數值，整體可表現的動態範圍大約是在 -1.410-45 到 +3.410+38。因此資料壓縮最快速的方式就是改變連續（類比）數值「量化」方式，而最直覺的想法就是把高解析度降到低解度，把浮點數降到整數，那儲存空間馬上大幅減少。以 FP32 轉成 INT8 來看，儲存空間從 32 bit 變成 8 bit，一下就少了 3/4(相當於 75%)。而計算從浮點數轉換成整數後，更可透過 INTEL CPU 的單指令多資料(Single Instruction Multiple Data, SIMD)平行計算指令集（如 SSE4.2, AVX2, AVX512 等）加速運算，讓計算速度提升數倍到數十倍。如 Fig. 1 所示。 Fig. 1 數值量化及單指令多資料(SIMD)平行運算指令集示意圖。(OmniXRI Apr. 2021整理製作) 量化算法(Quantization Algorithms) 一般來說，為求得深度學習模型有較好的訓練結果，通常會使用 FP32 做為參數初始的數值表示方式，包括權重值(Weights)及激活值(Activations)。待訓練完成後透過 POT 插入「偽量化(Fake Quantize)」步驟將 FP32 降至 INT8 數值格式，如此便不用重新訓練模型，就可得到較小儲存空間的模型及較快速運算速度。亦可調整相關參數使其成為「對稱量化(Symmetric Quantization)」或「非對稱量化(Asymmetric Quantization)」。以 FP32 轉換至 INT8 為例，首先找出 FP32 所有參數的最大值(max.)和最小值(min)，再將 FP32 的值重新依比例映射到 INT8 空間中，如 Fig. 2 所示。 Fig. 2 對稱式、非對稱式量化及偽量化示意圖。(OmniXRI Apr. 2021整理製作) 目前 POT 提供了兩種 INT8 的量化算法，「預設量化(DefaultQuantization)」及「準確度感知量化(AccuracyAwareQuantization)」。前者提供較快速推論結果，但推論準確度會下降一些。而後者可指定推論準確度容許下降的幅度，但需要較多時間進行調整，且推論速度略差於前者，如 Fig. 3 所示。以下就簡單描述二種作法的差異。 1. 預設量化(DefaultQuantization) 輸入正常訓練後的模型，將卷積層輸出之激活值範圍做一簡單對齊，減少量化時的誤差。再根據量化前最大及最小值在權重值及激活值自動插入偽量化層。最後基於卷積及全連結層量化誤差調整偏置量(Bias)，使得整體誤差保持不變。可參考：DefaultQuantization Algorithm 2. 準確度感知量化(AccuracyAwareQuantization) 首先使用預設量化算法對輸入模型進行 INT8 量化。接著測試驗證資料集量化前及量化後的準確度。若符合指定容許下降的準確度範圍，就結束量化調整動作，得到新的模型權重值及激活值。若推論準確度下降超過指定範圍，則取得逐層對準確度下降的貢獻並排序，即找出造成不準的主要源頭。接著將有問題的層還原為原數值精度（如 FP32），再重新驗證推論準確度，直到滿足限制下降的容許度。如果限制下降幅度要求很小，則最差狀況可能將所有 INT8 內容全部還原回 FP32，等於模型參數完全沒調整、沒重新量化。可參考：AccuracyAwareQuantization Algorithm Fig. 3 OpenVINO POT INT8 量化算法，(a) 預設量化，(b) 準確度感知量化。使用 DL Workbench 快速優化在文章「不用寫程式也能玩轉深度學習模型 ─ OpenVINO™ DL Workbench圖形化介面工具簡介」最後留了一個小彩蛋，這裡就幫大家補充說明，其實 Workbench 可在建立基準點時順便選擇優化(Optimize)方式，執行 POT 來得到轉換成 INT8 格式的 IR(*.bin & *.xml) 中間表示檔案，下載後就可使用，不用寫任何程式，接下來就簡單說明如何操作。參考「不用寫程式也能玩轉深度學習模型 ─ OpenVINO™ DL Workbench圖形化介面工具簡介」實際案例操作執行步驟，當進入 [5.建立建立基準點] 時，會自動建立第一個基準點，此時可切換到優化 [Optimize] 頁面，選擇 [INT8] 選項，就會進到數值校正方式(Calibration Method) 選擇，即上一節中提及的 POT 量化算法。這裡可選擇 [預設量化(Default Method)] 或 [準確度感知量化(AccuracyAware Method)]，若選後者則可再輸入期望容許下降的幅度(%)，建議不要太小，以免失去優化速度和模型大小的目的。最後按下 [Optimize] 鍵就會自動產生新的工作組態，不過這裡可能會視電腦的等級、模型的大小、複雜度及容許下降幅度，需要等待數分鐘到數十分鐘不等的轉換時間。完整操作流程如 Fig. 4 所示。當產生新的工作組態後，應該會自動計算第一次的測試結果，包括輸出速度(Best Throughout, FPS)、延時(Respective Latency, ms)及準確度(Accuracy)。若數值空白則按一下更新符號（藍色旋轉箭頭）進行重新計算。由 Fig. 4 案例來看，經過優化（INT8 預設量化）後，輸出速度快了 1.6 倍，延時也降了 1.6 倍，而準確度只掉了 1%，表現相當不錯。當然不同的模型及優化後的改善幅度也會有所不同。 Fig. 4 DL Workbench 使用 POT 優化操作流程圖。(OmniXRI Apr. 2021整理製作) 安裝 POT 相依套件若不想使用 DL Workbench 來取得 POT 優化結果，亦可以使用命令列方式進行操作。首先要說明的是 OpenVINO POT 並不在開源的範圍，無法從官方 Github 上取得，只能透過一般正常安裝包取得，安裝 POT 前須先安裝好 OpenVINO Toolkit 完整版。以下就使用 Ubuntu 18.04 環境安裝來進行說明，依序要安裝好「模型優化器(Model Optimizer, MO)」、「準確度檢查器(Accuracy Checker, AC)」及「訓練後優化工具(Post-training Optimization Tool, POT)」。 #若系統上同時存在Python 2.x和3.x版，則使用python3進行安裝，Python版本建議大於3.5版以上。 #預設在Unbuntu上安裝完OpenVINO後會存放在 /opt/intel/openvino_2021 路徑下，不同版本請自行修改路徑名稱 #1.進入命令列模式後，一定要先設定環境變數，不然後面很多操作會出現錯誤，找不到對應工作路徑及變數。 cd /opt/intel/openvino_2021/bin/ ./setvars.sh #2.接著切換路徑，安裝模型優化器(MO)預要求項目。 cd /opt/intel/openvino_2021/deployment_tools/model_optimizer/install_prerequisites sudo ./install_prerequisites.sh #3.若成功，回到上一層，執行下列命令，顯示MO各參數說明文字。 cd .. python3 mo.py -h #4.切換路徑，安裝並執行準確度確認器(AC)，顯示AC各參數說明文字。 cd /opt/intel/openvino_2021/deployment_tools/open_model_zoo/tools/accuracy_checker python3 setup.py install accuracy_check -h #5.切換路徑，安裝並執行訓練後優化工具(POT)，顯示POT各參數說明文字。 cd /opt/intel/openvino_2021/deployment_tools/tools/post_training_optimization_toolkit python3 setup.py install pot -h 影像分類 MobileNet 模型優化接下來就以常見的影像分類模型 MobileNet-v2 來說明如何利用 POT 執行優化工作。 1. 環境設定、下載模型並轉換至 IR 格式首先依據上一節說明把模型優化器(MO)、準確度檢查器(AC)及訓練後優化工具(POT)安裝好，創建一個可供下載模型的路徑並下載模型。接著把下載到的模型轉換成 OpenVINO 專用的中間表示格式IR(*.bin, *.xml)檔案，包含 FP16 及 FP32 數值精度。更多公開模型類型及名稱可參考說明：Overview of OpenVINO™ Toolkit Public Models。 #在使用者名稱下創建一個Models的路徑並切換至該路徑 mkdir /home//Models cd /home//Models #下載mobilenet-v2模型，這裡可替換成其它常用公開模型 python3 /opt/intel/openvino_2021/deployment_tools/open_model_zoo/tools/downloader/downloader.py --name mobilenet-v2 #完成下載後會在 /home//Models/public/mobilenet-v2路徑下看到Caffe格式模型檔 mobilenet-v2.caffemodel及mobilenet-v2.prototxt，不同模型可能由不同框架產生（如TensorFlow, PyTorch, ONNX…） #轉換模型變成OpenVINO中間表示格式IR檔案(*.bin, *.xml) python3 /opt/intel/openvino_2021/deployment_tools/open_model_zoo/tools/downloader/converter.py --name mobilenet-v2 #完成轉換後會在 /home//Models/public/mobilenet-v2路徑下產生/FP16及/FP32二種數值精度格式的IR檔(*.bin, *.xml) 2. 模型原始數值精度的性能基準測試為了得知後續優化程度，這裡可以先進行一些性能基準測試(Performance Benchmark)，了解原始數值精度(FP16 / FP32) 的表現，經計算後可得到其延遲時間(ms)及輸出速度(FPS)。 #對IR檔進行FP32性能基準測試，亦可替換成FP16進行測試，請自行替換成自己電腦上使用者的名字 python3 /opt/intel/openvino_2021/deployment_tools/tools/benchmark_tool/benchmark_app.py -m /home//Models/public/mobilenet-v2/FP32/mobilenet-v2.xml #這裡是以Intel Core i5-4440 @3.10GHz * 4, 8GB RAM, Ubuntu 18.04.5 LTS 64ibt環境進行測試，完成測試後會得到如下數值。 Latency: 17.09 ms Throughput: 222.71 FPS 3. 準備資料集這裡不限何種資料集，可自行準備，只要滿足 OpenVINO 的規範即可，建議選用 ImageNet, VOC, COCO 等常用資料集格式會較方便。這裡以 ImageNet 來舉例，首先到 ImageNet 官網申請一個帳號，點選同意用於非商業用途，它會寄出確認信，點擊回覆後就能開通，但請注意他們不接受 hotmail 或 gmail 的電子信箱申請。接著切換到下載(Download)頁面，移到最下方 Download links to ILSVRC image data，點選 2012，挑選 Validation images(all tasks) 6.3GB 下載驗證影像集，另外可從 ImageNet ILSVRC 2012 annotation file 下載到這個資料集的標註檔。若只是想測試一下整個 POT 工作流程，不想大費周章，這裡幫大家準備了一個從上述資料摘錄出來的超迷你影像分類用資料集和標註檔（只有 100 張影像）方便測試使用，請勿移作其它用途。下載網址如下，再將其解壓縮至/home/<user name>/Models下即可。 https://github.com/OmniXRI/OpenVINO_POT_Test_Data 4. IR 格式原始精度模型的準確度驗證在 /home/<user name>/Models 路徑下建立準確度檢查器(Accuracy Checker) 組態檔案 mobilenet_v2.yaml，內容如下。其中 datasets 下的 data_source 即為準備好的資料集路徑，而 annotation_file 則為標註檔案路徑及名稱，要手動修改為自己準備好的路徑，其它更進一步相關參數設定可參考：Deep Learning accuracy validation framework。 models: - name: mobilenet-v2 launchers: - framework: dlsdk device: CPU adapter: classification datasets: - name: classification_dataset data_source: ./MiniImageNet annotation_conversion: converter: imagenet annotation_file: ./MiniImageNet/val.txt reader: pillow_imread preprocessing: - type: resize size: 256 aspect_ratio_scale: greater use_pillow: True - type: crop size: 224 use_pillow: True - type: bgr_to_rgb metrics: - name: accuracy@top1 type: accuracy top_k: 1 ###draft_code_symbol_lessthen###ul> ###draft_code_symbol_lessthen###li>name: accuracy@top5 type: accuracy top_k: 5 接著就能以下列命令執行準確度評估了。 accuracy_check -c mobilenet_v2.yaml -m ./public/mobilenet-v2/FP32/ 結果如下所示。 100 objects processed in 1.328 seconds accuracy@top1: 73.00% accuracy@top5: 92.00% 5. 模型量化在 /home/<user name>/Models 路徑下建立訓練後優化工具組態(POT Configuration) 組態檔案 mobilenet_v2_int8.json，內容如下。其中 model 下的 model 和 weights 指定的是原始(FP32)數值精度的 IR 格式模型(.xml)及權重檔(.bin)，而 engine 下的 config 則是指定上一步驟產生的 mobilenet_v2.yaml，最後指定模型INT8量化演算法類型，即為 compression 下 algorithms 下 name 下的 DefaultQuantization。這裡 name 亦可選擇 ”AccuracyAwareQuantization”，但要在 params 下新增一項 ”maximal_drop”: 0.01，來指定優化時最大容許準確率下降幅度。 { "model": { "model_name": "mobilenet-v2", "model": "./public/mobilenet-v2/FP32/mobilenet-v2.xml", "weights": "./public/mobilenet-v2/FP32/mobilenet-v2.bin" }, "engine": { "config": "./mobilenet_v2.yaml" }, "compression": { "algorithms": [ { "name": "DefaultQuantization", "params": { "preset": "performance", "stat_subset_size": 300 } } ] } } 接著就能以下列命令執行訓練後優化工具，產生 INT8 格式的模型及權重了。 pot -c mobilenet_v2_int8.json -e 執行後會產新的路徑 /results/mobilenetv2_DefaultQuantization/<Date_Time>/optimized，而結果會置放於此，其中為執行當下時間，重複執行時會產生不同時間（目錄名稱），結果顯示如下所示。 100 objects processed in 1.164 seconds INFO:compression.engines.ac_engine:Inference finished INFO:app.run:accuracy@top1 : 0.69 INFO:app.run:accuracy@top5 : 0.94 若想更了解 POT 組態設定，可參考 Post-Training Optimization Best Practices。 6. 執行模型量化後性能基準比較最後執行下面指令來確認 INT8 量化(優化)後得到的效果。這裡要注意 <Date_Time> 須為上一步驟產生的路徑。 python3 /opt/intel/openvino_2021/deployment_tools/tools/benchmark_tool/benchmark_app.py -m /home//Models/results/mobilenet-v2_DefaultQuantization//optimized/mobilenet-v2.xml 執行結果如下所示。感覺上和前面以 DL Workbench 執行 ssd-mobilenet_v2-coco 效果差滿多的，在推論速度部份只有提升約 9.8%，Top 1 準確度還不錯只掉了約 1%，模型(xml) 檔案則因增加許多 Fake Quantization 層描述，所以變大一些，但權重(bin)部份則減到剩原來的 26.7%，相當於減去 3/4 的檔案大小，對於記憶體的需求減輕不少壓力。經測試多種模型後得知，速度提升可能從 0.01 倍到 3 倍多，會隨模型開發框架(如 Caffe, TensorFlow, ONNX…)、搭配資料集結構（如 ImageNet, VOC, COCO…)、模型應用類型（如影像分類、物件偵測、影像分割、骨架關鍵點偵測等…）及電腦運算時的系統資源（CPU, RAM…）配置不同，可能都會得到差異頗大結果，因此想快速找出最優解，則利用 DL Workbench 圖形化介面來操作會更加便利。最後補充一個 INTEL 官方的 POT 介紹影片（Post Training Optimization Tool | OpenVINO™ toolkit | Ep. 68 | Intel Software），方便大家更進一步了解這項工具。小結一般 AI 工程師最苦惱的推論速度、準確度及模型大小，經過 Intel OpenVINO 的訓練後優化工具(Post-Training Optimizztion Tool, POT) 處理後，不用寫半行程式，就能馬上讓模型縮小到原有 1/2 甚至 1/3，推論速度提高 1.1 到 3 倍，準確度還只掉一點點。若再搭配 OpenVINO DL Workbench 圖形化介面使用，工作效率就更高了。話說回來，這麼好用的工具千萬不要讓老板知道，工程師只能自己偷偷用，不然工作就做不完了。詳細內容小孩才作選擇，AI推論速度及準確度我全都要 ─ OpenVINO Post-Training Optimization Tool簡介 - 引領創新的科技實作社群媒體身為人工智慧(AI)從業人員，如何兼顧模型的速度和準確度是一大挑戰。利用INTEL OpenVINO推出的「P...makerpro.cc
OpenVINO 佈署更容易 : 使用容器 Container
- 如何利用 Docker 快速建置 OpenVINO™ Toolkit 開發環境
  
  簡介 2012 年 Alex Krizhevsky 利用卷積神經網路 (Convolutional Neural Network, CNN) AlexNet以15.3% Top5 錯誤率遠甩第二名好幾條街 (26.1%)，贏得 ImageNet 大規模視覺辨識挑戰賽(ILSVRC)首獎，從此開啟人工智慧、神經網路、深度學習的新世代。自此各個廠商也紛紛推出自家的開發工具，搶食人工智慧這塊大餅。 2018 年 5 月 INTEL 有鑑於邊緣智能(Edge AI)設備的硬體效能遠低於雲端機房，且不同硬體、開發工具間存在嚴重差異，造成工程師學習上極大的困擾，因此推出開放（免費）電腦視覺推論及神經網路（深度學習）優化工具包「OpenVINO」(Open Visual Inference & Neural Network Optimization Toolkit)。可參考： Get the Intel® Distribution of OpenVINO™ Toolkit OpenVINO™ Toolkit Overview OpenVINO 整合了 OpenCV、OpenCL 等開源電腦視覺及加速運算函式庫，並可運行在多種作業系統(Windows, Linux)，輕鬆搭配自家各種不同硬體加速運算平台(Inetl CPU, GPU, FPGA, VPU, GNA)，且支援各種常見AI開發框架(TensorFlow, Caffe, MXNet, ONNX, KALDI) 訓練出的模型及參數，更有提供模型的優化工具使運算效能及模型大小得到更佳的輸出，最重要的是工程師只需寫一次程式就能在不同平台上執行，大大降低學習及佈署的負擔。早先 OpenVINO 的版本彈性雖然較大，但安裝程序冗長，一不小心容易造成步驟缺失導致系統無法正確運行。為解決這項問題，OpenVINO 也有推出 Docker 安裝方式，輕鬆搞定安裝及執行問題，且可有效隔離不同版本及其它開發環境。接著就簡單說明「什麼是 Docker？和虛擬機 VM 有何不同？」、「如何安裝 Docker 工作環境」及「如何使用 Docker 安裝 OpenVINO 」，最後再以一個範例來說明「如何利用公開模型 mobilenet 執行影像分類」。什麼是 Docker？和虛擬機 VM 有何不同？一般大家買來的電腦上大部份都是安裝微軟的 Windows 作業系統，如果遇到要開發 Liunx 相關應用程式時，可能有人會選擇安裝二個作業系統，在重新開機時選擇要執行那一種。雖然這種方式可完全掌控硬體資源（如CPU, GPU, HDD, RAM）及開發環境（相依套件、函式庫），但每次切換作業系統都要重新開機，實在太麻煩。為解決這個問題，於是就有人提出在主作業系統(Host OS)上安裝一個虛擬機(Virtual Machine, VM)監視器(Hypervisor)，如 VMWare, VirtualBox 這類工具，方便安裝其它作業系統或者多種不同的開發環境，如 Fig. 1 左圖所示。雖然這樣很方便同時使用兩種以上作業環境，但硬體資源要和主系統共享且額外多了一些虛擬化轉換工作，所以執行效能較差，甚至有些硬體（如GPU）無法直接使用，導致部份應用程式無法運作。很多在 Linux 環境下開發程式的人都知道，它的應用程式比較不像在 Windows 下一個執行檔(.exe)或搭配幾個動態函式庫(.dll)就能順利執行，各種開發工具及相依套件包常會有版本不相容問題。本來在 Linux 上也可以執行虛擬機(VM)來區隔不同開發環境，但效能實在太差，所以便有人開發出以一種類似大船載送貨櫃，貨櫃裝載各種不同大小、形狀貨物的執行環境，稱為 Docker。如 Fig. 1 中圖所示，容器(Containers)就像貨櫃是用來裝載映像檔(Images)這樣的貨物，再由 Docker 引擎（大船承載）執行的概念。表面上看起來和 VM 沒什麼不同，但最大差別就是它很輕量，不透過虛擬化，直接驅動硬體資源，共用作業系統資源，所以啟用一個容器和映像檔僅須數秒和載入一個 VM 客作業系統核心要數分鐘差異頗大。以往 Docker 只能在 Linux 上運作，近年來已有支援 Window 及 Mac OS 的版本出現了。一般 Docker 使用上極為方便，供應商僅需將欲提供的映像檔(Images)推上(Push) 公開映像檔倉儲(Repository / Docker Hub)，使用者再去拉下(Pull)想要的映像檔即可執行，如 Fig. 1 右圖所示。 Fig. 1 VM 和 Docker 架構差異比較圖。(OmniXRI, Jan. 2021整理製作) 如何安裝 Docker 工作環境為了後面能使用Docker快速安裝Intel OpenVINO工具包及相關環境，這裡先介紹如何在Ubuntu 18.04 / 20.04 (Linux)環境下安裝Docker。首先啟動終端機(Terminal)進入命令列操作模式，然後要確定是否有安裝舊版的Docker(docker, docker-engine, docker.io等)，若有，則執行下列命令進行移除，因為最新版的Docker名稱已經變更了。 sudo apt-get remove docker docker-engine docker.io containerd runc 由於 Docker 預設只能在 root(sudo) 的權限下執行，為了方便一般使用者也能直接呼叫使用，可使用下列命令創建一個 Docker 群組並將目前使用者添加至該群組中，登出系統後再重新登入，後續執行 Docker 相關命令就不用再加上 sudo 了。 curl -fsSL https://get.docker.com -o get-docker.sh sudo sh get-docker.sh 重新登入後，便可執行下列命令測試 Docker 是否正常。 docker run hello-world 由於第一次執行，本機端並沒 hello-world 這個映像檔，所以會自動到 Docker Hub 去找，並下載回來。如果成功會看到下面畫面。 Fig. 2 Docker 執行 hello-world 映像檔執行結果。(OmniXRI Jan. 2021整理製作) 後續若有需要除移 Docker Engine 及手動刪除相關路徑時，則可執行下列命令。 sudo apt-get purge docker-ce docker-ce-cli containerd.io sudo rm -rf /var/lib/docker 另外這裡補充幾個 Docker 常用指令，想了解更多 Docker 操作指令，可參考Docker docs 官網。從Docker Hub拉下（下載）映像檔 [映像檔名稱xxxxx] docker pull xxxxx 檢查目前已下載之映像檔 docker images 檢查目前正在執行的映像檔 docker ps 開始執行映像檔 [映像檔名稱xxxxx] docker start xxxxx 停止執行映像檔 [映像檔名稱xxxxx] docker stop xxxxx 如果想要知道更多 Docker 安裝資訊，可參考 Install Docker Engine on Ubuntu。另外想在 Windows 上安裝 Docker 的人，可參考 Install Docker Desktop on Windows。如何使用 Docker 安裝 OpenVINO Intel OpenVINO 對應不同作業系統(Windows, Linux, macOS, RaspbianOS) 提供很多種安裝方式。近年來隨著各種容器技術興起，也開始支援像 Docker 這類直接安裝映像檔方式，充份解決使用者不熟悉安裝步驟及滿足開發者需要不同版本或開發環境隔離需求。 Intel OpenVINO 目前在 Docker Hub 上有提供多個映像檔讓使用者下載(pull)，其中有兩組使用率較高， openvino/workbench 使用者不需寫程式直接操作圖型化介面就可測試各種模型效能， openvino/ubuntu18_dev 則提供一般Ubuntu 18.04 (Linux) 開發環境，本次測試將以後者為例。首先執行下列指令將映像檔 openvino/ubuntu18_dev 從 Docker Hub 拉下（下載）至本機端。由於檔案頗多且大（解壓縮後約 7.22GByte），所以根據網路速度需要等待時間可能從數分鐘到數十分鐘不等。 docker pull openvino/ubuntu18_dev 若想啟動映像檔，依不同硬體執行下列命令。 Intel CPU docker run -it --rm openvino/ubuntu18_dev Intel GPU docker run -it --rm --device /dev/dri openvino/ubuntu18_dev NCS2（單個VPU） docker run -it --rm --device-cgroup-rule='c 189:* rmw' -v /dev/bus/usb:/dev/bus/usb openvino/ubuntu18_dev HDDL（多個VPU） docker run -it --rm --device=/dev/ion:/dev/ion -v /var/tmp:/var/tmp openvino/ubuntu18_dev 啟動 Docker 並指定執行的映像檔後命令列提示字元會顯示目前 OpenVINO 版本，預設啟動時就會執行環境變數設定(setupvars.sh)，且安裝好 Python 3.6.9 及 OpenCV 4.5.1_OpenVINO (OpenVINO 刪減版)。若想離開 Docker，則輸入 exit 再按 Enter 鍵即可回到正常命令列狀態，如 Fig. 3 所示。若想更完整了解 Docker 在 Linux 上安裝方式，可參考官網說明：Install Intel® Distribution of OpenVINO™ toolkit for Linux* from a Docker* Image。而 Docker 在 Windows 上安裝方式則參考另一份官網說明：Install Intel® Distribution of OpenVINO™ toolkit for Windows* from Docker* Image。 Fig. 3 檢查 Docker 本地端映像檔，啟動及離開 Docker 環境。(OmniXRI Jan. 2021整理製作) 若不想使用 Docker 安裝，而想直接在 Linux 上安裝 OpenVINO，則可參考另一篇官網說明：Install Intel® Distribution of OpenVINO™ toolkit for Linux*。另外貼心提醒一下，如果使用 Docker 進行推論前要注意不同作業系統有不同硬體的最低基本要求，可參考：Install the DL Workbench，可以參考 Fig. 4 所示。 Fig. 4 OpenVINO 建議最低推論要求。如何利用公開模型 MobileNet 執行影像分類利用 Docker 安裝好 OpenVINO 工作環境後就可以開始進行推論(Inference)工作了。OpenVINO 除了提供多種預訓練好的模型外（可參考：Overview of OpenVINO™ Toolkit Intel’s Pre-Trained Models），另外也支援很多不同框架 (Caffe/Caffe2, PyTorch, TensorFlow, MXNet, ONNX等)產生的公開模型（可參考：Overview of OpenVINO™ Toolkit Public Models），亦稱為「Open Model Zoo」，其中包含影像分類、物件偵測、影像分割、人臉辨識、人體姿態、深度估測、影像填補、風格轉移、動作辨識、影像著色、聲音分類、語音辨識、影像翻譯等公開模型。使用這些模型前須先下載並執行優化，最後產生 OpenVINO 推論時所需的中間表示檔(Intermediate Representation, IR)，即模型描述檔(.xml)及參數權重檔(.bin)，存放在 /opt/intel/openvino/public/ 模型名稱 /FP16(或FP32, INT8) 路徑下。接下來就舉一個 mobilenet 影像分類的例子來說明。啟動Docker並指定映像檔在Intel CPU上執行，以root身份執行，同時指令顯示器和系統共用，方便OpenCV執行 imshow() 時能正常工作 docker run -itu root:root --rm -v /tmp/.X11-unix:/tmp/.X11-unix -e DISPLAY=$DISPLAY openvino/ubuntu18_dev 下載公開模型mobilenet-v1-1.0-224 python3 \ /opt/intel/openvino/deployment_tools/tools/model_downloader/downloader.py \ --name mobilenet-v1-1.0-224 優化模型mobilenet-v1-1.0-224並產出中間表示(*.xml, *.bin)檔，FP16/FP32格式於 /opt/intel/openvino/deployment_tools/public/模型名稱路徑下 python3 \ /opt/intel/openvino/deployment_tools/tools/model_downloader/converter.py \ --name mobilenet-v1-1.0-224 Fig. 5 推論測試用影像。接著輸入一張汽車影像（如 Fig. 5 所示），經 mobilenet-v1 PF16 格式推論輸出結果，Top 1 為 Car, Sport Car 0.4242045 (42.42% 置信度)，成功完成範例。以 classification_sample_async.py進行「影像分類」非同步推論 -m 指定mobilenet-v1-1.0-224模型為FP16格式進行推論 -I 指定待測試之輸入影像 --labels 指定輸出ImageNet 1000分類對應的標籤檔 python3 \ /opt/intel/openvino/inference_engine/samples/python/classification_sample_async/classification_sample_async.py \ -m /opt/intel/openvino/public/mobilenet-v1-1.0-224/FP16/mobilenet-v1-1.0-224.xml \ -i /opt/intel/openvino/deployment_tools/demo/car.png \ --labels /opt/intel/openvino/deployment_tools/demo/squeezenet1.1.labels 輸出結果（部份省略，僅顯示Top 10結果標籤及置信度0.0~1.0） [ INFO ] Top 10 results: Image /opt/intel/openvino/deployment_tools/demo/car.png classid probability ###draft_code_symbol_lessthen###hr /> car, sport car 0.4242045 convertible0.2728052 wheel 0.1330036 wagon, station wagon, wagon, estate car, beach waggon, station waggon, waggon 0.0699500 race car, racing car0.0339605 radiator grille0.0263465 pickup truck0.0155464 hack, taxi, taxicab0.0127090 minivan 0.0051457 T 0.0018786 小結 Intel OpenVINO 目前大約一季就會有一版更新，官方也有專門的論壇在解決大家的疑難雜症，支援的公開模型也越來越多，若再配合像 Docker 這類容器方式的安裝，新手們就更容易上手，使用上也更加方便了。所以，各位有滿腦子AI應用不知如何發揮的朋友，還不趕快來試試。貼心提醒：目前 OpenVINO 最新版本為 2021.2，自 2020.4 版本後就不再支援神經運算棒(Movidius Neural Computing Stick, NCS)第一代產品，而 NCS2 第二代產品則不受影響。詳細內容如何利用Docker快速建置OpenVINO™ Toolkit開發環境 - 引領創新的科技實作社群媒體為解決安裝步驟系統無法運行，OpenVINO推出Docker安裝方式，輕鬆搞定安裝及執行問題，本篇簡單說明Do...makerpro.cc
簡單易用的深度學型模型圖形化介面工具
- 【OpenVINO專欄】用 DL Workbench 輕鬆完成 AI 模型的分析與部署工作
  
  簡介網路上目前可以找到關於 OpenVINO 的介紹與解說文章越來越多，基於自己的需求想要進一步了解，老實說還真的不知如何下手。這次應 MakerPRO 的邀請，在短短的時間中要了解如何去深入了解 OpenVINO，並且寫出有內容的東西，還真的是一個很大的挑戰，截至著手準備這邊文章的時候，還在思考未來如何深入應用 OpenVINO，此時當作老王賣瓜，提供點自己這幾週的經驗給大家參考。 OpenVINO 強大之處在於整合了當前 AI 經常應用的情境，像是圖片或是影像的物件辨識、語音辨識、自然語言與數據推薦系統等等，而透過這個套件的 Open Model Zoo 可以導入現有多個常用框架的模型，像是 Caffe、TensorFlow、MXNet、Kaldi 與 ONNX，無疑是個現成的參考資料庫。 OpenVINO 支援現有多個常用框架的模型（Source: Intel） Intel OpenVINO 工具套件包含的項目實在太多，要做到基礎入門我想非常快。但如果要真的上手到導入既有的商業專案中，我想還是需要花不少時間。學習 Intel OpenVINO 工具集我想是非常值得去投資的，後續對於導入 AI 應用到升級與維護專案，會非常的容易。以下的介紹將會以短篇的模式進行，我使用以下的環境去進行學習與測試： 1. 硬體： Rock X Intel(R) Atom(TM) x5-Z8350 1.4GHz CPU. 4Gb RAM 與 128Gb 的 SD卡環境 EFI單板電腦，使用 i7-1185G7E 2.8GHz 11 代的 Intel CPU, 16Gb RAM 與 128Gb SSD. 2019 年 Mac book Pro 15 吋 i7 2.6GHz CPU, 使用 Parallels 設定兩個 ubuntu VM. 分別設定 2Cores 與 4 Cores 的環境 2. O/S：分別使用 ubuntu server 20.04 與 ubuntu desktop 20.04 兩個版本進行測試。 3. OpenVINO 工具包版本： 2021.4 (截至目前最新的版本) 個人接觸與學習使用 OpenVINO，目地都在於如何將這個工具應用在未來公司的專案上，而選用 Ubuntu Linux 的作業系統，一方面是考量 Open Source 降低入門需要的投資成本，再者也是因為公司內部整體的建置維護環境。如果有需要以 Windows 作業系統為建置環境，可以再多參考官方的文件。我自己個人打算在 OpenVINO 完成三大目標：應用 DL Workbench 可以選用現有或是自製的模型，透過 GUI 介面，輕鬆完成模型的分析與部署工作。使用 Nodejs 的語言去使用 OpenVINO 提供的各種資源進行開發。將 V7RC 上的道路辨識功能，透過 OpenVINO 的環境，使用 Nodejs 語言去重現功能。首部曲 – 從 DL Workbench 開始談起在 2018 年我開始接觸 AI，是基於想在公司的產品 V7RC 中導入 AI 的元素，當時我希望可以透過遙控車上面的鏡頭傳回到手機上，透過手機上的運算資源進行演算，辨識影像中的物體。最早透過同事的協助找到 Framework，使用 Python 進行模型訓練，最後產生出的結果去實際應用，效果很差，而且還不知道如何整合到 iOS 與 Android 的 APP。後來 Google Cloud 的 AutoML 提供了一個模型訓練很好的環境，訓練好的模型可以直接使用 Tensorflow Lite SDK 整合到 iOS 與 Android 的 APP 中。這上面有個非常重要的關鍵在於一個好的 GUI，讓使用者很容易地上手，去進行模型訓練，最後導出到自己的應用上。後來像是 Teachable Machine 也提供很好的 GUI 給使用者，對於入門的使用者來說，也的確夠用，但截至目前，我們的工程師還無法將訓練成果部署到 APP 上。 DL Workbench 最棒的地方在於可以從多種不同常用的 Framework 選擇自己要匯入的模型，或是匯入自己的模型，進行訓練，並且可以選擇使用哪個裝置進行訓練與分析。Dataset 的管理也非常容易，很容易讓人著迷，願意多花點時間去嘗試那些已經訓練好的模型進行比較。如果要了解如何安裝，可以參考許哲豪（Jack）的這篇文章〈不用寫程式也能玩轉深度學習模型 ─ OpenVINO™ DL Workbench圖形化介面工具簡介〉。而我想分享的是在實際安裝過程中遇到的問題排解與疑問，以下使用自問自答方式來進行： 1. DL Workbench 是個 Application，所以需要 Desktop 執行嗎？答案是不需要。DL Workbench 是一個 Web Server，安裝好了之後可以透過其他的電腦以訪問網站的方式來操作，就跟 AutoML 或是 Teachable Machine 一樣。多人操作應該也沒有問題。我喜歡裝在 Ubuntu Server 上，減少像是 Desktop 版本還要跑個 X Window 浪費效能。 2. 安裝 DL Workbench 需不需要在機器上面安裝 OpenVINO 套件？答案是不需要。原本我的理解是一個步驟一個步驟去安裝 OpenVINO 所有的工具套件，Workbench 放在最後面，當然就要先裝好套件後才可以安裝 Workbench。但其實 Workbench 使用 Docker Container 安裝，是不需要先下載與安裝工具包。為了方便各位進行測試，我也提供我的安裝方式作為參考： Step 1. Docker執行環境安裝：確認與安裝 docker 環境：如果不確定 Docker 的版本，可以重新參考官方文件，以下是我安裝流程： A. 移除舊版的 docker 套件： ~$ sudo apt-get remove docker docker-engine docker.io containerd runc B. 安裝docker需要使用到的套件： ~$ sudo apt-get update ~$ sudo apt-get install \ apt-transport-https \ ca-certificates \ curl \ gnupg \ lsb-release C. 設定 apt 安裝所需要的套件庫與環境 (以 x86 環境為例)： ~$ echo \ "deb [arch=amd64 signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu \ $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/nul D. 實際進行安裝： ~$ sudo apt-get update ~$ sudo apt-get install docker-ce docker-ce-cli containerd.io E. 安裝後，需要將 ubuntu 的用戶加入 docker 的群組： ~$ sudo usermod -aG docker ${USER} F. 重新登出用戶，再次登入，才會將新加入的 docker 群組生效。或是重新開機也可以。 Step 2. 安裝 GPU Driver：建議可以再次安裝 Intel GPU 的 Driver，使用 DFI 的單板電腦曾經遇到過無法正確安裝 GPU Driver，導致 Workbench 無法使用 GPU，僅能使用 CPU 進行訓練。安裝方次可以參考以下的網址： Install and Configure Intel® Distribution of OpenVINO™ Toolkit for Linux ubuntu-focal.html 我也提供安裝流程作為參考： A. 安裝必要的套件，並增加 apt 套件庫的資訊： ~$ sudo apt-get install -y gpg-agent wget  ~$ wget -qO - https://repositories.intel.com/graphics/intel-graphics.key | sudo apt-key add -  ~$ sudo apt-add-repository \ 'deb [arch=amd64] https://repositories.intel.com/graphics/ubuntu focal main' B. 安裝： ~$ sudo apt-get update ~$ sudo apt-get install \ intel-opencl-icd \ intel-level-zero-gpu level-zero \ intel-media-va-driver-non-free libmfx1 C. 選擇性安裝開發套件，如果要執行某些 API，還是需要安裝才會正常運作： ~$ sudo apt-get install \ libigc-dev \ intel-igc-cm \ libigdfcl-dev \ libigfxcmrt-dev \ level-zero-dev D. 設定權限：可以先檢查用戶是否在 render 的群組，使用以下命令來檢查，列出目前這個用戶所擁有的群組： ~$ groups ${USER} 如果這個用戶有沒有加入 render 與 video 的群組，使用以下方法加入： ~$ sudo gpasswd -a ${USER} render  ~$ sudo gpasswd -a ${USER} video ~$ newgrp render ~$ newgrp video Step 3. 安裝 DL Workbench Docker Container：有實際用過 Docker Container 的朋友應該知道，如果沒有設定將資料儲存在外部空間，只要每次重新開啟 Container，所有資料將會清空，還原成一開始的“乾淨” 狀態。因此除了安裝之外，還要確保相關設定與專案都有儲存到 Server 的儲存裝置上，而不是在 Container 裏面。我參考官網的文件進行安裝： A. 使用 pip 安裝 openvino-workbench 套件，這不是下載與安裝 Workbench Container，可以當作是方便啟動的 script，簡化後面的流程： ~$ python3 -m pip install -U openvino-workbench B. 建立一個可以放設定與專案的目錄，例如放在自己目錄下的 openvino-workbench 目錄： ~$ mkdir -m 777 ~/openvino-workbench C. 執行以下命令啟動 Workbench： ~$ openvino-workbench --image openvino/workbench:2021.4 --assets-directory ~/openvino-workbench --enable-gpu --container-name openvino-workbench 這個命令，我們將 Container 名稱命名為 openvino-workbench，並且指定 ~/openvino-workbench 作為專案與設定儲存的目錄，另外也啟動 GPU。如果發生錯誤，像是找不到 /dev/rencer/* 的目錄等等，就是系統沒有正確的設定 GPU，可以嘗試先吧 –enable-gpu 拿掉試試看。完成後，就可以在本機打開 Browser 連結上這個網站，例如 Workbench 主機的 IP 是 10.211.55.17，那麼就在 Browser 上面鍵入：http:// 10.211.55.17:5665 3. DL Workbench最吸引我的地方在哪？   看到 DL Workbench 的介面上，Environment 的右邊有個 Add Remote Target 按鈕。沒錯，可以將多台機器的資源統一在這個見面上管理，這樣可以將專案切換到不同機器上進行訓練與分析。經過一番努力，測試成功了，真的可以將專案指派到其他機器上面去進行訓練，但可惜的是只能在本機進行驗證與測試，我想未來的版本應該會解決這個問題。  以下提供安裝方式，我也提供參考網址。 Step 1. 在遠端主機進行設定，下載並且安裝必要套件： A. 安裝套件： ~$ sudo apt-get update ~$ sudo apt-get install -y --no-install-recommends \ openssh-server \ ssh \ python3 \ ython3-distutils \ python3-apt \ python3-dev \ python3-pip \ gcc \ libgtk-3-0 \ ffmpeg   ~$ python3 -m pip install --upgrade pip < p style=”padding-left: 80px;”>B. 更新 python3-virtualenvwrapper 套件。就個人的經驗上我分別在 Atom 與 VM 的環境上嘗試安裝時，會遇到個套件出現問題，導致最後的安裝無法完成，避免麻煩在一開始就先完成更新套件。以下是更新方式 ： ~$ sudo apt remove python3-virtualenvwrapper ~$ sudo apt autoremove ~$ sudo apt purge python3-virtualenv ~$ /usr/bin/python3 -m pip install --force-reinstall virtualenvwrapper Step 2. 設定 ssh 遠端登入，並取得 private key 回到安裝 DL Workbench 的機器上，我們需要可以使用 ssh 直接登入到遠端主機的相關權限。設定的過程中我們將會設定一個 private key, 這個檔案將要使用在 Workbench 的設定上。以下是相關執行步驟(如果對於 ssh 非常熟悉的朋友，可以簡化這個流程，直接取得 ssh 登入的 private key)： A. 使用 ssh-keygen 產生 ssh 的 Key： ~$ ssh-keygen B. 將剛剛產生的 public key 複製到遠端的主機，可以使用 ssh-copy-id 命令，使用方法是： ~$ ssh-copy-id louis@192.168.1.100 # 請將louis改成遠端可以登入帳號，192.68.1.100改成遠端的主機過程中會需要填寫登入的密碼，請正確的進行填寫。 C. 驗證是否正確，使用 ssh 登入遠端主機，將不再需要填寫密碼，可以直接登入。 ~$ ssh louis@192.168.1.100 如果可以正常登入，就表示完成這個步驟 Step 3. 確認遠端主機的用戶擁有根權限(Sudo Privileges)，不需要輸入密碼就可以執行 sudo 的命令。 A. 首先簡單的確認是否有 sudo 的使用權限以及是否不需要輸入密碼就可以執行 sudo，執行以下指令： ~$ sudo ls -la / B. 如果可以順利列出根目錄下所有的檔案與目錄，表示這個用戶已經擁有根權限，並且不需要密碼就可以執行。如果顯示沒有 sudo 權限，則表示這個用戶沒有 sudo 使用權，請使用以下命令，將這個用戶加入到 sudo 群組中： ~$ su ~$ usermod -a -G sudo USERNAME ~$ exit C. 加入後，請登出再重新登入，並且再次使用 sudo ls -la / 確認目前用戶使用已經擁有 sudo 權限。 D. 如果用戶已經擁有 sudo 權限，但需要填寫密碼，則使用 visudo，將這個用戶加入到 /etc/sudoers.tmp 檔案中： ~$ sudo visudo 此時會開啟編輯畫面，並且顯示檔案內容，接著將游標移到檔案的最後，加入以下權限： louis ALL=(ALL) NOPASSWD: ALL #請將louis改成這個帳戶的名稱接著存擋離開，再重新測試這個用戶的 sudo 命令： ~$ sudo ls -la / 此時應該不需要密碼就可以執行了。 *特別注意：使用 visudo 編輯並存擋，務必確認正確填寫，否則有可能導致系統嚴重的問題發生。 Step 4 進入 DL Workbench 設定目前準備進入到 DL Workbench 設定的步驟，在此之前，必須要先下載 id_rsa 的私鑰到本機來，方便等一下再介面上需要上傳這個檔案。再次使用 ssh 登入到安裝 Workbench 的主機上，可以使用 vi 或是其他編輯器，打開私鑰檔案，使用以下命令開啟： ~$ vi ~/.ssh/id_rsa 將會看到以上的編輯畫面，可以使用圈選複製，然後在本機新增加一個文字檔案，然後貼上剛剛複製的內容，儲存成一個文字檔案，例如：id_rsa_192.168.0.1.key。接著，在本機打開 Browser，進入 Workbench 的網站，然後按下 Create 的按鈕，產生一個新的專案：在 Create Project 畫面上，可以看到 Environment 的功能，有個A dd Remote Target 的按鈕，按下後開始新增新的遠端主機：這時可以看到 Target Machine 的列表，第一個顯示的就是 Workbench 內建預設的環境。按下『Add』按鈕後，進行新增機器的畫面：在 Add Remote Targe t表單中，請填入以下資訊： Hostname (遠端主機 IP) Port (遠端主機 ssh port, 除非有手動變更，預設都是 22) Target Name(自己為這個遠端命名) User (登入遠端主機用的帳號) Ssh key (就是一開始我們先存下來的私鑰文字檔案) 以上正確填寫後，下方的 Save Target 將會從灰色變成深紅色，按下後，就開始啟動安裝與設定程序了。安裝進行中的畫面：安裝中，每個階段都可以即時顯示狀態以及正在設定中的項目：安裝完成後，在 Target Machines 的列表中會清楚出現該設備，如果安裝出現問題，也會出現錯誤資訊。安裝中如果出現錯誤，也會出現在下方的資訊中：回到 Create Project 畫面後，下方的 Environment，就可以選擇遠端的主機來進行演算了。實際簡單的測試一下，可以看到遠端主機上跑出來的結果，專案列表上可以看到第二列，使用我們剛剛新增的遠端主機資源進行演算的結果： 4. 目前有沒有什麼可以進一步釐清的地方？截至目前無法正確的設定遠端主機使用 GPU 或是 VPU 的資源，算是一種遺憾。我想後續應該是有機會可以解決，後續再做更新。小結如果各位希望打造一群工作的主機，可以進行選擇模型、設定資料集、建立基準到分析與部署， Workbench 正好提供了分散式 Environment 的安裝方式，設定起來不難。後續在商業上思考可以如何客戶運用 OpenVINO 打造一個私有的 AI 運算環境應該不是問題，非常佩服 Intel 打造 OpenVINO 的目標。詳細內容【OpenVINO專欄】用DL Workbench輕鬆完成AI模型的分析與部署工作 - 引領創新的科技實作社群媒體本文將介紹如何應用OpenVINO的DL Workbench選用現有或是自製的模型，透過GUI介面，輕鬆完成模...makerpro.cc

【教材專區】再訪OpenVINO 模型優化器，Runtime API 與度量深度學習模型效能與準確度

內容簡介

作者介紹

適合人群

你將會學到什麼

購買須知

使用模型優化器轉換 Tensorflow/Keras 預訓練模型

OpenVINO 模型最佳化實測：PC/NB 當 AI 辨識引擎沒問題！

不須轉換！OpenVINO 整合 TensorFlow 框架實現推論加速！

標竿深度學習模型效能與初探 OpenVINO 效能增強工具

優化 OpenVINO 模型效能：參數設定影響實測

壓縮深度學型模型以提升效能

小孩才作選擇，AI 推論速度及準確度我全都要 ─ OpenVINO Post-Training Optimization Tool 簡介

OpenVINO 佈署更容易 : 使用容器 Container

如何利用 Docker 快速建置 OpenVINO™ Toolkit 開發環境

簡單易用的深度學型模型圖形化介面工具

【OpenVINO專欄】用 DL Workbench 輕鬆完成 AI 模型的分析與部署工作