AI大規模應用的關鍵：ModelOps打造「生生流轉」模型生態系

受訪者: SAS 台灣業務顧問部陳新銓副總經理
原文刊登自:TechOrange 科技報橘

從影像辨識、語音辨識，到深度學習，各產業近年來都看好 AI 人工智慧所帶來的龐大效益，但真正能從開發走到應用的企業卻不在多數，根據 Gartner 調查，受訪企業原本預期一年之內能有 23% 的 AI 計畫完成部署，但一年後卻僅有 5% 真正被部署，究竟 AI 在落地運用上遇到什麼困境？

SAS 台灣業務顧問部陳新銓副總經理分析，初期從情境確認、資料分析到每一次模型部署上線，企業內部就需花費大量的時間溝通，而等到模型上線後，又會因為情境需求改變，甚至是日益增長的資料而讓模型執行環境變得不堪使用。

後期在 AI 模型管理上，許多企業會以為管理 AI 模型跟一般網頁一樣，只需要管理程式碼，但其實兩者間有很大的落差，網頁開發完成後就算放置不更新，基本功能也不會有所改變，但是 AI 模型卻會在開發完成後，隨著時間失去它的精準度。至於在 AI 開發與應用的細節上還有哪些常見迷思？

從實驗環境走向大規模 AI 應用，企業必經的 3 大挑戰

首先，陳新銓副總點出許多企業在發展 AI 時常會有一大迷思：耗費太多時間與精力在「模型建立」階段，然而根據 Google 所發表的一篇 AI 研究論文指出，團隊若想將 AI 從實驗環境走到實際應用，模型建立其實只佔整個 AI 開發的一小部分，後面還有更多架構與流程管理的「隱藏技術債」需解決。

再者，企業在導入 AI 應用時，通常都是從小規模專案開始進行，當有了成效後，才會進一步擴大 AI 應用的範圍或深度。陳新銓副總以某零售業者為例，起初協助他們建立 VIP 客戶最適商品預測模型，在初嚐甜頭後希望擴大規模延伸到更多客群，然而在過程中即遇到「模型數量暴增」、「機器學習團隊溝通協作不易」，和「模型準確率隨時間下降」 3 大挑戰。

1. 第一個挑戰：模型數量暴增，部署時間也暴增

例如某業者想將過去「VIP 顧客最適商品預測模型」進階應用到「各類型顧客的最適商品預測模型」，假設簡單把顧客分成 10 種客群，商品品項總共有 20 種，每一種客群或品項都要運用至少 5 種機器學習演算法，以便從中找出冠軍模型，資料科學團隊就會從過去僅須建立 1 種模型，暴增到需要建出 1,000 種預測模型，才能滿足預測需求情境！

同時，模型數量增加，工作時間也會增加，如果依照先前建立 VIP 客戶預測模型須花費 1 年時間的規劃，想完成 1,000 個模型可說曠日廢時，對企業來說是不可行的投資。

2. 第二個挑戰：當團隊人數增加，跨部門人數多、溝通協作不易

當然，透過增加資料科學團隊的人力也是一種解方，但在實際執行時就會面臨到第二個挑戰：溝通問題，原本從資料準備、模型訓練、再到模型部署等工作，幾乎都是同一個資料科學家負責，但隨著團隊規模擴大、分工越來越細，這些工作可能由資料工程師、資料科學家、架構工程師跨部門協作，在溝通與協作上就容易出現問題。

3. 第三個挑戰：模型數量增加，後續監控、訓練的人時成本也提高

最後第三點是模型準確率問題，隨著時間、社會趨勢、人生階段…等變化，顧客的喜好很可能會跟著改變，導致模型的準確率下降，需要重新訓練。雖然重新訓練不像開發需要 1 年，但也得花上 3~6 個月時間，如果同時監控 1,000 個模型，並讓它們都維持在最佳狀態，需付出相當大的時間成本。

AI 成功落地的最後一哩路，將「開發」到「部署」流程自動化！

從上述三大挑戰可以發現，AI 應用的成功關鍵，在於開發後的「部署」維運管理，當模型準確率下滑時，必須能隨即重啟訓練機制，讓它達到「生生流轉」的效益。

陳新銓副總建議企業可以建立 ModelOps 運作流程，以基於 DevOps 的方法，讓「模型分析部門」、「 IT 維運技術部門」和「前端業務部門」之間從開發、部署到營運的流程做到「標準化」與「自動化」，加速 AI 服務上線的時間。

ModelOps 流程納入 CI/CD 概念，使得模型從建構、測試、到發布能夠更加快速，同時藉由 API 串接，讓資料分析、IT 到業務部門得以快速協作。

面對 AI 擴大應用所面臨的困境， ModelOps 流程可做到 CI/CD （持續整合 Continuous Integration /持續部署 Continuous Deployment），使得模型從建構、測試、到發布能夠更加快速、頻繁和可靠。同時，再仰賴「自動化機器學習（AutoML）」建立模型，將成功與失敗的資料進行即時回饋修正，協助模型縮短開發與重新訓練所需的時間。

以上述業者為例，在導入 ModelOps 流程後，他們把「成功預測」與「顧客未接受」等資料回饋到訓練資料庫當中，並讓每個預測模型能自動根據新資料，重新訓練與學習客戶多變的喜好。也因為這樣的自動化機制，讓整體模型更新的時間，由 3~6 個月縮短至每天，且當模型健康度低於一定程度時可以發出警示，隨時以最新的預測模型服務客戶，滿足大規模 AI 模型開發的需求。

如果你開始考慮建立一個 ModelOps 流程，以下是建造的重點三要素：

1. 要素一：能將工作流程自動化與標準化，加快跨部門協作

每次 AI 模型部署上線，都會需要分析部門與 IT 技術部門花費大量時間溝通，以及跨部門主管的審閱，唯有透過 API 串接不同程序，將作業流程自動化，得以有效降低跨部門溝通障礙、加速主管作業時間。

2. 要素二：有 AutoML 功能，讓資料科學技術平民化

面對與日俱增的資料分析與建模需求，如果能讓前端業務單位，也能有基礎資料科學的概念與技能，檢視與回饋資料，不必再經過資料科學家統整處理，就能加快 AI 模型的重新訓練時間，此時具備 AutoML 功能的平台將是解方之一。

3. 要素三：模型監控與管理功能

可將正式營運環境中所有 AI 模型集中在單一平台進行監控與管理，有助於企業掌控現有環境究竟存在哪些模型、準確度是否依舊，避免健康度低的模型降低資料科學價值。

架構在雲上的 ModelOps 流程，讓成本投資最佳化

最後，儘管 ModelOps 流程能將模型開發部署的流程自動化與標準化，加速跨部門的協作，但隨著資料量越來越大，陳新銓副總提醒「開發成本」也必須納入平台選擇的考量。

「企業在評估 ModelOps 流程時，最好還要考慮是否具備隨需求調整運算資源的能力」。換句話說， ModelOps 流程最好能在雲端環境上運行，因為模型在訓練和執行時，可能因為企業營運的淡旺季之分，導致所需求的運算資源量不一樣，而架構在雲端環境裡，才能讓企業根據需求彈性調整，避免旺季不敷使用或淡季閒置浪費的問題，讓 AI 投資的每一塊錢都能花在刀口上。

關於SAS

SAS 於 1976 年於美國創立，是全球首屈一指的分析領域領導者，提供創新的數據分析、人工智慧及資料管理軟體與服務，以協助世界將數據轉換為智能。SAS連續多年獲各大權威調查機構，於資料科學與機器學習相關評比中，列為領導者地位。目前在全球 56 個國家擁有據點，協助超過 82,000 家企業進行最佳商業決策，《財星》雜誌全球 500 強企業中，包含金融、製藥、電信與航太製造等產業，皆 100% 仰賴SAS。

SAS台灣分公司於1989年成立，目前國內超過五百家產業客戶。

更多資訊請參見 SAS台灣官網