生成式 AI

何謂資料科學? 為何資料科學如此重要?

生成式人工智慧會吸收現有資料、從中學習，然後產生具有類似特性的資料。例如，它可以生成文本、圖像；音檔、影片和電腦程式碼。

生成式人工智慧的演變

傳統的 AI 和機器學習系統可識別資料中的模式以進行預測。但是生成式 AI 超越了預測，它會產生新資料，作為其主要輸出。想像一下，在對聊天機器人（例如 ChatGPT）用幾個單詞來描述您的想法後，只需幾秒鐘後，收到完整文本的演講，並從基於文本的描述產生音樂，藝術或圖像，或使用生成式 AI 工具通過對話、來回「提示」來發展業務策略。

這一切從哪裡開始？

與普遍認知相反，生成人工智慧並不是新興的技術，它是根據我們數十年使用的技術構建，包括人工智慧、機器學習和統計方法。三種核心生成人工智慧技術包括數位孿生、大型語言模型和合成數據生成。

雖然生成人工智慧的起源可以追溯到更遠，但我們將從 1966 年開始和一個名為 ELIZA的聊天機器人。

建立 ELIZA 的約瑟夫·韋森鮑姆（Joseph Weizenbaum）設計了它來模仿羅傑里的心理治療師，他們反映患者說的話。 ELIZA 使用模式匹配來實現這項成就。ELIZA 是第一個嘗試圖靈測試的程序之一，這是一款模仿遊戲，測試機器展現像人類一樣智慧行為能力的模擬遊戲。

隨著分析非結構化文本資料的方法進化，1970 年代到 1990 年代的語義網絡、本體學、循環神經網絡等都有增長。從 2000 年到 2015 年，語言建模和文字嵌入程序改進，並且 Google 翻譯器出現。

2014 年，Ian Goodfellow 和同事開發了生成對抗網絡（GAN），設置了兩個神經網絡以彼此競爭（即訓練）。一個網絡生成數據，而另一個網絡試圖確定數據是真實還是假的。Transformer 模型於 2017 年推出。他們包括一個自我注意機制，讓它們在進行預測時，能夠衡量輸入的不同部分，其所代表的重要性。BERT 和 eLMO 等架構也變得流行。

接下來出現基於轉換器的生成式預訓練模型（Generative pre-trained transformer, GPT）模型，第一款 GPT 模型在 2018 年推出。這個模型對來自互聯網的大量文本資料進行了訓練。具有 1.700 萬個參數，它能夠生成與訓練數據在風格和內容上相似的文字。到 2023 年，大型語言 GPT 模型已經發展到可以在困難的考試中出色地表現，例如律師考試。

生成人工智慧技術的迅速崛起

一項顛覆性技術，生成人工智慧的影響已與電力和印刷機等發現進行比較。 ChatGPT 這樣的對話式 AI 模型具有大幅提高生產力的潛力，在商業和日常用戶中受歡迎，並引發了對數據隱私、人工智慧偏見、道德和準確性的擔憂。到 2030 年，全球生成人工智慧市場預計將增長至 110,8 億美元。

政策制定者使用數字攣生技術，來確定新的稅收措施如何影響公民

在實施法規之前，確定潛在稅務變化的「獲勝者」和「失敗者」對比利時的聯邦公共服務財務至關重要。當 FPS Finance 需要快速準確的答案時，會使用 Aurora，這是處理國家所得稅的計算機數位孿生，模擬未來的債務改革。更好的模擬意味著更明智的政策制定者，並且更好的結果。

當今世界中的生成人工智慧

擁抱值得信賴的人工智慧

消費者對以負責任和道德使用 AI 的組織更加信任。了解為什麼採用以人為中心、包容性和責任性而設計的值得信賴的 AI 系統至關重要。

生成人工智慧的好處和風險

想知道生成式 AI 如何運作，以及在使用之前需要考慮什麼？了解技術的介紹，了解採用生成人工智慧工具的框架，並考慮是否以及如何採用該技術。

探索人工智慧在教育中的使用

學生使用生成人工智慧來創建內容和圖形、編寫代碼、建構行動應用程式和解決問題。雖然生成人工智慧可以很有趣且有用，但我們需要人類發現和糾正錯誤的答案或「幻覺」。

閱讀部落格文章

不真實的現實：生成人工智慧的狀態

產生的影像爆炸能否創造出一種不現實，使人類陷入失敗？了解「deepfake」一詞的真正含義，了解 deepfake 如何用途，並了解新興技術如何幫助偵測和識別產生的媒體。

流行的 AI 工具及其使用方式

新聞中有許多流行的 AI 工具，但您是否知道市場上有 1,500 多個與生成人工智慧相關的工具？

了解當今最常見的工具，以及它們如何在各行業中應用。

訪問我們的儀表板以了解更多信息

Future AI Tools pie chart

誰在使用生成人工智慧？

生成式 AI 涵蓋全球各種產業和業務功能。隨著它的普及日益增加，該技術同時引發了個人、企業和政府機構的興奮和恐懼。讓我們來看看當今某些行業如何使用生成人工智慧。

銀行

銀行和其他金融服務組織可以使用生成人工智慧來改善決策、降低風險並提高客戶滿意度。當生成式 AI 模型被訓練以學習模式和發現異常時，它們可以實時標記可疑活動。通過創建模擬資料用於壓力測試和場景分析，生成人工智慧可以幫助銀行預測未來的金融風險並防止損失。虛擬助理（例如聊天機器人）可以 24/7 提供人類型的客戶服務。

更多銀行相關解決方案

保險

保險公司可以使用合成數據進行定價、儲備和精算模型。例如，保險公司可以使用類似歷史保單和索償信息的合成資料，來訓練和測試定價模型，幫助他們評估不同的定價策略的表現，而不需使用客戶的敏感個人信息。合成數據還可以幫助評估低概率事件，例如地震或颶風。

更多保險解決方案

生命科學

生命科學中生成人工智慧有許多有前途的應用。在藥物發現中，它可以加快識別新潛在藥物候選的過程。在臨床研究中，生成人工智慧有潛力從複雜資料中取得資訊，以創建合成數據和數位孿生，這些數字是個人代表的（保護隱私的一種方法）。其他應用包括識別安全信號或尋找現有治療的新用途。

更多生命科學解決方案

製造業

製造商可以使用生成式 AI 來協助最佳化營運、維護、供應鏈，甚至能源使用量，以降低成本、更高的生產力和更大的可持續性。生成式 AI 模型將從現有效能、維護和感測器資料、預測、外部因素等中學習，然後提供建議的改進策略。

更多製造解決方案

公共部門

自然語言處理 (NLP) 和聊天機器人可以幫助公共部門工作人員更快地回應公民需求，例如改善災區域的緊急服務，或協助服務不足的社區。生成式 AI 技術（例如預測模型和模擬）可以分析大量的歷史數據、公眾情緒和其他指標，然後產生建議以減少擁堵、改善基礎架構規劃和微調資源配置。

更多政府部門相關解決方案

零售業

在零售中，成功需要了解購物者需求，設計吸引客戶的購物體驗，以及確保可靠穩定的供應鏈執行。例如，一些零售商正在使用具有數位孿生技術的生成人工智慧，讓計劃者一覽潛在情況，例如供應鏈中斷或資源限制。通過複雜的 AI 模擬和數據模型實現了這一目標。

更多零售相關解決方案

生成人工智慧的結果在其核心上是我們人類的反映。 ...消費者必須在與對話式 AI 互動時繼續應用批判性思維，並避免自動化偏見（認為技術系統比人類更準確和真實）。 Reggie Townsend VP of the SAS Data Ethics Practice

閱讀客戶案例

生成人工智慧模型的注意事項

模型運行很昂貴，需要大量的運算能力和資料。在實施生成人工智慧模型之前，您應仔細評估投資報酬率。也有道德考慮因素。資料是從哪裡來的 — 以及誰擁有它？它值得信賴嗎？您準確了解模型是如何建構的嗎？

生成人工智慧如何運作

生成人工智慧技術的一些流行範例包括 DALL-E，這是一種從文字輸入創建圖像的圖像生成系統，ChatGPT（文本生成系統），Google Bard 聊天機器人以及微軟的人工智慧支持的 Bing 搜索引擎。另一個例子是使用生成式 AI 來創建系統、業務流程甚至一個人的數位表示，例如對某人目前和未來的健康狀況的動態表示。

產生技術有三種主要類型（數位孿生，大語言模型和合成數據生成）。

數位孿生

數位孿生是從歷史資料、真實世界、合成或系統回饋循環的資料構建的真實物件或系統的虛擬模型。它們採用軟體、資料以及產生和非產生模型集合構建，這些模型與實體系統（例如實體、流程、系統或產品）進行同步。數位孿生用於測試、優化、監控或預測。例如，供應鏈的數位孿生可以幫助公司預測何時可能會發生短缺。

大型語言模型

大語言模型（LLM）是一種強大的機器學習模型，可以在自然語言中處理和識別複雜的關係，生成文本並與用戶進行對話。這些模型依賴於深度學習和神經網絡等技術。 LLM 被定義為自然語言處理 AI 模型，對大量文本數據進行培訓。產生的模型最多具有數十億個參數。 OpenAI 的聊天 GPT 是流行的大語言模型的一個例子。

產生合成資料

合成資料產生是指由演算法或規則產生的隨選、自助式或自動化資料，而不是從現實世界收集的資料。通常會產生合成資料，以滿足缺乏真實資料的條件。它會重現與訓練的真實世界資料相同的統計屬性、概率、模式和特徵。許多組織使用合成資料來保護隱私，或克服收集和使用真實資料的其他挑戰，例如成本、耗時的資料準備流程或偏見。

許多其他技術啟用和支持生成人工智慧：

一個演算法是一個旨在完成特定任務或解決問題的逐步指示列表。許多計算機程序是以計算機可以理解的方式編寫的一系列算法。當算法開始補充或取代人類決策時，我們必須探討其公平性，並要求對它們的開發方式進行透明度。

人工智慧使機器可以從經驗中學習，適應新的輸入並執行類似人類的任務。人工智慧通常很依賴於深度學習和 NLP。通過這種技術，可以訓練計算機以通過處理大量資料和識別模式來完成特定任務。

深度學習是機器學習的一個子集，它訓練計算機執行類似人類的任務，例如識別語音、識別圖像和做出預測。它提高了使用資料分類，識別，檢測和描述的能力。 GAN 和變動自動編碼器（VAE）等深度學習模型在大量資料集上進行培訓，並可以生成高品質的資料。更新的技術，例如 StyleGans 和transformer模型，可以創建逼真的影片、圖像、文本和語音。

機器學習是一種數據分析方法，可建構自動化分析模型。它是一個人工智慧的分支，它訓練機器如何學習。機器學習基於系統可以從數據中學習，識別模式並在最小的人工干預下做出決策的理念。

自然語言處理是人工智慧的一個分支，可幫助電腦了解、解釋和操縱人類語言。NLP 從許多學科，包括計算機科學和計算語言學，以填補人類溝通和計算機理解之間的差距。

神經網絡是具有互聯節點的計算系統，工作類似人類大腦中的神經元。神經網絡使用演算法來識別原始數據中的隱藏模式和關聯，將其集成並分類，並隨著時間的推移持續學習和改進。

強化學習是一種機器學習模式，是當算法通過試驗和錯誤，發現哪些動作產生最大的獎勵時，它逐漸學習最佳（或最有獎勵）的政策或目標，也就是說它的反饋機制依賴獎勵信號。它經常用於機器人，遊戲和導航。

微調模型的 5 個步驟

生成式人工智慧依賴許多不同的人工智慧演算法和技術，來產生具有類似機率分佈和特徵的資料，這些資料與其學習來源的資料相似。不是從頭開始建構，您可以按照以下五個步驟微調預先訓練的基礎大語言模型。

1.定義任務

選擇合適的預先訓練的大型語言模型，並清楚地定義要進行微調的任務。這可能是文本分類（即實體識別），文本生成等。

2.準備資料

收集並預先處理特定任務的資料 — 用於標籤、格式化和標記化等任務。創建訓練和驗證（並可能測試）資料集。

3.微調

使用訓練資料集更新模型的重量，根據您的任務特定資料來訓練修改的模型。監控模型在驗證集上的效能，以防止過度配合。

4.評估和測試

訓練後，在驗證集上評估您的微調模型，並根據結果進行必要的調整。滿意後，請在測試組上測試模型以獲得公正的性能估計。

5.部署

當您對模型的效能有信心時，請將其部署為其預期用途。這可能涉及將模型整合到應用程式、網站或其他平台中。

什麼是合成資料？

資料對於建立模型至關重要，但高品質的資料可能難以取得、存在偏誤或者成本高昂。解決這些問題的一種方法是使用合成資料，這是人工創造的資料（通常使用演算法生成）。如果我們使用真實世界的資料集來產生額外的合成資料，並具備建立良好機器學習模型的適當特性，我們可以為幾乎任何目的訓練模型，比如研究罕見疾病。。

後續步驟

了解 AI 解決方案如何增強人類的創造力和努力。

SAS 人工智慧解決方案

AI 和分析平台

使用 SAS ^® Viya ^®，沒有太多資訊。了解從十億個資料點凝聚成一個觀點的最快捷方式。

了解更多並免費試用

推薦閱讀