生成式 AI

何謂資料科學? 為何資料科學如此重要?

生成式人工智慧會吸收現有資料、從中學習,然後產生具有類似特性的資料。 例如,它可以生成文本、圖像;音檔、影片和電腦程式碼。

生成式人工智慧的演變

傳統的 AI 和機器學習系統可識別資料中的模式以進行預測。 但是生成式 AI 超越了預測,它會產生新資料,作為其主要輸出。想像一下,在對聊天機器人(例如 ChatGPT)用幾個單詞來描述您的想法後,只需幾秒鐘後,收到完整文本的演講, 並從基於文本的描述產生音樂,藝術或圖像, 或使用生成式 AI 工具通過對話、來回「提示」來發展業務策略。

這一切從哪裡開始?

與普遍認知相反,生成人工智慧並不是新興的技術,它是根據我們數十年使用的技術構建,包括人工智慧、機器學習和統計方法。 三種核心生成人工智慧技術包括數位孿生、大型語言模型和合成數據生成。

雖然生成人工智慧的起源可以追溯到更遠,但我們將從 1966 年開始和一個名為 ELIZA的 聊天機器人。

建立 ELIZA 的約瑟夫·韋森鮑姆(Joseph Weizenbaum)設計了它來模仿羅傑里的心理治療師,他們反映患者說的話。 ELIZA 使用模式匹配來實現這項成就。ELIZA 是第一個嘗試圖靈測試的程序之一,這是一款模仿遊戲,測試機器展現像人類一樣智慧行為能力的模擬遊戲。

隨著分析非結構化文本資料的方法進化,1970 年代到 1990 年代的語義網絡、本體學、循環神經網絡等都有增長。 從 2000 年到 2015 年,語言建模和文字嵌入程序改進,並且 Google 翻譯器出現。

2014 年,Ian Goodfellow 和同事開發了生成對抗網絡(GAN),設置了兩個神經網絡以彼此競爭(即訓練)。 一個網絡生成數據,而另一個網絡試圖確定數據是真實還是假的。Transformer 模型於 2017 年推出。 他們包括一個自我注意機制,讓它們在進行預測時,能夠衡量輸入的不同部分,其所代表的重要性。BERT 和 eLMO 等架構也變得流行。

接下來出現基於轉換器的生成式預訓練模型(Generative pre-trained transformer, GPT)模型,第一款 GPT 模型在 2018 年推出。 這個模型對來自互聯網的大量文本資料進行了訓練。 具有 1.700 萬個參數,它能夠生成與訓練數據在風格和內容上相似的文字。到 2023 年,大型語言 GPT 模型已經發展到可以在困難的考試中出色地表現,例如律師考試。

生成人工智慧技術的迅速崛起

一項顛覆性技術,生成人工智慧的影響已與電力和印刷機等發現進行比較。 ChatGPT 這樣的對話式 AI 模型具有大幅提高生產力的潛力,在商業和日常用戶中受歡迎,並引發了對數據隱私、人工智慧偏見、道德和準確性的擔憂。 到 2030 年,全球生成人工智慧市場預計將增長至 110,8 億美元。

政策制定者使用數字攣生技術,來確定新的稅收措施如何影響公民

在實施法規之前,確定潛在稅務變化的「獲勝者」和「失敗者」對比利時的聯邦公共服務財務至關重要。 當 FPS Finance 需要快速準確的答案時,會使用 Aurora,這是處理國家所得稅的計算機數位孿生,模擬未來的債務改革。 更好的模擬意味著更明智的政策制定者,並且更好的結果。

當今世界中的生成人工智慧

擁抱值得信賴的人工智慧

消費者對以負責任和道德使用 AI 的組織更加信任。 了解為什麼採用以人為中心、包容性和責任性而設計的值得信賴的 AI 系統至關重要。

生成人工智慧的好處和風險

想知道生成式 AI 如何運作,以及在使用之前需要考慮什麼? 了解技術的介紹,了解採用生成人工智慧工具的框架,並考慮是否以及如何採用該技術。

探索人工智慧在教育中的使用

學生使用生成人工智慧來創建內容和圖形、編寫代碼、建構行動應用程式和解決問題。 雖然生成人工智慧可以很有趣且有用,但我們需要人類發現和糾正錯誤的答案或「幻覺」。

不真實的現實:生成人工智慧的狀態

產生的影像爆炸能否創造出一種不現實,使人類陷入失敗? 了解「deepfake」一詞的真正含義,了解 deepfake 如何用途,並了解新興技術如何幫助偵測和識別產生的媒體。

流行的 AI 工具及其使用方式

新聞中有許多流行的 AI 工具,但您是否知道市場上有 1,500 多個與生成人工智慧相關的工具?

了解當今最常見的工具,以及它們如何在各行業中應用。

誰在使用生成人工智慧?

生成式 AI 涵蓋全球各種產業和業務功能。 隨著它的普及日益增加,該技術同時引發了個人、企業和政府機構的興奮和恐懼。 讓我們來看看當今某些行業如何使用生成人工智慧。

銀行

銀行和其他金融服務組織可以使用生成人工智慧來改善決策、降低風險並提高客戶滿意度。 當生成式 AI 模型被訓練以學習模式和發現異常時,它們可以實時標記可疑活動。 通過創建模擬資料用於壓力測試和場景分析,生成人工智慧可以幫助銀行預測未來的金融風險並防止損失。 虛擬助理(例如聊天機器人)可以 24/7 提供人類型的客戶服務。

保險

保險公司可以使用合成數據進行定價、儲備和精算模型。 例如,保險公司可以使用類似歷史保單和索償信息的合成資料,來訓練和測試定價模型,幫助他們評估不同的定價策略的表現,而不需使用客戶的敏感個人信息。 合成數據還可以幫助評估低概率事件,例如地震或颶風。

生命科學

生命科學中生成人工智慧有許多有前途的應用。 在藥物發現中,它可以加快識別新潛在藥物候選的過程。 在臨床研究中,生成人工智慧有潛力從複雜資料中取得資訊,以創建合成數據和數位孿生,這些數字是個人代表的(保護隱私的一種方法)。 其他應用包括識別安全信號或尋找現有治療的新用途。

製造業

製造商可以使用生成式 AI 來協助最佳化營運、維護、供應鏈,甚至能源使用量,以降低成本、更高的生產力和更大的可持續性。 生成式 AI 模型將從現有效能、維護和感測器資料、預測、外部因素等中學習,然後提供建議的改進策略。

公共部門

自然語言處理 (NLP) 和聊天機器人可以幫助公共部門工作人員更快地回應公民需求,例如改善災區域的緊急服務,或協助服務不足的社區。 生成式 AI 技術(例如預測模型和模擬)可以分析大量的歷史數據、公眾情緒和其他指標,然後產生建議以減少擁堵、改善基礎架構規劃和微調資源配置。

零售業

在零售中,成功需要了解購物者需求,設計吸引客戶的購物體驗,以及確保可靠穩定的供應鏈執行。 例如,一些零售商正在使用具有數位孿生技術的生成人工智慧,讓計劃者一覽潛在情況,例如供應鏈中斷或資源限制。 通過複雜的 AI 模擬和數據模型實現了這一目標。

生成人工智慧的結果在其核心上是我們人類的反映。 ...消費者必須在與對話式 AI 互動時繼續應用批判性思維,並避免自動化偏見(認為技術系統比人類更準確和真實)。 Reggie Townsend VP of the SAS Data Ethics Practice

生成人工智慧模型的注意事項

模型運行很昂貴,需要大量的運算能力和資料。 在實施生成人工智慧模型之前,您應仔細評估投資報酬率。 也有道德考慮因素。 資料是從哪裡來的 — 以及誰擁有它? 它值得信賴嗎? 您準確了解模型是如何建構的嗎?

生成人工智慧如何運作

生成人工智慧技術的一些流行範例包括 DALL-E,這是一種從文字輸入創建圖像的圖像生成系統,ChatGPT(文本生成系統),Google Bard 聊天機器人以及微軟的人工智慧支持的 Bing 搜索引擎。 另一個例子是使用生成式 AI 來創建系統、業務流程甚至一個人的數位表示,例如對某人目前和未來的健康狀況的動態表示。

產生技術有三種主要類型(數位孿生,大語言模型和合成數據生成)。

數位孿生

數位孿生是從歷史資料、真實世界、合成或系統回饋循環的資料構建的真實物件或系統的虛擬模型。 它們採用軟體、資料以及產生和非產生模型集合構建,這些模型與實體系統(例如實體、流程、系統或產品)進行同步。 數位孿生用於測試、優化、監控或預測。 例如,供應鏈的數位孿生可以幫助公司預測何時可能會發生短缺。

大型語言模型

大語言模型(LLM)是一種強大的機器學習模型,可以在自然語言中處理和識別複雜的關係,生成文本並與用戶進行對話。 這些模型依賴於深度學習和神經網絡等技術。 LLM 被定義為自然語言處理 AI 模型,對大量文本數據進行培訓。 產生的模型最多具有數十億個參數。 OpenAI 的聊天 GPT 是流行的大語言模型的一個例子。

產生合成資料

合成資料產生是指由演算法或規則產生的隨選、自助式或自動化資料,而不是從現實世界收集的資料。 通常會產生合成資料,以滿足缺乏真實資料的條件。 它會重現與訓練的真實世界資料相同的統計屬性、概率、模式和特徵。 許多組織使用合成資料來保護隱私,或克服收集和使用真實資料的其他挑戰,例如成本、耗時的資料準備流程或偏見。

許多其他技術啟用和支持生成人工智慧:

一個演算法是一個旨在完成特定任務或解決問題的逐步指示列表。許多計算機程序是以計算機可以理解的方式編寫的一系列算法。 當算法開始補充或取代人類決策時,我們必須探討其公平性,並要求對它們的開發方式進行透明度。

人工智慧使機器可以從經驗中學習,適應新的輸入並執行類似人類的任務。 人工智慧通常很依賴於深度學習和 NLP。 通過這種技術,可以訓練計算機以通過處理大量資料和識別模式來完成特定任務。

深度學習 是機器學習的一個子集,它訓練計算機執行類似人類的任務,例如識別語音、識別圖像和做出預測。它提高了使用資料分類,識別,檢測和描述的能力。 GAN 和變動自動編碼器(VAE)等深度學習模型在大量資料集上進行培訓,並可以生成高品質的資料。 更新的技術,例如 StyleGans 和transformer模型,可以創建逼真的影片、圖像、文本和語音。

機器學習 是一種數據分析方法,可建構自動化分析模型。它是一個人工智慧的分支,它訓練機器如何學習。 機器學習基於系統可以從數據中學習,識別模式並在最小的人工干預下做出決策的理念。

自然語言處理 是人工智慧的一個分支,可幫助電腦了解、解釋和操縱人類語言。NLP 從許多學科,包括計算機科學和計算語言學,以填補人類溝通和計算機理解之間的差距。

神經網絡 是具有互聯節點的計算系統,工作類似人類大腦中的神經元。神經網絡使用演算法來識別原始數據中的隱藏模式和關聯,將其集成並分類,並隨著時間的推移持續學習和改進。

強化學習是一種機器學習模式,是當算法通過試驗和錯誤,發現哪些動作產生最大的獎勵時, 它逐漸學習最佳(或最有獎勵)的政策或目標,也就是說它的反饋機制依賴獎勵信號。 它經常用於機器人,遊戲和導航。

微調模型的 5 個步驟

生成式人工智慧依賴許多不同的人工智慧演算法和技術,來產生具有類似機率分佈和特徵的資料,這些資料與其學習來源的資料相似。 不是從頭開始建構,您可以按照以下五個步驟微調預先訓練的基礎大語言模型。

1.定義任務

選擇合適的預先訓練的大型語言模型,並清楚地定義要進行微調的任務。這可能是文本分類(即實體識別),文本生成等。

2.準備資料

收集並預先處理特定任務的資料 — 用於標籤、格式化和標記化等任務。 創建訓練和驗證(並可能測試)資料集。

3.微調

使用訓練資料集更新模型的重量,根據您的任務特定資料來訓練修改的模型。監控模型在驗證集上的效能,以防止過度配合。

4.評估和測試

訓練後,在驗證集上評估您的微調模型,並根據結果進行必要的調整。滿意後,請在測試組上測試模型以獲得公正的性能估計。

5.部署

當您對模型的效能有信心時,請將其部署為其預期用途。 這可能涉及將模型整合到應用程式、網站或其他平台中。

什麼是合成資料?

資料對於建立模型至關重要,但高品質的資料可能難以取得、存在偏誤或者成本高昂。 解決這些問題的一種方法是使用合成資料,這是人工創造的資料(通常使用演算法生成)。 如果我們使用真實世界的資料集來產生額外的合成資料,並具備建立良好機器學習模型的適當特性,我們可以為幾乎任何目的訓練模型,比如研究罕見疾病。。

後續步驟

了解 AI 解決方案如何增強人類的創造力和努力。

與 SAS 取得聯絡,瞭解我們能在哪些方面為您效勞。