生成式 AI
何謂資料科學? 為何資料科學如此重要?
生成式人工智慧會吸收現有資料、從中學習,然後產生具有類似特性的資料。 例如,它可以生成文本、圖像;音檔、影片和電腦程式碼。
生成式人工智慧的演變
傳統的 AI 和機器學習系統可識別資料中的模式以進行預測。 但是生成式 AI 超越了預測,它會產生新資料,作為其主要輸出。想像一下,在對聊天機器人(例如 ChatGPT)用幾個單詞來描述您的想法後,只需幾秒鐘後,收到完整文本的演講, 並從基於文本的描述產生音樂,藝術或圖像, 或使用生成式 AI 工具通過對話、來回「提示」來發展業務策略。
這一切從哪裡開始?
與普遍認知相反,生成人工智慧並不是新興的技術,它是根據我們數十年使用的技術構建,包括人工智慧、機器學習和統計方法。 三種核心生成人工智慧技術包括數位孿生、大型語言模型和合成數據生成。
雖然生成人工智慧的起源可以追溯到更遠,但我們將從 1966 年開始和一個名為 ELIZA的 聊天機器人。
建立 ELIZA 的約瑟夫·韋森鮑姆(Joseph Weizenbaum)設計了它來模仿羅傑里的心理治療師,他們反映患者說的話。 ELIZA 使用模式匹配來實現這項成就。ELIZA 是第一個嘗試圖靈測試的程序之一,這是一款模仿遊戲,測試機器展現像人類一樣智慧行為能力的模擬遊戲。
隨著分析非結構化文本資料的方法進化,1970 年代到 1990 年代的語義網絡、本體學、循環神經網絡等都有增長。 從 2000 年到 2015 年,語言建模和文字嵌入程序改進,並且 Google 翻譯器出現。
2014 年,Ian Goodfellow 和同事開發了生成對抗網絡(GAN),設置了兩個神經網絡以彼此競爭(即訓練)。 一個網絡生成數據,而另一個網絡試圖確定數據是真實還是假的。Transformer 模型於 2017 年推出。 他們包括一個自我注意機制,讓它們在進行預測時,能夠衡量輸入的不同部分,其所代表的重要性。BERT 和 eLMO 等架構也變得流行。
接下來出現基於轉換器的生成式預訓練模型(Generative pre-trained transformer, GPT)模型,第一款 GPT 模型在 2018 年推出。 這個模型對來自互聯網的大量文本資料進行了訓練。 具有 1.700 萬個參數,它能夠生成與訓練數據在風格和內容上相似的文字。到 2023 年,大型語言 GPT 模型已經發展到可以在困難的考試中出色地表現,例如律師考試。
生成人工智慧技術的迅速崛起
一項顛覆性技術,生成人工智慧的影響已與電力和印刷機等發現進行比較。 ChatGPT 這樣的對話式 AI 模型具有大幅提高生產力的潛力,在商業和日常用戶中受歡迎,並引發了對數據隱私、人工智慧偏見、道德和準確性的擔憂。 到 2030 年,全球生成人工智慧市場預計將增長至 110,8 億美元。
誰在使用生成人工智慧?
生成式 AI 涵蓋全球各種產業和業務功能。 隨著它的普及日益增加,該技術同時引發了個人、企業和政府機構的興奮和恐懼。 讓我們來看看當今某些行業如何使用生成人工智慧。
生成人工智慧的結果在其核心上是我們人類的反映。 ...消費者必須在與對話式 AI 互動時繼續應用批判性思維,並避免自動化偏見(認為技術系統比人類更準確和真實)。 Reggie Townsend VP of the SAS Data Ethics Practice
生成人工智慧模型的注意事項
模型運行很昂貴,需要大量的運算能力和資料。 在實施生成人工智慧模型之前,您應仔細評估投資報酬率。 也有道德考慮因素。 資料是從哪裡來的 — 以及誰擁有它? 它值得信賴嗎? 您準確了解模型是如何建構的嗎?
生成人工智慧如何運作
生成人工智慧技術的一些流行範例包括 DALL-E,這是一種從文字輸入創建圖像的圖像生成系統,ChatGPT(文本生成系統),Google Bard 聊天機器人以及微軟的人工智慧支持的 Bing 搜索引擎。 另一個例子是使用生成式 AI 來創建系統、業務流程甚至一個人的數位表示,例如對某人目前和未來的健康狀況的動態表示。
產生技術有三種主要類型(數位孿生,大語言模型和合成數據生成)。
數位孿生
數位孿生是從歷史資料、真實世界、合成或系統回饋循環的資料構建的真實物件或系統的虛擬模型。 它們採用軟體、資料以及產生和非產生模型集合構建,這些模型與實體系統(例如實體、流程、系統或產品)進行同步。 數位孿生用於測試、優化、監控或預測。 例如,供應鏈的數位孿生可以幫助公司預測何時可能會發生短缺。
大型語言模型
大語言模型(LLM)是一種強大的機器學習模型,可以在自然語言中處理和識別複雜的關係,生成文本並與用戶進行對話。 這些模型依賴於深度學習和神經網絡等技術。 LLM 被定義為自然語言處理 AI 模型,對大量文本數據進行培訓。 產生的模型最多具有數十億個參數。 OpenAI 的聊天 GPT 是流行的大語言模型的一個例子。
產生合成資料
合成資料產生是指由演算法或規則產生的隨選、自助式或自動化資料,而不是從現實世界收集的資料。 通常會產生合成資料,以滿足缺乏真實資料的條件。 它會重現與訓練的真實世界資料相同的統計屬性、概率、模式和特徵。 許多組織使用合成資料來保護隱私,或克服收集和使用真實資料的其他挑戰,例如成本、耗時的資料準備流程或偏見。
許多其他技術啟用和支持生成人工智慧:
一個演算法是一個旨在完成特定任務或解決問題的逐步指示列表。許多計算機程序是以計算機可以理解的方式編寫的一系列算法。 當算法開始補充或取代人類決策時,我們必須探討其公平性,並要求對它們的開發方式進行透明度。
人工智慧使機器可以從經驗中學習,適應新的輸入並執行類似人類的任務。 人工智慧通常很依賴於深度學習和 NLP。 通過這種技術,可以訓練計算機以通過處理大量資料和識別模式來完成特定任務。
深度學習 是機器學習的一個子集,它訓練計算機執行類似人類的任務,例如識別語音、識別圖像和做出預測。它提高了使用資料分類,識別,檢測和描述的能力。 GAN 和變動自動編碼器(VAE)等深度學習模型在大量資料集上進行培訓,並可以生成高品質的資料。 更新的技術,例如 StyleGans 和transformer模型,可以創建逼真的影片、圖像、文本和語音。
機器學習 是一種數據分析方法,可建構自動化分析模型。它是一個人工智慧的分支,它訓練機器如何學習。 機器學習基於系統可以從數據中學習,識別模式並在最小的人工干預下做出決策的理念。
自然語言處理 是人工智慧的一個分支,可幫助電腦了解、解釋和操縱人類語言。NLP 從許多學科,包括計算機科學和計算語言學,以填補人類溝通和計算機理解之間的差距。
神經網絡 是具有互聯節點的計算系統,工作類似人類大腦中的神經元。神經網絡使用演算法來識別原始數據中的隱藏模式和關聯,將其集成並分類,並隨著時間的推移持續學習和改進。
強化學習是一種機器學習模式,是當算法通過試驗和錯誤,發現哪些動作產生最大的獎勵時, 它逐漸學習最佳(或最有獎勵)的政策或目標,也就是說它的反饋機制依賴獎勵信號。 它經常用於機器人,遊戲和導航。
微調模型的 5 個步驟
生成式人工智慧依賴許多不同的人工智慧演算法和技術,來產生具有類似機率分佈和特徵的資料,這些資料與其學習來源的資料相似。 不是從頭開始建構,您可以按照以下五個步驟微調預先訓練的基礎大語言模型。
1.定義任務
選擇合適的預先訓練的大型語言模型,並清楚地定義要進行微調的任務。這可能是文本分類(即實體識別),文本生成等。
2.準備資料
收集並預先處理特定任務的資料 — 用於標籤、格式化和標記化等任務。 創建訓練和驗證(並可能測試)資料集。
3.微調
使用訓練資料集更新模型的重量,根據您的任務特定資料來訓練修改的模型。監控模型在驗證集上的效能,以防止過度配合。
4.評估和測試
訓練後,在驗證集上評估您的微調模型,並根據結果進行必要的調整。滿意後,請在測試組上測試模型以獲得公正的性能估計。
5.部署
當您對模型的效能有信心時,請將其部署為其預期用途。 這可能涉及將模型整合到應用程式、網站或其他平台中。
AI 和分析平台
使用 SAS ® Viya ®,沒有太多資訊。 了解從十億個資料點凝聚成一個觀點的最快捷方式。
推薦閱讀
- 文章 Analytics leads to lifesaving cancer therapiesA long-shot treatment offers hope to 10-year-old Harrison after he learns the DNA profile of his cancer is resistant to chemo. Find out how data and analytics play a role in cancer research and cancer treatments that are saving lives. 2023年1月23日
- 研究 Nerd in the herd: protecting elephants with data scienceA passionate SAS data scientist uses machine learning to detect tuberculosis in elephants. Find out how her research can help prevent the spread of the disease. 2018年4月7日
- 文章 迎向開放銀行第三階段,佈局「智慧中台」實現場景金融打造消費者無縫接軌的體驗,讓金融業迎來開放銀行的潮流,紛紛佈局未來的開放銀行第三階段,透過智慧中台,能協助金融業實現場景金融。 2018年3月27日
- 文章 趨勢觀察/保險業接軌IFRS17 把握數位轉型契機國際會計準則IFRS17即將於2023年生效,台灣預計於2026年上路,儘管距今仍約有五年的準備時間,但由於涉及的準則要求、財報的大幅變動,以及細緻的資料準備,造就保險公司不僅需要以「分組、模組化」方式管理保險合約,更要在有限的時間內實現每月的報告內容。 2018年3月27日