生成式 AI
何謂資料科學? 為何資料科學如此重要?
生成式人工智慧會吸收現有資料、從中學習,然後產生具有類似特性的資料。 例如,它可以生成文本、圖像;音檔、影片和電腦程式碼。
生成式人工智慧的演變
傳統的 AI 和機器學習系統可識別資料中的模式以進行預測。 但是生成式 AI 超越了預測,它會產生新資料,作為其主要輸出。想像一下,在對聊天機器人(例如 ChatGPT)用幾個單詞來描述您的想法後,只需幾秒鐘後,收到完整文本的演講, 並從基於文本的描述產生音樂,藝術或圖像, 或使用生成式 AI 工具通過對話、來回「提示」來發展業務策略。
這一切從哪裡開始?
與普遍認知相反,生成人工智慧並不是新興的技術,它是根據我們數十年使用的技術構建,包括人工智慧、機器學習和統計方法。 三種核心生成人工智慧技術包括數位孿生、大型語言模型和合成數據生成。
雖然生成人工智慧的起源可以追溯到更遠,但我們將從 1966 年開始和一個名為 ELIZA的 聊天機器人。
建立 ELIZA 的約瑟夫·韋森鮑姆(Joseph Weizenbaum)設計了它來模仿羅傑里的心理治療師,他們反映患者說的話。 ELIZA 使用模式匹配來實現這項成就。ELIZA 是第一個嘗試圖靈測試的程序之一,這是一款模仿遊戲,測試機器展現像人類一樣智慧行為能力的模擬遊戲。
隨著分析非結構化文本資料的方法進化,1970 年代到 1990 年代的語義網絡、本體學、循環神經網絡等都有增長。 從 2000 年到 2015 年,語言建模和文字嵌入程序改進,並且 Google 翻譯器出現。
2014 年,Ian Goodfellow 和同事開發了生成對抗網絡(GAN),設置了兩個神經網絡以彼此競爭(即訓練)。 一個網絡生成數據,而另一個網絡試圖確定數據是真實還是假的。Transformer 模型於 2017 年推出。 他們包括一個自我注意機制,讓它們在進行預測時,能夠衡量輸入的不同部分,其所代表的重要性。BERT 和 eLMO 等架構也變得流行。
接下來出現基於轉換器的生成式預訓練模型(Generative pre-trained transformer, GPT)模型,第一款 GPT 模型在 2018 年推出。 這個模型對來自互聯網的大量文本資料進行了訓練。 具有 1.700 萬個參數,它能夠生成與訓練數據在風格和內容上相似的文字。到 2023 年,大型語言 GPT 模型已經發展到可以在困難的考試中出色地表現,例如律師考試。
生成人工智慧技術的迅速崛起
一項顛覆性技術,生成人工智慧的影響已與電力和印刷機等發現進行比較。 ChatGPT 這樣的對話式 AI 模型具有大幅提高生產力的潛力,在商業和日常用戶中受歡迎,並引發了對數據隱私、人工智慧偏見、道德和準確性的擔憂。 到 2030 年,全球生成人工智慧市場預計將增長至 110,8 億美元。
誰在使用生成人工智慧?
生成式 AI 涵蓋全球各種產業和業務功能。 隨著它的普及日益增加,該技術同時引發了個人、企業和政府機構的興奮和恐懼。 讓我們來看看當今某些行業如何使用生成人工智慧。
生成人工智慧的結果在其核心上是我們人類的反映。 ...消費者必須在與對話式 AI 互動時繼續應用批判性思維,並避免自動化偏見(認為技術系統比人類更準確和真實)。 Reggie Townsend VP of the SAS Data Ethics Practice
生成人工智慧模型的注意事項
模型運行很昂貴,需要大量的運算能力和資料。 在實施生成人工智慧模型之前,您應仔細評估投資報酬率。 也有道德考慮因素。 資料是從哪裡來的 — 以及誰擁有它? 它值得信賴嗎? 您準確了解模型是如何建構的嗎?
生成人工智慧如何運作
生成人工智慧技術的一些流行範例包括 DALL-E,這是一種從文字輸入創建圖像的圖像生成系統,ChatGPT(文本生成系統),Google Bard 聊天機器人以及微軟的人工智慧支持的 Bing 搜索引擎。 另一個例子是使用生成式 AI 來創建系統、業務流程甚至一個人的數位表示,例如對某人目前和未來的健康狀況的動態表示。
產生技術有三種主要類型(數位孿生,大語言模型和合成數據生成)。
數位孿生
數位孿生是從歷史資料、真實世界、合成或系統回饋循環的資料構建的真實物件或系統的虛擬模型。 它們採用軟體、資料以及產生和非產生模型集合構建,這些模型與實體系統(例如實體、流程、系統或產品)進行同步。 數位孿生用於測試、優化、監控或預測。 例如,供應鏈的數位孿生可以幫助公司預測何時可能會發生短缺。
大型語言模型
大語言模型(LLM)是一種強大的機器學習模型,可以在自然語言中處理和識別複雜的關係,生成文本並與用戶進行對話。 這些模型依賴於深度學習和神經網絡等技術。 LLM 被定義為自然語言處理 AI 模型,對大量文本數據進行培訓。 產生的模型最多具有數十億個參數。 OpenAI 的聊天 GPT 是流行的大語言模型的一個例子。
產生合成資料
合成資料產生是指由演算法或規則產生的隨選、自助式或自動化資料,而不是從現實世界收集的資料。 通常會產生合成資料,以滿足缺乏真實資料的條件。 它會重現與訓練的真實世界資料相同的統計屬性、概率、模式和特徵。 許多組織使用合成資料來保護隱私,或克服收集和使用真實資料的其他挑戰,例如成本、耗時的資料準備流程或偏見。
許多其他技術啟用和支持生成人工智慧:
一個演算法是一個旨在完成特定任務或解決問題的逐步指示列表。許多計算機程序是以計算機可以理解的方式編寫的一系列算法。 當算法開始補充或取代人類決策時,我們必須探討其公平性,並要求對它們的開發方式進行透明度。
人工智慧使機器可以從經驗中學習,適應新的輸入並執行類似人類的任務。 人工智慧通常很依賴於深度學習和 NLP。 通過這種技術,可以訓練計算機以通過處理大量資料和識別模式來完成特定任務。
深度學習 是機器學習的一個子集,它訓練計算機執行類似人類的任務,例如識別語音、識別圖像和做出預測。它提高了使用資料分類,識別,檢測和描述的能力。 GAN 和變動自動編碼器(VAE)等深度學習模型在大量資料集上進行培訓,並可以生成高品質的資料。 更新的技術,例如 StyleGans 和transformer模型,可以創建逼真的影片、圖像、文本和語音。
機器學習 是一種數據分析方法,可建構自動化分析模型。它是一個人工智慧的分支,它訓練機器如何學習。 機器學習基於系統可以從數據中學習,識別模式並在最小的人工干預下做出決策的理念。
自然語言處理 是人工智慧的一個分支,可幫助電腦了解、解釋和操縱人類語言。NLP 從許多學科,包括計算機科學和計算語言學,以填補人類溝通和計算機理解之間的差距。
神經網絡 是具有互聯節點的計算系統,工作類似人類大腦中的神經元。神經網絡使用演算法來識別原始數據中的隱藏模式和關聯,將其集成並分類,並隨著時間的推移持續學習和改進。
強化學習是一種機器學習模式,是當算法通過試驗和錯誤,發現哪些動作產生最大的獎勵時, 它逐漸學習最佳(或最有獎勵)的政策或目標,也就是說它的反饋機制依賴獎勵信號。 它經常用於機器人,遊戲和導航。
微調模型的 5 個步驟
生成式人工智慧依賴許多不同的人工智慧演算法和技術,來產生具有類似機率分佈和特徵的資料,這些資料與其學習來源的資料相似。 不是從頭開始建構,您可以按照以下五個步驟微調預先訓練的基礎大語言模型。
1.定義任務
選擇合適的預先訓練的大型語言模型,並清楚地定義要進行微調的任務。這可能是文本分類(即實體識別),文本生成等。
2.準備資料
收集並預先處理特定任務的資料 — 用於標籤、格式化和標記化等任務。 創建訓練和驗證(並可能測試)資料集。
3.微調
使用訓練資料集更新模型的重量,根據您的任務特定資料來訓練修改的模型。監控模型在驗證集上的效能,以防止過度配合。
4.評估和測試
訓練後,在驗證集上評估您的微調模型,並根據結果進行必要的調整。滿意後,請在測試組上測試模型以獲得公正的性能估計。
5.部署
當您對模型的效能有信心時,請將其部署為其預期用途。 這可能涉及將模型整合到應用程式、網站或其他平台中。
AI 和分析平台
使用 SAS ® Viya ®,沒有太多資訊。 了解從十億個資料點凝聚成一個觀點的最快捷方式。
推薦閱讀
- 文章 What are AI hallucinations?Separating fact from AI-generated fiction can be hard. Learn how large language models can fail and lead to AI hallucinations – and discover how to use GenAI responsibly. 2024年4月26日
- 文章 What are chatbots?Chatbots are a form of conversational AI designed to simplify human interaction with computers. Learn how chatbots are used in business and how they can be incorporated into analytics applications. 2024年1月8日
- 文章 How AI and advanced analytics are impacting the financial services industryTop SAS experts weigh in on the topics that are keeping institutions up at night and fraudsters in a job. 2019年3月25日
- 文章 台灣製造業再戰 10 年新標配:AIoT 如何助力工廠從自動化邁向智慧化 2018年3月27日