(網經社訊)近日,德邦證券發(fā)布《AIGC專題二:ChatGPT更懂人類的敘事》。
ChatGPT概述
OpenAI:人工智能研究領域最前沿的公司之一
OpenAI深耕AI領域研究,特色產品包括ChatGPT、DALL·E2、Whisper等。 OpenAI是于2015年12月在美國成立的人工智能研究公司,由馬斯克、美國創(chuàng)業(yè)孵化器Y Combinator總裁阿爾特曼、全 球在線支付平臺PayPal聯(lián)合創(chuàng)始人彼得·蒂爾等硅谷科技大亨創(chuàng)立。 研究方向可以分為三類:訓練生成模型算法,即深度學習生成模型;從數(shù)據(jù)中推斷算法的算法,即神經圖靈機;強化 學習方法,可以理解為深度增強學習。
ChatGPT月度用戶已破億,正在逐步探索商業(yè)化途徑
ChatGPT是OpenAI在2022年11月30日發(fā)布的全新聊天機器人模型。 它能夠通過學習和理解人類的語言來進行對話,還能根據(jù)聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至 能完成撰寫郵件、視頻腳本、文案、翻譯、代碼等任務。 ChatGPT月度用戶已破億,正在逐步探索商業(yè)化途徑。 根據(jù)UBS統(tǒng)計數(shù)據(jù)顯示,ChatGPT上線2個月后月度用戶數(shù)量破1億。 2023年2月1日,OpenAI推出付費訂閱項目ChatGPT Plus,價格為$20/月,目前面向美國用戶。
ChatGPT基于GPT3.5模型進化微調,從人類反饋中學習
OpenAI 基于GPT模型,使用監(jiān)督學習和強化學習的組合來調優(yōu) ChatGPT,其中人類反饋強化學習 (RLHF)使 ChatGPT趨近人類價值觀及意圖。 ChatGPT的訓練分為三步:一是訓練及微調GPT模型,獲得語言及代碼的生成能力;二是根據(jù)人類意圖訓練,人為標 記生成內容的排序,訓練出獎勵模型(Reward Model);三是通過獎勵模型為生成內容打分,通過近端策略優(yōu)化 (PPO)來優(yōu)化生成模型,使其趨近人類的意圖。
第一步:收集數(shù)據(jù)微調GPT3.5模型
預訓練的GPT3.5在少量已標注的數(shù)據(jù)上進行調優(yōu),以學習 從給定的提示詞(prompt)列表生成輸出的有監(jiān)督的策略 。模型選擇:選擇了 GPT-3.5 系列中的預訓練模型,參考InstructGPT, 參數(shù)量最高達175B。例如,輸入“你好”,通過GPT后輸出“美”。GPT每一次的輸出可 能都是不同的,因為在網絡上的語句中,“你好”后面有多種接法, 例如“你好高”、“你好嗎”,而輸出結果是遵循概率分布的,高頻 組合出現(xiàn)的概率較高。 數(shù)據(jù)收集:使用了兩種不同的提示詞來源。一些是直接使用標注人員 或研究人員準備的,另一些是從 OpenAI 的 API 請求(即從 GPT-3 用 戶那里)獲取的。 策略生成:選擇一個提示列表,標注人員按要求寫下預期的輸出。最 終得到的結果是一個相對較小、高質量的數(shù)據(jù)集,可用于調優(yōu)預訓練 的語言模型。
第二步:模擬人類偏好,訓練獎勵模型
對大量的模型輸出進行排序,創(chuàng)建了一個由比較數(shù)據(jù)組成的 新數(shù)據(jù)集。在此數(shù)據(jù)集上訓練新模型,被稱為訓練獎勵模型 (Reward Model,RM)。 輸出排序:標注者根據(jù)人類偏好將輸出從最佳到最差排序。結果是一 個新的標簽數(shù)據(jù)集。 獎勵模型:將有標簽的數(shù)據(jù)集用于訓練 RM 模型 ,并將生成模型的輸 出,按優(yōu)先順序對它們進行排序。 例如,輸入“臺灣最高的山是哪座?” ,輸出可能有兩個結果,輸出 一是“玉山”,輸出二是“誰來告訴我呀”。兩個回答都可以與問題 銜接,但是人類的偏好是輸出一,因此RM給兩個輸出排序時,輸出一 是高于輸出二。
第三步:使用獎勵模型,基于PPO進行最優(yōu)化
強化學習被應用于通過優(yōu)化 RM 模型來調優(yōu)模型,所使用的 特定算法稱為近端策略優(yōu)化(PPO)。 PPO:強化學習中的一種方式,通過學習策略以達成回報最大化或實 現(xiàn)特定目標的問題。PPO在實現(xiàn)的便利性、樣本復雜性和調優(yōu)的便利 性之間取得了平衡,試圖在每一步計算一個更新,使代價函數(shù)最小化, 同時確保與前一個策略的偏差相對較小。 調整目標:使用RM作為獎勵函數(shù),通過PPO算法微調策略,調整參數(shù) 獲得最大的獎勵。
核心優(yōu)勢
優(yōu)勢一:公司與微軟合作,提供上下游支持
微軟作為OpenAI的LP投資者,為公司提供研發(fā)底層支撐及應用的大力支持。 資金支持:2019年7月22日,微軟投資OpenAI 10億美元;2023年1月23日,微軟宣布與OpenAI建立長期合作伙伴關 系進入第三階段,通過一項為期多年、數(shù)十億美元的投資來加速AI的突破。 服務支持:1)大規(guī)模超級計算—— 微軟將增加對開發(fā)和部署專用超級計算系統(tǒng)的投資,以加速OpenAI的研究;繼續(xù) 構建 Azure 領先的 AI 基礎結構。2)獨家云提供商 - Azure將為研究、產品和API服務中的所有OpenAI工作提供支持。 應用支持:1月17日微軟表示,計劃將包括ChatGPT、DALL-E等人工智能工具整合進微軟旗下的所有產品中,并將其 作為平臺供其他企業(yè)使用,包括且不限于Bing搜索引擎、Microsoft Office、Azure云服務、Teams聊天程序等。
應用場景
ChatGPT以采取會員收費,未來或拓展商業(yè)模式
OpenAI的商業(yè)模式為,會員收費、開放API以及與微軟的戰(zhàn)略合作。 會員服務:2023年2月1日,OpenAI推出付費訂閱項目ChatGPT Plus,價格為$20/月,目前面向美國用戶。付費服務包括,在高 峰時段也可常規(guī)訪問ChatGPT、更快的響應、以及優(yōu)先訪問新功能和改進。ChatGPT將繼續(xù)提供免費訪問。 API服務:ChatGPT或將加入OpenAI API,從下游用戶的使用中收取費用。目前OpenAI的API以Token對于NLP的文字進行收費, 例如莎士比亞作品集需要1.2M的Token。 與微軟合作:使用 Azure OpenAI 服務,采用即用即付的消費模式,以Token或托管時長進行收費。
GPT系列API可為下游應用提供語言和代碼處理
ChatGPT尚未開放API,因此參考已開放API的Text-davinci-003和Code-davinci-002來解讀其功能。 ChatGPT與Text-davinci-003的能力相似,均屬于GPT3.5系列模型。 實現(xiàn)功能包括:回答問題、分類、編寫代碼、對話、生成、翻譯和轉換。
ToB:GPT系列已應用到辦公應用、智能客服等
辦公應用:1)AI輔助編程 :GitHub Copilot 可輔助程序員編程,通過Codex在代碼編輯器中為整行或某個函數(shù)提供建議。2)市 場調研工具:Viable 使用 GPT-3 從客戶反饋中提供有用的見解,可以從調查、票證、實時聊天日志、評論等中識別和提取主題 內容和情緒,并在幾秒鐘內提供內容總結。 智能客服:Algolia和ActiveChat 使用了 GPT-3 來更好地理解客戶的問題,并將他們連接到回答他們問題的內容的特定部分。
ToC:GPT系列已應用到學習類于創(chuàng)作類生成
學習類:1)論文檢索:GithubElicit是一個人工智能研究助手,通過檢索已發(fā)表的論文,從大量研究論文中查找最相 關的摘要,并應用 GPT-3 的自定義功能來生成答案。2)語言學習:Duolingo作為一個語言學習平臺,已經使用 GPT3 進行法語語法更正。Duolingo 的一項內部研究表明,使用此功能可以顯著提高用戶的第二語言寫作技巧。
創(chuàng)作類:1)Blog創(chuàng)意生成:Blog Idea Generator通過采用搜索關鍵字來分析該主題在Google里最受歡迎的內容?;?于獲取的數(shù)據(jù),軟件通過GPT-3生成內容來獲得更高的閱讀量。2)寫作造句工具:Compose.ai 是一個免費的Chrome 擴展程序,可使用AI自動進行寫作。只需要輸入關鍵字詞和主要內容,GPT-3可協(xié)助生成完整語句,構成全文。
ToC:GPT系列還應用于娛樂及生活類APP
娛樂類:1)AI驅動游戲:AI Dungeon是一款由AI驅動的基于文本的角色扮演游戲,AI會自動生成故事,玩家可以在 其中輸入對話,人工智能將以新的事件和對話作出回應,創(chuàng)造獨特且不可預測的游戲體驗。2)AI聊天伙伴: WhatsApp 上的AI Buddy是由GPT-3.5驅動的軟件,可以和用戶進行對話,就像發(fā)消息給朋友一樣。例如,“給我講個 笑話”、“給我一個博客構思”等。
生活類:稅務助手:Keeper Tax可幫助個人記錄稅務情況。在關聯(lián)到個人財務賬號后,Keeper Tax用不同模型提取文 本信息并分類交易類型。
應用一:ChatGPT已與搜索引擎相結合
ChatGPT已加入瀏覽器擴展程序,集成了ChatGPT-4的BING短暫上線 。 ChatGPT已作為擴展程序加入到Chrome、Firefox、Edge等瀏覽器的應用中;Bing、谷歌等搜索引擎中將接入ChatGPT, 得到自然語言回答。 集成了 ChatGPT-4 的新版 Bing 曾于2月4日短暫上線。據(jù)設計師 Owen Yin分享的截圖,新版 Bing 的搜索框變?yōu)榱奶?框,會在聊天氣泡中回復用戶的問題。新版 Bing 鼓勵用戶使用自然語言而不是關鍵字進行搜索,還能夠根據(jù)用戶的要 求調整搜索結果。
應用二:泛娛樂行業(yè)應用,包括游戲、直播等方面
元境科技率先接入ChatGPT,結合自研多模態(tài)智能算法,完成了行業(yè)首個AIGC互動直播功能的落地。 元境科技虛擬數(shù)字人已經接入ChatGPT等模型,并已在Tik Tok跨境電商直播、虛擬主播直播互動等場景實現(xiàn)應用,并 形成產品化解決方案。未來,將更加關注數(shù)字人與ChatGPT等模型的整合應用,快速擴展到不同行業(yè)、不同場景。 行業(yè)首個應用此項技術的虛擬主播是虛擬二次元網紅CiCi。在最近的一大段時間里CiCi的直播早已替換為了AIGC互動 直播,在測試應用期間一眾粉絲均未看出任何異樣,同時在使用測試期間粉絲量也持續(xù)穩(wěn)步提升。
類似產品
Claude:谷歌旗下ChatGPT有力競品
Claude是Anthropic新推出的一款類似于ChatGPT的AI助手,谷歌已經向Anthropic投資約3億美元。 Anthropic是由前OpenAI的一支研發(fā)團隊出走成立的人工智能初創(chuàng)公司,大多為 OpenAI 的早期及核心員工,深度參與過OpenAI 的多項課題,比如GPT-3、神經網絡里的多模態(tài)神經元、引入人類偏好的強化學習等。 根據(jù)Financial Times報道,谷歌已經向Anthropic投資約3億美元。通過這筆交易,谷歌將獲得Anthropic約10%的股份,后者要用 這筆錢從前者的云計算部門購買大量計算資源。 Claude目前還處于實驗階段,開創(chuàng)性引入了“憲法人工智能”(Constitutional AI,CAI)的概念。 與RLHF不同,憲法AI的過程使用模型而不是人類來生成微調輸出的初始排名,根據(jù)一系列基本原則選擇最佳回復,即RLAIF。
百度:擁有打造國產ChatGPT能力的公司
百度擁有飛槳(深度學習開源框架)、百度AI大底座(全棧AI基礎設施)和文心大模型(AI應用場景全覆蓋)。 PaddlePaddle飛槳是中國自主研發(fā)的第一個深度學習框架。深度學習框架是在完成深度學習時一套可以復用的代碼,使得使用 者在開發(fā)深度學習程序時可以不用從復雜的神經網絡搭建開始編代碼,而是在已有的模型上進行個性化改進。 百度AI大底座:國內首個全棧自研的Al基礎設施,面向企業(yè)Al開發(fā)和應用,提供端到端自主可控、自我進化的解決方案讓企業(yè)可 以快捷、低成本地實現(xiàn)“Al能力隨用隨取” 。文心大模型:源于產業(yè)、服務于產業(yè),是產業(yè)級知識增強大模型。百度通過大模型與國產深度學習框架融合發(fā)展,打造了自主創(chuàng) 新的AI底座,大幅降低了AI開發(fā)和應用的門檻,滿足真實場景中的應用需求,真正發(fā)揮大模型驅動AI規(guī)?;瘧玫漠a業(yè)價值。
ERNIE:百度基于BERT打造的NLP模型
2月7日,百度官宣其新的大模型項目“文心一言”,英文名ERNIE Bot。 ERNIE是百度開創(chuàng)性提出的基于知識增強的持續(xù)學習語義理解框架。 ERNIE在情感分析、文本匹配、自然語言推理、詞法分析、閱讀理解、智能問答等16個公開數(shù)據(jù)集上全面顯著超越世 界領先技術,在國際權威的通用語言理解評估基準GLUE上,得分首次突破90分,獲得全球第一。 ERNIE在工業(yè)界得到了大規(guī)模應用,如搜索引擎、新聞推薦、廣告系統(tǒng)、語音交互、智能客服等。
ERNIE由BERT進化而來,經過一系列的升級,目前已推出3.0版本。 在 ERNIE 3.0 中,自回歸和自編碼網絡被創(chuàng)新型地融合在一起進行預訓練。 自編碼網絡采用 ERNIE 2.0 的多任務學習增量式構建預訓練任務,持續(xù)的進行語義理解學習。 通過新增的實體預測、 句子因果關系判斷、文章句子結構重建等語義任務進行預訓練;同時,創(chuàng)新性地增加了知識增強的預訓練任務。 自回歸網絡基于 Tranformer-XL 結構,支持長文本語言模型建模。多范式的統(tǒng)一預訓練模式使得 ERNIE 3.0 能夠在理 解任務、生成任務和零樣本學習任務上獲取 SOTA 的表現(xiàn)。