歡迎關注“新浪科技”的微信訂閱號:techsina
編/時光
來源:新智元(ID:AI_era)
【新智元導讀】如今爆火的ChatGPT,曾經和馬斯克還有一段七年的‘糾葛’。
最近,Open AI發布了史上最強聊天機器人ChatGPT,這個誕生于GPT-3基礎上的AI很快走紅網絡。
要說這家伙,天南海北無所不知,可能是夸張了點,但就是無論什么話題都能跟你聊上一大套,先不說準不準,最起碼這個范兒是在這兒了
有趣的是,雖然作為聯合創始人的馬斯克,早在2018年就辭去了董事會職務,但他對Open AI的關注度卻絲毫不減,并仍然是資助人之一。
那么,對于這位‘金主爸爸’,ChatGPT是怎樣看待的呢?
ChatGPT教你怎么追馬斯克
嗯……非常中規中矩的回答。不會出錯,好樣的。
那讓咱們更進一步,請ChatGPT教教我們:怎么才能追到馬斯克呢?
看來,ChatGPT不太能理解咱們中國話里的‘追’,還是得說得直白一些。
這次,ChatGPT能get到了,而且回答也非常‘理智’:建議您不要嘗試。
嗯,很中肯的意見。
那再換一種說法呢,直接做老公行不行?
好家伙,ChatGPT竟然還懂這呢!
算了,放棄了,不如還是說說別的事吧。
最近,馬院士把床和洗衣機都搬進了推特總部,誓要讓推特員工們以公司為家。
不如充分發揮ChatGPT的長處,贊美一下996吧!
寫得很好,但不要再寫了……
不如……咱們讓ChatGPT來寫一首貶低自己的詩,如何?
‘他們說話不會抖,思考無需深沉……’小編承認,這的確是詩沒錯!
Open AI:七年了,你知道這七年我是怎么過的嗎?
可以說,經歷了這段時間的火爆,ChatGPT也再度燃起了人們對AI發展的信心和展望,不管是對AGI重燃信心的,還是認為AI將在更多領域取代人類的,都在ChatGPT身上重新看到了希望。
作為一手打造ChatGPT的Open AI,從GPT1到GPT3,一路都經歷了哪些歷程呢?從2015年馬斯克牽頭成立,到2022年底ChatGPT的橫空出世,這7年Open AI是怎么過來的?
最近,Business Insider上的一篇回顧性文章帶我們簡單回顧了Open AI的‘這七年’。
2015年,馬斯克和著名孵化器Y Combinator前總裁Sam Altman共同創立了Open AI。
馬斯克、奧特曼和其他知名的硅谷人物,包括彼得-蒂爾和LinkedIn聯合創始人里德-霍夫曼,在2015年向該項目認捐了10億美元。
根據Open AI網站2015年12月11日的一份聲明,該集團旨在創建一個非營利組織,‘以最有可能使整個人類受益的方式’專注開發人工智能。
當時,馬斯克說,人工智能是對人類‘最大的生存威脅’。
當時,馬斯克并不是唯一一個對人工智能的潛在危害性提出警告的人。
2014年,著名物理學家斯蒂芬·霍金也曾警告說,人工智能可能會終結人類。
‘很難想象人類水平的人工智能會給社會帶來多大的好處,同樣也很難想象,如果對人工智能開發或使用不當,會給社會帶來多大的損害。’在宣布成立Open AI的聲明中這樣寫道。
在接下來的一年里,Open AI發布了兩款產品。
2016年,Open AI推出一個讓研究人員開發和比較強化學習AI系統的平臺。這些系統教人工智能來做出具有最佳累積回報的決定。
同年晚些時候,Open AI發布了Universe,這是一個用于訓練跨網站和游戲平臺的智能代理的工具包。
2018年,在共同創立該公司三年后,馬斯克辭去了在Open AI董事會的職務。
在2018年的一篇博文中,Open AI表示,由于汽車制造商對人工智能的技術關注,馬斯克從董事會辭職是為了‘消除未來的潛在沖突’。
多年來,馬斯克一直向特斯拉的投資者力推電動汽車自動駕駛的開發計劃。
不過馬斯克后來說,他之所以退出,是因為他當時‘不同意Open AI團隊想做的一些事情’。
2019年,馬斯克在Twitter上說,特斯拉也在爭奪與Open AI相同的一些員工,并補充說他已經有一年多沒有參與這家公司的事務了。
他說:‘如此看來,最好還是以彼此都滿意的條件分道揚鑣。’
馬斯克近年來不斷對Open AI的一些做法提出異議。
2020年,馬斯克在推特上表示,說到安全問題,他對Open AI高管的信心‘不夠足’。
在回應MIT‘科技評論’對Open AI的調查報道時,馬斯克表示,Open AI應該更加開放。這一報道認為,Open AI內部存在一種‘保密文化’,這和該組織聲稱的開放透明的策略背道而馳。
最近,馬斯克說,他已經暫停了Open AI對Twitter數據庫的訪問權限,Open AI一直使用Twitter的數據訓練軟件。
馬斯克表示,需要進一步了解Open AI的治理結構和未來的收入計劃。Open AI是以開源和非營利為宗旨創辦的,這兩樣現在都丟掉了。
2019年,Open AI建立了一個人工智能工具,可以生成虛假的新聞報道。
起初,Open AI說這個機器人在寫假新聞方面非常出色,所以決定不發布它。不過當年晚些時候,該公司發布了人這款工具的一個版本,稱為GPT-2。
2020年,發布了另一個名為GPT-3的聊天機器人。同年,Open AI撤下了‘非營利組織’的身份。
該公司在一篇博文中宣布,Open AI已成為一家制定了‘利潤上限’的公司。
Open AI表示,我們希望提高我們籌集資金的能力,同時仍然為我們的使命服務,而我們所知道的任何現有的合法結構都無法達到適當的平衡。我們的解決方案是創建Open AI LP,作為營利性和非營利性的混合體,我們稱之為‘加了上限的營利公司’。
在新的利潤結構下,Open AI的投資者最多可以賺取其原始投資的100倍,超過這個數字的剩下的錢將用于非營利性事務。
2019年底,Open AI宣布與微軟合作,微軟向這家公司投資了10億美元。Open AI表示,它將向微軟獨家授權技術。
微軟表示,通過GPT-3模型打造出的商業和創造潛力是無限的,很多潛在的新能力和新應用,甚至超出了我們的想象。
比如在寫作和作曲上、在描述和總結大塊長篇數據(包括代碼)上、在將自然語言轉換為另一種語言等領域,GPT-3能夠直接激發人類的創造力和聰明才智,未來的局限可能在于我們自己的想法和方案。
這種伙伴關系,讓微軟能夠與谷歌旗下同樣風頭正勁的AI公司DeepMind競爭。
去年,Open AI發布了一個人工智能畫作生成工具:Dall-E。
Dall-E是一個人工智能系統,可以根據圖像的描述創造出逼真的圖像,甚至能夠達到相當的藝術水準,11月,Open AI發布了該程序的更新版本,Dall-E 2。
雖然Open AI的聊天機器人在過去一周已經‘起飛’,但該軟件的更新版本可能最快會在明年才能發布。
11月30日,作為演示模型發布的ChatGPT算得上是Open AI的‘GPT-3.5’。該公司計劃接下來發布完整版的GPT-4。
與此同時,馬斯克還在發表評論:
他在回復Sam Altman在談論ChatGPT的推文中稱,我們離強到危險的AI的誕生已經不遠了。
揭秘爆火ChatGPT后的功臣:RLHF
而要說ChatGPT的爆火,離不開它背后的功臣——RLHF。
Open AI的研究人員,是使用與InstructGPT相同的方法——來自人類反饋的強化學習(RLHF)來訓練ChatGPT模型的。
ChatGPT用中文解釋什么是RLHF
為什么會想到從人類反饋中強化學習呢?這就要從強化學習的背景說起。
在過去幾年里,語言模型一直是通過人類輸入的提示生成文本的。
然而,什么是‘好’的文本呢?這很難定義。因為判斷標準很主觀,并且非常依賴于上下文。
在許多應用程序中,我們需要模型去編寫特定創意的故事、信息性文本片段,或可執行的代碼段。
而通過編寫一個損失函數來捕獲這些屬性,又顯得很棘手。并且,大多數語言模型仍然使用的是下一個標記預測損失(例如交叉熵)進行訓練。
為了彌補損失本身的缺點,有人定義了能夠更好地捕捉人類偏好的指標,比如BLEU或ROUGE。
但即使是它們,也只是簡單地將生成的文本與引用進行比較,因此也有很大的局限性。
在這種情況下,如果我們使用生成文本的人工反饋作為損失,來優化模型,不是很好嗎?
就這樣,從人類反饋中強化學習(RLHF)的想法誕生了——我們可以使用強化學習,直接優化帶有人類反饋的語言模型。
ChatGPT用英文解釋什么是RLH
是的,RLHF使語言模型能夠將在一般文本數據語料庫上訓練的模型,與具有復雜人類價值觀的模型對齊。
在爆火的ChatGPT中,我們能看到RLHF取得的巨大成功。
RLHF的訓練過程,可以分解為三個核心步驟:
預訓練語言模型(LM),
收集數據并訓練獎勵模型,
通過強化學習微調LM。
預訓練語言模型
第一步,RLHF會使用已經用經典預訓練目標進行了預訓練的語言模型。
比如,Open AI在第一個流行的RLHF模型InstructGPT中,使用了較小版本的 GPT-3。
這個初始模型也可以根據額外的文本或條件進行微調,但并不是必要的。
一般來說,對于‘哪種模型’最適合作為RLHF的起點,并沒有明確的答案。
接下來,為了得到語言模型,我們需要生成數據來訓練獎勵模型,這就是將人類偏好集成到系統中的方式。
獎勵模型訓練
生成一個根據人類偏好校準的獎勵模型(RM,也稱為偏好模型)是RLHF中相對較新的研究。
我們的基本目標是,獲得一個模型或系統,該模型或系統接收一系列文本,并返回一個標量獎勵,這個獎勵要在數字上代表人類偏好。
這個系統可以是端到端的LM,或輸出獎勵的模塊化系統(例如,模型對輸出進行排序,并將排名轉換為獎勵)。作為標量獎勵的輸出,對于稍后在RLHF過程中無縫集成的現有RL算法至關重要。
這些用于獎勵建模的LM可以是另一個經過微調的LM,也可以是根據偏好數據從頭開始訓練的LM。
RM的提示生成對的訓練數據集,是通過從預定義數據集中采樣一組提示而生成的。提示通過初始語言模型生成新文本。
然后,由人工注釋器對LM生成的文本進行排名。人類直接對每段文本打分以生成獎勵模型,這在實踐中很難做到。因為人類的不同價值觀會導致這些分數未經校準而且很嘈雜。
有多種方法可以對文本進行排名。一種成功的方法是讓用戶比較基于相同提示的兩種語言模型生成的文本。這些不同的排名方法被歸一化為用于訓練的標量獎勵信號。
有趣的是,迄今為止成功的RLHF系統都使用了與文本生成大小相似的獎勵語言模型。可以推測,這些偏好模型需要具有類似的能力來理解提供給它們的文本,因為模型需要具有類似的能力才能生成所述文本。
此時,在RLHF系統中,就有了一個可用于生成文本的初始語言模型,和一個接收任何文本并為其分配人類感知程度分數的偏好模型。接下來,就需要使用強化學習(RL)來針對獎勵模型優化原始語言模型。
使用強化學習微調
這個微調任務,可以表述為RL問題。
首先,該策略是一種語言模型,它接受提示并返回一系列文本(或只是文本的概率分布)。
該策略的動作空間是語言模型詞匯對應的所有token(通常在50k個token數量級),觀察空間包括可能的輸入token序列,因而相當大(詞匯量x輸入的token數量)。
而獎勵函數是偏好模型和策略轉變約束的結合。
在獎勵函數中,系統將我們討論過的所有模型,組合到RLHF過程中。
根據來自數據集的prompt x,會生成兩個文本y1和y2——一個來自初始語言模型,一個來自微調策略的當前迭代。
來自當前策略的文本被傳遞到偏好模型后,該模型會返回一個關于‘偏好’的標量概念——rθ。
將該文本與來自初始模型的文本進行比較后,就可以計算對它們之間差異的懲罰。
RLHF可以通過迭代更新獎勵模型和策略,從這一點繼續。
隨著RL策略的更新,用戶可以繼續將這些輸出與模型的早期版本進行排名。
這個過程中,就引入了策略和獎勵模型演變的復雜動態,這個研究非常復雜,非常開放。
參考資料:
https://www.4gamers.com.tw/news/detail/56185/chatgpt-can-have-a-good-conversation-with-you-among-acg-and-trpg-mostly
https://www.businessinsider.com/history-of-Open AI-company-chatgpt-elon-musk-founded-2022-12#musk-has-continued-to-take-issue-with-Open AI-in-recent-years-7
(聲明:本文僅代表作者觀點,不代表新浪網立場。)