最近的ChatGPT讓OpenAI這傢企業的名聲更上一個臺階,這篇博客將詳細介紹OpenAI這傢企業及其發佈的AI成果。由於OpenAI成立僅僅7年,因此,本文羅列瞭這7年時間裡OpenAI最重要的研究成果。本篇博客內容較長,因為涵蓋瞭過去7年OpenAI發佈的重要技術成果!
原文詳情:
OpenAI是全球最著名的人工智能研究機構,發佈瞭許多著名的人工智能技術和成果,如大語言模型GPT系列、文本生成圖片預訓練模型DALL·E系列、語音識別模型Whisper系列等。由於這些模型在各自領域都有相當驚艷的表現,引起瞭全世界廣泛的關註。
這是舊金山的先鋒大廈,也是OpenAI的辦公室所在地
OpenAI是由馬斯克(Elon Musk)等人於2015年在舊金山創立的一傢非盈利的人工智能研究公司,啟動資金就有10億美金,算是標準的富二代。正是由於”金錢“的力量,OpenAI的目標就是不受經濟回報的限制來推進數字智能造福人類。OpenAI建立的目標就是為瞭與其它機構合作,進行AI的相關研究,並開放研究成果以促進AI技術的發展。OpenAI也被認為是DeepMind的有力競爭者。但是,從GPT-2模型之後,OpenAI認為模型效果太好,可能會被用來做不好的事情,因此開始限制研究成果的”開放“,這一點被很多人吐槽。2019年3月11日,OpenAI宣佈從”非盈利(non-profit)“性質過度到”封頂(‘capped’ for profit)“營利性,利潤上限為任何投資的100倍(創立瞭OpenAI LP公司)。也是這一年,微軟向該公司投資瞭10億美金,並獲得瞭OpenAI技術的商業化授權。從此,OpenAI的一些技術開始出現在微軟的產品和業務上。不過,OpenAI與微軟的合作其實從2016年就開始,2016年,微軟的雲服務Azure為OpenAI提供瞭大規模實驗的平臺。Azure彼時已經為他們提供瞭帶有InfiniBand互連的K80 GPU的算力資源,以優化深度學習的訓練。2020年9月22日,OpenAI開始授權微軟使用他們的GPT-3模型,也是全球首個可以享受GPT-3能力的公司。2020年6月11日,OpenAI發佈瞭OpenAI API,這也是OpenAI第一個商業化產品。官方解釋瞭,他們認為開發商業產品是確保OpenAI有足夠資金繼續投入AI研究的有效手段。自此,OpenAI也正是開始商業化運作。官方也解釋瞭,使用API的方式提供模型而不是開源模型也將降低模型的使用門檻,畢竟對於中小企業來說,部署強大的AI模型所需要的成本可能更高。
OpenAI發佈瞭很多人工智能相關的技術,從工具到算法到論文到模型,都有涉及。這裡將簡單介紹一下他們發佈的相關研究成果。由於OpenAI的成立時間很短,我們將根據年份來說明OpenAI發佈的主要技術成果。
2016年4月27日,OpenAI發佈瞭他們的第一個項目——OpenAI Gym Beta,這是一個用來開發和比較不同強化學習算法的工具。這個工具起初是OpenAI研究人員用來加速他們強化學習研究的,這個工具也是OpenAI第一個開放的成果。
2017年5月24日,OpenAI開源瞭一個重現強化學習算法的工具——OpenAI Baselines。強化學習由於過程十分復雜且影響因素眾多,導致很多實驗難以復現。因此,OpenAI開源瞭這個工具,目標是提供用於正確的強化學習算法實現的一些最佳實踐,以幫助大傢提高強化學習的研究效率。OpenAI Baselines中第一個基線化的模型是DQN(Deep Q-Network)
c211da4444437f068156c063c5c7d522
2018年6月11日,OpenAI公佈瞭一個在諸多語言處理任務上都取得瞭很好結果的算法,即著名的GPT,這也是該算法的第一個版本。GPT是第一個將transformer與無監督的預訓練技術相結合,其取得的效果要好於當前的已知算法。這個算法算是OpenAI大語言模型的探索性的先驅,也使得後面出現瞭更強大的GPT系列。也是在2018年6月份,OpenAI宣佈他們的OpenAI Five已經開始在Dota2遊戲中擊敗業餘人類團隊,並表示在未來2個月將與世界頂級玩傢進行對戰。OpenAI Five使用瞭256個P100 GPUs和128000個CPU核,每天玩180年時長的遊戲來訓練模型。在隨後的幾個月裡OpenAI Five詳情繼續公佈。在8月份的專業比賽中,OpenAI Five輸掉瞭2場與頂級選手的比賽,但是比賽的前25-30分鐘內,OpenAI Five的模型的有著十分良好的表現。OpenAI Five繼續發展並在2019年4月15日宣佈打敗瞭當時的Dota2世界冠軍。
2019年2月14日,OpenAI在博客《Better Language Models and Their Implications》中官宣GPT-2模型。也正是在這篇博客中,官方說到由於模型效果太好,他們擔心模型會被惡意使用,在沒有想好如何限制malicious applications之前是不會發佈預訓練結果的。GPT-2模型有15億參數,基於800萬網頁數據訓練。GPT-2就是GPT的規模化結果,在10倍以上的數據以10倍以上的參數訓練。OpenAI在2月份GPT-2發佈的時候僅僅公開瞭他們的1.24億版本的預訓練結果,其後的5月份發佈瞭3.55億參數版本的預訓練結果,並在半年後的8月份發佈瞭一個7.74億參數版本的GPT-2預訓練結果。2019年11月5日,15億參數的完整版本的GPT-2預訓練結果發佈。同年3月4日,OpenAI發佈瞭一個用於強化學習代理的大規模多代理遊戲環境:Neural MMO。該平臺支持在一個持久的、開放的任務中的存在大量的、可變的代理。許多代理和物種的加入導致瞭更好的探索,分歧的利基形成,以及更大的整體能力。4月25日,OpenAI繼續公佈他們最新的研究成果:MuseNet,這是一個深度神經網絡,可以用10種不同的樂器生成4分鐘的音樂作品,並且可以結合從鄉村到莫紮特到披頭士的風格。這是OpenAI將生成模型從自然語言處理領域拓展到其它領域開始。
2020年4月14日,OpenAI發佈瞭Microscope,這是一個用於分析神經網絡內部特征形成過程的可視化工具,也是OpenAI為瞭理解神經網絡模型所作出的努力。2020年5月28日,OpenAI的研究人員直接提交瞭論文《Language Models are Few-Shot Learners》,正式公佈瞭GPT-3相關的研究結果,這也是當時全球最大的預訓練模型,參數1750億!GPT-3在論文中展示瞭強大的能力,但是如前面的版本一樣,官方沒有公佈預訓練結果文件。但是,同年9月,GPT-3的商業化授權給瞭微軟。同年6月17日,OpenAI發佈瞭Image GPT模型,將GPT的成功引入計算機視覺領域。研究人員認為,transformer是與領域無關的,它們都是從序列中建模,因此計算機視覺領域依然可以使用。Image GPT也在當時取得瞭很好的成績!
2021年1月5日,OpenAI發佈CLIP,它能有效地從自然語言監督中學習視覺概念。CLIP可以應用於任何視覺分類基準,隻需提供要識別的視覺類別的名稱,類似於GPT-2和GPT-3的 "zero-shot "能力。這個模型是今年來多模態領域很有代表性的一項工作。同一天,OpenAI發佈瞭DALL·E模型,這也是一個具有很大影響力的模型,DALL·E是一個120億個參數的GPT-3版本,它被訓練成使用文本-圖像對的數據集,從文本描述中生成圖像。DALL·E可以創造動物和物體的擬人化版本,以合理的方式組合不相關的概念,渲染文本,以及對現有圖像進行轉換。DALL·E的發佈再一次驚艷世人。2021年8月10日,OpenAI發佈瞭Codex。OpenAI Codex是GPT-3的後代;它的訓練數據既包含自然語言,也包含數十億行公開的源代碼,包括GitHub公共存儲庫中的代碼。OpenAI Codex就是Github Coplilot背後的模型。當然,Codex也沒有公佈,而是OpenAI收費的API。
2022年1月27日,OpenAI發佈瞭InstructGPT。這是比GPT-3更好的遵循用戶意圖的語言模型,同時也讓它們更真實,且less toxic,使用的技術是通過alignment研究開發的。這些InstructGPT模型是在人類的參與下訓練的,這是一個AI對話系統,也是OpenAI收費的API。2022年3月15日,OpenAI新版本的GPT-3和Codex發佈,新增瞭編輯和插入新內容的能力。也就是說除瞭之前的生成能力外,新增編輯和修改。同年4月6日,DALL·E2發佈,其效果比第一個版本更加逼真,細節更加豐富且解析度更高。DALL·E系列由於可以生成任意圖片內容,盡管官方做瞭很多努力阻止惡意結果產生,依然因為擔心而沒有放出。也許是因為開源的競爭產品如Stable Diffusion的壓力,2022年7月20日,OpenAI的API增加瞭一年前發佈的DALL·E(註意不是V2版本)。6月23日,OpenAI通過視頻預訓練(Video PreTraining,VPT)在人類玩Minecraft的大量無標簽視頻數據集上訓練瞭一個神經網絡來玩Minecraft,同時隻使用瞭少量的標簽數據。通過微調,該模型可以學習制作鉆石工具,這項任務通常需要熟練的人類花費超過20分鐘(24,000個動作)。它使用瞭人類原生的按鍵和鼠標運動界面,使其具有相當的通用性,並代表著向通用計算機使用代理邁出瞭一步。9月21日,OpenAI發佈瞭Whisper,這是一個語音識別預訓練模型,結果逼近人類水平,支持多種語言。最重要的是,相比較很長不開源成果的其它模型,這是一個完全開源的模型,不過其參數也就15.5億。11月30日,OpenAI發佈ChatGPT系統,這是一個AI對話系統,其強大的能力也讓大傢再次見識到瞭其強大的能力。ChatGPT在很多問題上近乎完美的表現使得它僅僅5天就有瞭100萬用戶。它可以幫助我們寫代碼、寫博客、解釋技術,可以多輪對話,寫短劇等等。
OpenAI是人工智能領域的明星公司。從馬斯克等人創辦開始就吸引瞭很多的目光。起初,其研究似乎主要是朝著強化學習努力。但是,隨著預訓練模型的崛起,他們在諸多領域的創新也讓大傢見識到OpenAI的強大實力。OpenAI發佈的很多模型和系統都具有令人驚訝的效果。盡管隨著其商業化進程的加速,免費開源的技術似乎變得稀有。但是,他們發佈的技術引起瞭眾多的追隨者和競爭者。包括Meta AI、StabilityAI等競爭對手都發佈瞭開源版本的兄弟模型。促進瞭AI領域的發展。
原文詳情: