Elon Musk 創立的 OpenAI 基金會的最新聊天機器人 ChatGPT 以其強大寫作、對話能力席捲了網路世界。ChatGPT 是一種由人工智慧驅動的聊天機器人,它以一種令人信服的對話方式與使用者互動。ChatGPT 對問題深思熟慮和全面的回答(即使不準確)令使用者震驚,包括學術界和科技行業。
該工具迅速走紅。週一,Open AI 的聯合創始人、著名的矽谷投資者 Sam Altman 在 Twitter 上表示,ChatGPT 的使用者已突破 100 萬。
知名的科技投資人 Box 執行長 Aaron Levie 也表示:「當一項新技術調整了你對計算的想法時,會有一種特定的感覺。谷歌、 火狐、 AWS 、iPhone 都做到了。OpenAI 正在通過 ChatGPT 做到這一點。」
與其他人工智慧工具一樣,ChatGPT 也可能擾亂創意產業、延續偏見和傳播錯誤資訊。如 Stack Overflow 暫時禁止使用者分享 ChatGPT 生成的回覆。因為 ChatGPT 很容易與使用者互動,且可以快速生成大量回答,這讓網站充斥著許多第一眼看起來是正確的答案,但在仔細檢查後就能發現其中的錯誤。
因此,本文,我們將討論最近流行的 AIGC 工具 ChatGPT 及此類工具對內容生態稽核制度的挑戰。
01. 什麼是 ChatGPT
Generative Pre-trained Transformer (GPT),是一種基於網際網路可用資料訓練的文字生成深度學習模型。它用於問答、文字摘要生成、機器翻譯、分類、程式碼生成和對話 AI。
2018 年,NLP(自然語言處理)的預訓練模型元年,GPT-1 誕生,此時的 GPT-1 僅是一個語言理解工具而非對話式 AI。2019 年 GPT-2 採用更多的網路引數與更大的資料集進行訓練,此時的 GPT-2 展現出普世且較強的能力,並在多個特定的語言建模任務上實現了彼時的最佳效能。隨後,GPT-3 出現,作為一個無監督模型(自監督模型),幾乎可以完成自然語言處理的絕大部分任務,例如面向問題的搜尋、閱讀理解、語義推斷、機器翻譯、文章生成和自動問答等等。GPT-3 的出現使人們看到了通用人工智慧的希望。
今天,ChatGPT 的到來,也被視為文字生成器 GPT-3 的下一個迭代,為 GPT-4 到來拉開序幕。
ChatGPT 是一種大型語言模型,通過大量線上資訊進行訓練並建立其響應。註冊 ChatGPT 後,使用者可以要求人工智慧系統回答一系列問題,這些問題包括開放性問題:例「生命的意義是什麼?『加密貨幣值得投資』?」「什麼是 Hacker Movement」等。
02. ChatGPT 如何工作的?
談到 ChatGPT 的演算法模型, 其前身 InstructGPT 仍值得關注。
2022 年初,OpenAI 釋出了 InstructGPT。開發人員通過結合監督學習 + 人類反饋強化學習,提高 GPT-3 的輸出質量。在這種學習中,人類對模型的潛在輸出進行排序,強化學習演算法則對產生類似於高階輸出材料的模型進行獎勵。
訓練資料集以建立提示開始,其中一些提示是基於 GPT-3 使用者的輸入,比如「解釋什麼是 Hacker Movement」或「給一個小學生解釋 Hacker」。
開發人員將提示分為三個部分,並以不同的方式為每個部分建立響應:
- 人類作家會對第一組提示做出響應。開發人員微調了一個經過訓練的 GPT-3 ,將它變成 InstructGPT 以生成每個提示的現有響應。
- 下一步是訓練一個模型,使其對更好的響應做出更高的獎勵。對於第二組提示,經過優化的模型會生成多個響應。人工評分者會對每個回覆進行排名。在給出一個提示和兩個響應後,一個獎勵模型(另一個預先訓練的 GPT-3)學會了為評分高的響應計算更高的獎勵,為評分低的回答計算更低的獎勵。
- 開發人員使用第三組提示和強化學習方法近端策略優化(Proximal Policy Optimization, PPO)進一步微調了語言模型。給出提示後,語言模型會生成響應,而獎勵模型會給予相應獎勵。PPO 使用獎勵來更新語言模型。
ChatGPT 和 InstructGPT 演算法模型基本一樣。不同之處在於資料如何被收集和訓練。
- InstructGPT :給一個輸入就給一個輸出,再跟訓練資料對比,對了有獎勵,不對有懲罰;
- ChatGPT: 給一個輸入,模型給出多個輸出,然後人(AI 訓練師)對輸出結果排序,讓模型使得這些結果從「更像人話」到「沒有邏輯」排序。
與其他 AI 聊天機器人不同,本著構建更加負責任的強人工智慧原則, ChatGPT 可以回答後續問題、承認錯誤、挑戰不正確的問題並拒絕不適當的請求。
寫在這裡記起,科幻小說家艾薩克·阿西莫夫(Isaac Asimov)為機器人設定的行為準則—機器人三定律:
- 第一法則:機器人不得傷害人類,或坐視人類受到傷害;
- 第二法則:機器人必須服從人類命令,除非命令與第一法則發生衝突;
- 第三法則:在不違背第一或第二法則之下,機器人可以保護自己。
03. ChatGPT 等 AIGC 工具對內容生態的挑戰
不可置疑的是 AIGC 對很多領域產生了積極的影響。如,文字創作、音樂創作、遊戲文字生成等。隨著 AIGC 工具的成熟,其甚至可自主程式設計、拼接生成新的協議。
但,此類工具向內容生態提出一個全新的問題即:如何應對 AIGC 的真實性。以 ChatGPT 為例:
- 在訓練的強化學習 (RL) 階段,對於問題,並沒有真相和問題標準答案的具體來源;
- 訓練模型更加謹慎,可能會拒絕回答(以避擴音示的誤報);
- 監督訓練可能會誤導 / 偏向模型傾向於知道理想的答案,而不是模型生成一組隨機的響應並且只有人類評論者選擇好的 / 排名靠前的響應。
人工智慧生成的答案有數千個,而這些答案通常需要具有專業知識的人詳細閱讀,才能確定答案實際上是錯誤的,這些錯誤資訊很容易破壞以志願者為基礎的高質量問答社群。
紙質新聞時代,每個事實都必須包含權威的一手或二手資料來源,但現在已經很少有出版物有事實核查員,這就把責任推給了記者和編輯。資訊爆炸時代,以人為媒介傳播的虛假資訊尚且讓稽核機制「頭疼」,很難想象當人工智慧開始傳播虛假資訊,所帶來的挑戰。尤其是在這個輿論時常反轉的時代,只要一個訊息聽起來合理,許多人就會認為這是正確的。