如果 AI 模型訓練資料用完了怎麼辦？

人工智慧（AI）的快速發展主要取決於能否獲得準確且大規模的訓練資料。隨著人工智慧在各個領域的應用不斷擴展，許多公司正面臨訓練資料匱乏的挑戰，這會影響其開發的智慧模型的品質和有效性。那麼，我們該如何克服資料短缺的困境，繼續訓練開發人工智慧系統呢？

網路看似擁有大量數據，但人工智慧已經消耗了大部分可用的開源數據。然而，這並不意味著人工智慧的發展將停滯不前。我們可以利用現代策略來彌合資料鴻溝，例如產生合成資料、收集個人化資料以及以創新方式使用非結構化資料。在本文中，我們將探討這些創新解決方案，以及它們如何支援人工智慧的發展，確保人工智慧持續提升效能，為使用者創造更大價值。

1. 此外，數據始終在線添加。

簡而言之，AI 研究所表示：時代到 2026 年，用於訓練人工智慧的高品質資料可能會耗盡。

這裡的關鍵字是「可能」。網路上新增的資料量每年都在增加，因此在2026年之前可能會發生一些根本性的變化。然而，這仍然是一個合理的估計——無論如何，人工智慧系統的優質數據終有一天會耗盡。

然而，我們必須記住，每年大約有 147 ZB 的數據被添加到網路上（根據爆炸性話題）。僅 1 ZB 就相當於 1,000,000,000,000,000,000,000 位元資料。實際上，這相當於超過 300 億部 4K 電影（真實存在，但深不可測）。對 AI 來說，要篩選如此龐大的資訊量實在令人震驚。

然而，人工智慧消耗數據的速度比人類產生數據的速度還要快…

2.人工智慧可能會忘記低品質的數據。

當然，這147ZB的數據並非都是好數據。數據量遠超過我們所能看到的。但據估計，到2050年，人工智慧也將消耗低品質的語言資料。

她提到路透社（Reuters） Photobucket 曾是全球最大的圖片庫之一，目前正在洽談將其龐大的圖片庫授權給 AI 訓練公司。這些圖片庫包含 DALL-E 和 Midjourney 等訓練模型的數據，但即便如此，到 2060 年也可能耗盡。此外，還有一個更大的問題：Photobucket 包含的圖片來自 Myspace 等 2000 年代的社群媒體平台，這意味著它們的品質不如現在的攝影作品。這導致數據品質較低。

Photobucket 並非孤例。 2024 年 2 月，Google與 Reddit 達成協議，允許這家搜尋巨頭使用該社群媒體平台的用戶資料進行 AI 訓練。其他社群媒體平台也提供使用者資料用於 AI 訓練；有些平台使用這些資料來訓練內部 AI 模型，例如 Meta 的 Llama。

然而，儘管可以從低品質數據中提取一些見解，但據報道，微軟正在開發一種讓人工智慧選擇性「忽略」數據的方法。該解決方案主要用於智慧財產權問題，但也可能意味著工具可能會忘記從低品質資料集中學到的知識。

我們可以向人工智慧提供更多數據，而不必過於挑剔；然後這些人工智慧系統就可以挑選出最有用的數據來學習。

3. 語音辨識解鎖影片和播客中可用的資料。

迄今為止，輸入人工智慧工具的數據主要由文字組成，其次是圖像。這種情況無疑將會改變，而且很可能已經發生了改變，因為語音辨識軟體意味著大量可用的視訊和播客也可以用來訓練人工智慧。

值得注意的是，OpenAI 開發了用於自動語音辨識 (ASR) 的開源神經網絡，耳語OpenAI 利用 680.000 小時的多語言、多任務數據，將 YouTube 影片的超過一百萬小時的資訊輸入到其大型語言模型 GPT-4 中。

對於其他人工智慧系統來說，這是一個完美的模型，它們使用語音識別從多個來源轉錄視訊和音頻，並透過其人工智慧模型運行這些數據。

根據 Statista每分鐘都有超過 500 小時的影片上傳到 YouTube，這一數字自 2019 年以來一直保持穩定。這還不包括 Dailymotion 和 Podbean 等其他視訊和音訊平台。即使 AI 能夠將注意力轉向這些新的資料集，仍有大量資訊有待擷取。

4. AI 基本上堅持使用英語。

我們從 Whisper 學到的遠不止這些。 OpenAI 使用 117000 萬小時的非英語音訊資料訓練了該模型。這一點尤其值得關注，因為許多 AI 系統主要使用英語進行訓練，或透過西方視角看待其他文化。

本質上，大多數工具都受到其創造者的文化的約束。

以 ChatGPT 為例。 2022 年發售後不久，吉爾·沃克·雷特伯格挪威卑爾根大學數位文化教授對 ChatGPT 進行了實驗，並得出以下結論：

ChatGPT 對挪威文化了解不多。或者更確切地說，它對挪威文化的了解被認為主要來自英語來源……ChatGPT 顯然與美國的價值觀和法律相符。在許多情況下，這些價值觀與挪威和歐洲的價值觀相近，但情況並非總是如此。

人工智慧系統可以進化，與更多不同國籍的人互動，或使用更多樣化的語言和文化來訓練它們。目前，許多人工智慧模型僅限於單一庫；如果能獲得全球圖書館的存取權限，這一領域可能會進一步擴展。

5. 出版社可以幫助發展人工智慧。

智慧財產權顯然是一個重大問題，但一些出版商可以透過簽訂授權協議來推動人工智慧的發展。這意味著為工具提供來自書籍的高品質、可靠的數據，而不是來自線上資源的低品質資訊。

事實上，據報道，擁有 Facebook、Instagram 和 Whatsapp 的 Meta 公司曾考慮收購「五大」出版商之一的西蒙與舒斯特公司。他們的想法是利用該公司出版的文獻來訓練 Meta 的人工智慧。這筆交易最終失敗了，或許是因為該公司在未經作者事先同意的情況下操縱 IP 位址，這存在道德灰色地帶。

另一個正在考慮的方案是購買新作品的單獨授權。這可能會給創作者帶來很大的困擾，但如果可用數據耗盡，這仍然是開發人工智慧工具的有趣途徑。

6. 合成數據是未來。

所有其他解決方案仍然有限，但有一種選擇可能引領人工智慧的未來：合成數據。它已被作為一種非常現實的可能性來研究。

那麼，什麼是合成數據呢？它是由人工智慧創建的數據；就像人類創建數據一樣，這種方法將使人工智慧創建用於訓練目的的數據。

事實上，AI 可以製作令人信服的深度偽造影片。這段深度偽造影片可以回饋給 AI，讓它從本質上虛構的場景中學習。畢竟，這是人類學習的主要方式之一：我們透過閱讀或觀看某些內容來理解周圍的世界。

人工智慧系統很可能已經消費了合成資訊。 Deepfake 技術已經在網路上傳播了錯誤訊息和虛假訊息，因此當人工智慧系統掃描網路內容時，自然會有一些系統接觸到虛假內容。

是的，這其中也存在著惡意的一面。它還會損害或限制人工智慧系統，加劇並傳播這些工具所犯的錯誤。各公司正努力消除這個問題；然而，「人工智慧相互學習並犯錯」這一說法，卻成了許多科幻小說中噩夢場景的常見情節。

7. 更好地利用人工智慧

人工智慧工具備受爭議。它們有很多缺點，但批評者忽略了它們的好處。例如，審計與諮詢網絡指出羅兵咸永道 [PDF] 到 2030 年，人工智慧可能為全球經濟貢獻高達 15.7 兆美元。

此外，人工智慧已在世界各地廣泛應用。你可能已經以各種形式使用過它，甚至可能沒有意識到。現在，魔鬼已經從瓶子裡出來了，關鍵當然是用可靠、高品質的數據來訓練它，這樣我們才能更好地利用它。

人工智慧有利有弊，但肯定需要找到一個平衡點。

由於缺乏可用的訓練數據，人工智慧工具面臨日益嚴峻的挑戰，這可能會阻礙其發展和進步。為了克服這項挑戰，人們正在採用一些創新解決方案，例如使用合成數據、利用無監督學習以及促進組織間的合作以共享數據。這些解決方案有助於提供新的數據來源，從而確保智慧模型能夠持續且有效率地改進和發展。