
譯者 | 劉汪洋
審校 | 重樓
開源軟件是什么?簡單說,就是源代碼對所有人開放,任何人都能自由使用和修改的軟件開發方式。這個理念從誕生起就推動著技術創新。
1983 年,軟件開發者理查德·斯托曼(Richard Stallman)因無法獲取一臺出現故障的閉源打印機的源代碼而感到沮喪。正是這次經歷,催生了自由軟件運動。從那時起,開源生態系統一步步發展壯大,成為今天互聯網和軟件創新的重要推動力。
但這已經是 40 多年前的事了。
如今,生成式 AI 帶來了全新的技術和倫理挑戰。它正在改變我們對"開放"的理解。我們需要重新思考開源模式,不是要放棄開源,而是讓它適應新時代。
AI 與開源自由
傳統開源軟件有四項基本自由:運行、研究、修改和重新分發任何軟件代碼。但生成式 AI 的特性與這些自由原則存在根本沖突:
- 運行方面:AI 模型需要強大的基礎設施和巨額計算成本。很多人根本跑不起,這就等于限制了訪問。
- 研究和修改方面:AI 模型極其復雜。如果拿不到代碼和訓練數據,想要理解和修改它們幾乎是不可能的。
- 重新分發方面:許多 AI 模型從設計上就不讓你隨意分發,特別是那些包含訓練權重和專有數據集的模型。
這些限制并不是故意的,而是現代 AI 系統的復雜性和成本造成的。訓練最先進的 AI 模型實在太燒錢了。據說 OpenAI 的 GPT-4 訓練成本高達 7800 萬美元,這還不包括員工工資,總支出超過了 1 億美元。
“開源” AI 的復雜局面
真正開放的 AI 模型應該包括什么?推理源代碼、訓練源代碼、模型權重和訓練數據——這些都要完全透明才行。
但現實中,很多打著"開放"旗號的模型只是發布了推理代碼或部分權重。有些提供有限許可,有些完全不讓商業使用。
這種不完全的開放做法給人開源的錯覺,但實際上根本達不到要求。
開放源代碼促進會(Open Source Initiative,OSI)分析發現,幾個聲稱開源的熱門大語言模型——包括 Llama2 和 Llama 3.x(Meta 開發)、Grok(X)、Phi-2(微軟)和 Mixtral(Mistral AI)——在本質上都不符合開源原則。
可持續性和激勵難題
傳統開源軟件主要靠志愿者或資助資金支持,不需要太多基礎設施投入。但 AI 模型不一樣——訓練和維護成本高昂,而且還在不斷上漲。
Anthropic 的 CEO 達里奧·阿莫迪(Dario Amodei)預測,訓練一個頂級模型最終可能要花 1000 億美元 。
沒有可持續的資金模式,開發者陷入了兩難境地:要么通過閉源或非商業許可來限制訪問,要么冒著財務崩潰的風險。
"開放權重"和許可的混亂現狀
AI 模型的可訪問性越來越讓人困惑。許多平臺自稱"開放",但實際上施加了各種限制,這完全違背了真正的開源精神。
這種"掛羊頭賣狗肉"的做法有很多表現:
- 一些標記為"開放權重"的模型完全禁止商業使用。這讓它們更像學術研究工具,而不是供大家探索開發的實用商業工具。
- 有些提供商給你預訓練模型的訪問權,但嚴格保護訓練數據集和方法。這樣一來,你根本沒法復制或驗證他們的研究成果。
- 許多平臺不讓你重新分發模型,阻止開發者在模型基礎上構建或改進,即使你能完全"訪問"代碼。
在這些情況下,“研究開放”不過是“商業封閉”的委婉表達。結果就是一種隱性的供應商綁定——組織在看似開放的平臺上投入時間和資源,但在嘗試擴展或商業化應用時才發現各種限制。
這種混亂不只是讓開發者覺得煩。它嚴重損害了人們對 AI 生態系統的信任。利益相關者合理地認為"開放" AI 應該和開源軟件社區一樣,保證透明度、修改權和商業自由。但現實卻讓他們失望。
法律沒跟上技術發展
生成式 AI 發展得太快,相關法律框架沒跟上,產生了一堆復雜的知識產權問題。
第一個主要爭議圍繞訓練數據的使用。深度學習模型從互聯網獲取大量數據,比如公開圖像和網頁文本。這種大規模數據收集引發了激烈的知識產權爭論。
技術公司說他們的 AI 系統是在"研究和學習"受版權保護的材料,創造新的、變革性的內容。但版權所有者認為這些 AI 公司非法復制了他們的作品,生成的內容威脅到他們的生計。
AI 生成內容的所有權也是個法律模糊地帶。除了美國版權局聲明"如果內容完全由 AI 生成,不能受版權保護"外,沒人確切知道如何給 AI 生成的內容分類。
因為基礎 AI 模型已經成為地緣政治重要工具,所以圍繞生成式 AI 的法律不確定性變得更加復雜。各國在競相開發先進AI能力的過程中,可能不愿限制數據訪問,這使得知識產權保護更為嚴格的國家面臨競爭劣勢。
開源在 AI 時代必須做出改變
生成式 AI 的列車已經開動,而且沒有放緩的跡象。我們希望建設一個 AI 促進創新而不是阻礙創新的未來。
在這種情況下,技術領導者需要一個框架來確保安全透明的商業使用、促進負責任的創新、解決數據所有權和許可問題,并區分"開放"和"免費"。
一個新興概念叫" 為了適應這個新現實,開源社區必須開發 AI 專用的開放許可模式,建立公私合作伙伴關系來資助這些模式,并建立可信的透明度、安全性和倫理標準。 開源曾經改變了世界。生成式 AI 正在再次改變開源。為了保持開放的精神,我們必須更新相關法律條文,承認 AI 的獨特需求,同時直面挑戰,創造一個包容和可持續的生態系統。 劉汪洋,51CTO社區編輯,昵稱:明明如月,一個擁有 5 年開發經驗的某大廠高級 Java 工程師。 原文標題:Rethinking Open Source in the Age of Generative AI,作者:Dr. Yair Adato譯者介紹

































