GitHub遭炮轟:Copilot“抄襲”已經失控,為訓練AI侵權整個社區
本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。
7月7日,一位網友在推特上公開炮轟GitHub:

這位用戶貼出了一封GitHub的郵件回復。
郵件中,GitHub官方確認了他們會使用所有GitHub公開代碼來訓練Copilot,并且不區分License類別。
而在之前,明明官方有過“Copilot是在GPL代碼的基礎上訓練出來的”這種說法,但之后GitHub的CEO又表示:
每天都有數百名GitHub的開發者在使用Copilot,如果預覽版進展順利的話,我們將計劃在未來某個時候將其擴展為付費產品。
完全就是一副視General Public License如無物的樣子。
這位博主諷刺到,遵守版權的只有窮人和無產者,富人和大公司想怎么做都可以。

這個消息一出,網友們直接炸了。
“我們不區分License”
不區分License類別,這意味著什么?
不管是使用了以下哪一份協議的代碼,GitHub都有可能拿來訓練Copilot。

△圖源博客《如何選擇開源許可證?》
如果未來Copilot真的變成付費商品,那么對于很多并不允許被修改后拿去商用的源代碼來說,這毫無疑問是一種侵權行為。
更何況還包括了整個GitHub里的所有代碼!
在GitHub自己的服務協議(ToS)里,他們可都表示“這份協議并沒有給GitHub出售您內容的權利”:

不過有人覺得事情沒那么嚴重:
他們沒有真正出售代碼,他們賣的是一種代碼組合的模式。

確實,GitHub官方有說過Copilot“通常不會精確復制代碼塊”。
但馬上就有人反駁:
可是大量的例子表明Copilot就是在逐字復制-粘貼代碼塊,實質上不就是在出售別人的代碼嗎?

而且,要是Copilot自動生成的代碼就是從別處一字不差的照搬來的呢?
又或者來自某個不允許被商用的源代碼,而用戶又拿著這些自動生成的代碼去商用了呢?
不僅是GitHub自己違背版權,這種不顧License的商用也有可能讓用戶在無意識間面臨被起訴的風險。
而GitHub Copilot的下載頁面中,并沒有與此相關的法律風險的提示。
最開始曝出這一事件的博主表示:
GitHub以及微軟認為,個人和小型社區項目的版權是沒有價值的。這也就是為什么他們會和自由軟件們打成一片;他們從來都沒打算尊重過我們的權利。

而目前,GitHub還沒有對這件事作出回應。
抄襲可恥,AI無罪?
Copilot上周二由GitHub和OpenAI聯合發布。
至此,發布不到兩周,Copilot就深陷“版權侵犯”的質疑之中。
在發布之初時,GitHub稱:
Copilot可以分析文檔中的字符串、注釋、函數名稱以及代碼本身,從而生成新的匹配代碼,包括之前調用的特定函數。
簡單來說,這就是個“自動代碼生成器”。
剛剛發布時有人把Copilot拉去刷Leetcode的題庫,結果這位“AI程序員”每次都能通過Leetcode的測試,代碼生成速度還近乎實時:

只要寫下一段注釋,Copilot就能補全剩下的代碼,并提出改進的建議。
不僅能為真的程序員節省查找時間,還能提高編程效率,看起來好像真的很美好。
但GitHub的CEO的那句要把Copilot商用的未來期望馬上就引來了滿城風雨。
馬上就有一位網友表示:
根據他們自己的說法,Github Copilot是在GPL代碼的基礎上訓練出來的,這不就是把開源代碼洗成商業產品嗎。

而這位程序員也提到,Copilot并沒有做到它說的“不會精準復制某個代碼塊”。
兩天后,另一位網友就驗證了這一說法。
在這段網友放出的視頻中,只打出Fast Inverse Square Root(平方根倒數速算法)四個字,Copilot就“完美復刻”《雷神之錘3》里的那段著名的算法:

甚至連那句WTF的經典注釋都沒有放過。
隨后,矛盾進一步深化。
7月3日,有開發者站出來抵制GitHub Copilot,表示自己再也不會使用GitHub來托管代碼:

這位抵制者認為:
我不同意GitHub在未經授權和未經許可的情況下,使用受版權保護的源代碼作為其Copilot產品的訓練數據。該產品將受版權保護的源代碼放入使用者的軟件中,而不告知他們源代碼的許可,這導致了對版權所有者作品的未經授權和未經許可的不當使用。
而現在,官方確認的“不顧開源許可證,以GitHub上所有開源代碼來訓練”這一事實,更是引爆了整個社區。

現在,已經有科技公司明確表示:禁止員工使用GitHub Copilot。
































