不要上來就大模型,從訓練一個小模型開始 原創
“ 從訓練一個小模型開始,大模型太復雜小模型剛剛好 ”
有句老話叫眼高手低,最近發現有些人就是眼高手低的現實案例,在什么都不懂的情況下就想搞大模型,小模型還看不上。
但其實最好的方式是從一個小模型開始,至于原因就是因為小模型相對比較簡單一點,其次就是硬件要求較低,普通人能夠玩的轉。
從小模型開始
為什么建議大家從小模型開始,特別是一些開源小模型?
之所以建議大家剛開始以小模型為主,原因就是因為從技術原理來說,大模型和小模型沒有本質上的區別;只不過大模型和小模型由于量變導致的質變,大模型的復雜度與小模型不能同日而語。
而從學習和使用的角度來說,大模型和小模型最大的差距就是對算力的需求;雖然從效果上來說,小模型遠不如大模型,但學習和使用小模型能夠讓我們快速地摸清大模型技術的脈絡和主要框架。
最重要的是小模型有很強的實操性,因為其算力成本低,甚至可以在個人電腦上進行部署和運維,而且使用個人電腦也可以對它們進行訓練和微調,這樣就大大降低了我們的學習難度。
以個人的經歷來說,在剛開始學習大模型技術的時候,也是和很多人一樣,要學就學技術最牛逼的;但等真的把大模型技術應用到工作之后才發現,原來大模型技術也沒有想象中的那么復雜,但也沒有想象中的那么簡單。
在之前,一直以為訓練和微調一個大模型,至少也要幾千萬條數據;但在工作中使用到的一些小模型,只需要幾百,甚至幾十條數據就可以完成微調任務,而且效果還不錯。
當然,這里并不是說自己有多厲害,而是這些開源模型的作者很厲害;經過它們精心微調過的模型,只需要經過簡單的調整就可以適配到相似的業務體系中。
而如果繼續用大模型的思路,去訓練和微調一個大模型,說句實話有幾個企業能夠支撐的了你的需求?

不說大模型數據訓練和微調所需要的資金,算力等問題,就大模型訓練所需要的訓練和微調數據的收集,就已經是一個很大的工程量了。
不知道大家有沒有在抖音上看到過一個用四個月時間訓練模型打蚊子的哥們,雖然并不知道他訓練模型用了多大的數據量,但從他手動標注數據的情況下,他的數據量應該不是很大,而且他的操作好像都是在個人主機上完成的。
所以,訓練和微調一個大模型很難,而且因為算力和資金的限制導致很多人無法進行真正的實操大模型;因此小模型是一個不錯的選擇,可以根據自己的喜好和需求,訓練一個能夠滿足我們日常工作和生活的小模型其實也是一個挺不錯的選擇。
最重要的是只要我們發揮想象力,那它真的很好玩。
最近,因為工作原因導致比較忙,等后續有空閑時間,也準備自己訓練和微調一個小模型來完成自己的喜好。到時候會全程分享需求,模型選擇和訓練的過程。
最重要的是,大模型技術的理論看了一大堆,可能很多地方依然不明不白,或者就是覺得自己都看懂了,實際上卻什么都不懂;這時通過自己訓練和微調模型,就能加深自己對大模型技術的體會與理解。
本文轉載自公眾號AI探索時代 作者:DFires
原文鏈接:??https://mp.weixin.qq.com/s/B16l-xnxXZUkBrG8Q3QojQ???

















