寫給大模型新人的經驗,刷到少走三年彎路!
大家好,我是丁師兄。
這篇文章,我將結合自己在大模型領域的經驗,給大家詳細聊聊新人應該如何轉行大模型賽道?
比如大模型都有哪些方向?各方向的能力要求和崗位匹配?新手轉行大模型常踩的坑和常見的誤區(qū)?以及入行大模型最順滑的路徑?
如果你是正打算入行大模型的校招/社招同學,請一定看完,可能會讓你在入行大模型的路上,少走很多彎路。
1.大模型都有哪些方向?
如果你在求職網站搜索"大模型"關鍵詞,看一下招聘 JD,基本可以了解現(xiàn)在業(yè)內對大模型工程師的需求方向和能力要求.。
總結一下,大致可以分為 4 類:
- 做數(shù)據的(大模型數(shù)據工程師,爬蟲/清洗/ETL/Data Engine/Pipeline)
- 做平臺的(大模型平臺工程師,分布式訓練/大模型集群/工程基建)
- 做應用的(大模型算法工程師,搜/廣/推/對話機器人/AIGC)
- 做部署的(大模型部署工程師,推理加速/跨平臺/端智能/嵌入式)
2.大部分新手的誤區(qū)
如果是你,看到這幾個方向,會怎么選?我估計很多人都直奔第三點去了,堅定的要做應用,走在所有工種的最前沿,做出讓老板,用戶都看得到的核心"產品"。
不過這里我不禁要給各位潑一點冷水,在 AI 算法這個行業(yè),三是很吃業(yè)務經驗的,如果你之前本身就是做算法的,比如是做 NLP,又或者是做語音助手,對話機器人這類的,再順水推舟做相關方向的大模型算法工程師,這是比較合適的。
在自身業(yè)務里融入一些大模型的算法和技法,拿到實際的業(yè)務產出,去市面上也比較好找這類崗位。
但如果你是 CS 方向的實習生/應屆畢業(yè)生,或者其他 IT 方向轉行大模型,3 未必是一個最好的選擇,大家不要帶著一個誤區(qū):大模型算法工程師就是調模型,調超參,做一做預訓練,做一做 finetune,SFT 之類的活。
實際上呢,這部分工作只有很少人做,基本一個 team 中只有個位數(shù)的人,或者只是算法工作的很小的一部分。
注意一點,新人進去 90% 以上都不可能直接讓你干算法模型調優(yōu)的活,大部分可能還是讓你配環(huán)境,搭鏈路,清洗數(shù)據,分析數(shù)據,調研,寫一寫 function,tools。
這些體力活都干熟了以后,可能才會讓你跑一些模型實驗。其中比較出色的,腦子比較靈活的同學,才會慢慢讓他們開始接觸線上業(yè)務。
也有很多同學,干了好幾年,還是在干一些邊角料,臟活,雜活,根本接觸不到核心業(yè)務。對于剛入行的新人,如果你學歷背景好點,可以去大公司做 intern 然后轉正,背景差一點,可以去中小公司,積累業(yè)務經驗。
3.數(shù)據很重要!
然后很多人可能往往忽視了上面的 1,2,4,覺得我學了這么多算法知識,學了機器學習,深度學習,還了解大模型,再去做數(shù)據,有點屈才了。
但我想告訴你的是,1 是更多轉行大模型同學更容易上岸的方式。條條大路通羅馬,不是只有一條路走到黑。
首先,目前國外的大模型技術至少領先國內兩年,雖然國內已經有幾十上百個“大模型”了,但真正能打的并沒有幾個。探究原因,還是有很多技術沒有突破。
算法本身來說,GPT 已經不是什么秘密了。那剩下還有什么呢,一是數(shù)據,二是工程技巧。
拿數(shù)據來說,先說通用的大模型訓練,數(shù)據的來源,從哪里采,數(shù)據的質量怎么把控,如何過濾有毒信息,語言的篩選與比例,數(shù)據的去重,以及數(shù)據的規(guī)范化處理,評測集的構建。這些既是體力活,又是技術活。
對于垂直領域,比如金融,電商,法律,車企,這種領域數(shù)據的構建就更考驗技術了,業(yè)務數(shù)據怎么來,數(shù)據不夠怎么辦,完全沒有數(shù)據怎么辦?如果構建高質量的微調數(shù)據?
能把這些問題解決好,模型也就成功了一大半。因此,就目前的現(xiàn)狀,對于數(shù)據工程師,特別是有經驗的數(shù)據工程師,是非常稀缺的。
4.大模型平臺干些啥?
然后說下 2,大模型平臺工程師。如果你之前是做工程的,或者對工程比較感興趣,我比較建議你選 2。
這二者其實并沒有本質的區(qū)別,都是為了大模型業(yè)務服務的,也叫大模型基礎設施的建設,作用就是讓大模型 train 得更好,大模型跑得更快。
這塊主要是干些啥呢?
從計算層面來說,有分布式計算,并行計算,高性能計算,有些公司對這三者也不加區(qū)分。
從硬件層面來說,有搞大模型訓練集群,GPU 集群,CPU/GPU 混部集群,池子里要管理幾百上千張卡,還要負責他們的利用率,機器的健康狀況,有沒有掛的,中小公司這塊基本都是開發(fā)和運維一體的,一個工作干兩個工種的活。
從平臺層面來說,有做 LLMOps 的,也就是 pipeline。集數(shù)據 IO,模型訓練,預測,上線,監(jiān)控于一體,這種就是跟著業(yè)務團隊走,做適配,造很多高效的輪子,方面業(yè)務團隊使用,減少他們額外重復開發(fā)的時間。
這塊整體上來說,在大模型時代穩(wěn)中有升,因為實際上很多公司這方面的人都是從之前搞深度學習平臺,大規(guī)模機器學習平臺的人招過來的,技術上的 gap 相對比較小。因此,對于 AI 工程感興趣的,可以選這個方向。
5.大模型部署干些啥?
最后說一下 4,大模型部署工程師。這個崗位之前也有,不過在大模型這一兩年尤其的火熱。
什么原因呢?
因為部署大模型太費錢了。首先模型延遲本身就高,30B 以上的模型,對算力,顯存要求很高。
老板關心什么?一方面是大模型產品,也就是業(yè)務指標要好看,方便 PR。另一方面也要求控制成本(大廠/獨角獸除外)。
一般企業(yè)里面,一個 P8 級別的 leader,要在公司里面搶業(yè)務,拉資源,找人力,本身就是一個不容易的事。
“降本增效”是 23 年以來,幾乎所有公司的一個主旋律。所以老板們很關心你節(jié)約了多少錢,比如你把推理效率提高一倍,那就實實在在降低了一倍的成本。
回到大模型部署工程師來,這個崗位總體有兩個方向的工作:云端部署和端側部署。
云端比較好理解,可以做推理加速平臺,也可以隨著業(yè)務走,做大模型定制化加速。
比如 Qwen-7b 的加速,還可以做大模型推理引擎,比如搜索/問答的推理引擎,一般是在高并發(fā)用戶場景下,在保證用戶 SLO 的前提下,最優(yōu)化 latency 和 throughput。
另一個大方向是端側的部署。也就是在消費級 GPU/NPU 以及邊端設備下,部署大模型,同時讓領域大模型小型化,讓業(yè)務能實際工程落地。
總的來說,大模型部署工程師對工程能力,系統(tǒng)能力,以及硬件等方面都要有一定的了解,現(xiàn)在各種推理框架出來以后,降低了一點難度,但仍然是一個比較有競爭力的工種。
你得了解計算圖和 OP 的優(yōu)化,得了解各種推理框架,緩存/顯存優(yōu)化,還有 LLM 結構運行時的系統(tǒng)架構。這個崗位一般不推薦新人入場,因為太吃經驗了。建議先從 2 進場,然后逐步轉到 4。
6.總結
最后,給準備入場大模型的新人幾點建議:
- 不要只關心 finetune,SFT,RLHF,作為系統(tǒng)性學習是 OK 的,切忌花太多精力。
- 想做應用的,建議 focus 到某個垂直領域,比如對話機器人,問答系統(tǒng),金融/醫(yī)療/教育方向,找一個具體的場景,把它做好,做深。
- 多關心數(shù)據,data pipeline,高質量訓練/測試集的構建經驗,對數(shù)據的sense,是最直接,也是最適合用到未來工作當中的。
- 大模型不只有算法,也可以有工程。大公司拼的都是基建,平臺是對業(yè)務的支撐,牛逼的 infrastrure 是大模型產品成功不可或缺的因素。

















