寫給大模型新人的經驗，刷到少走三年彎路！

丁師兄大模型

發(fā)布于 2025-2-3 13:29

瀏覽

0收藏

大家好，我是丁師兄。

這篇文章，我將結合自己在大模型領域的經驗，給大家詳細聊聊新人應該如何轉行大模型賽道？

比如大模型都有哪些方向？各方向的能力要求和崗位匹配？新手轉行大模型常踩的坑和常見的誤區(qū)？以及入行大模型最順滑的路徑？

如果你是正打算入行大模型的校招/社招同學，請一定看完，可能會讓你在入行大模型的路上，少走很多彎路。

1.大模型都有哪些方向？

如果你在求職網站搜索"大模型"關鍵詞，看一下招聘 JD，基本可以了解現(xiàn)在業(yè)內對大模型工程師的需求方向和能力要求.。

總結一下，大致可以分為 4 類：

做數(shù)據的（大模型數(shù)據工程師，爬蟲/清洗/ETL/Data Engine/Pipeline）
做平臺的（大模型平臺工程師，分布式訓練/大模型集群/工程基建）
做應用的（大模型算法工程師，搜/廣/推/對話機器人/AIGC）
做部署的（大模型部署工程師，推理加速/跨平臺/端智能/嵌入式）

2.大部分新手的誤區(qū)

如果是你，看到這幾個方向，會怎么選？我估計很多人都直奔第三點去了，堅定的要做應用，走在所有工種的最前沿，做出讓老板，用戶都看得到的核心"產品"。

不過這里我不禁要給各位潑一點冷水，在 AI 算法這個行業(yè)，三是很吃業(yè)務經驗的，如果你之前本身就是做算法的，比如是做 NLP，又或者是做語音助手，對話機器人這類的，再順水推舟做相關方向的大模型算法工程師，這是比較合適的。

在自身業(yè)務里融入一些大模型的算法和技法，拿到實際的業(yè)務產出，去市面上也比較好找這類崗位。

但如果你是 CS 方向的實習生/應屆畢業(yè)生，或者其他 IT 方向轉行大模型，3 未必是一個最好的選擇，大家不要帶著一個誤區(qū)：大模型算法工程師就是調模型，調超參，做一做預訓練，做一做 finetune，SFT 之類的活。

實際上呢，這部分工作只有很少人做，基本一個 team 中只有個位數(shù)的人，或者只是算法工作的很小的一部分。

注意一點，新人進去 90% 以上都不可能直接讓你干算法模型調優(yōu)的活，大部分可能還是讓你配環(huán)境，搭鏈路，清洗數(shù)據，分析數(shù)據，調研，寫一寫 function，tools。

這些體力活都干熟了以后，可能才會讓你跑一些模型實驗。其中比較出色的，腦子比較靈活的同學，才會慢慢讓他們開始接觸線上業(yè)務。

也有很多同學，干了好幾年，還是在干一些邊角料，臟活，雜活，根本接觸不到核心業(yè)務。對于剛入行的新人，如果你學歷背景好點，可以去大公司做 intern 然后轉正，背景差一點，可以去中小公司，積累業(yè)務經驗。

3.數(shù)據很重要！

然后很多人可能往往忽視了上面的 1，2，4，覺得我學了這么多算法知識，學了機器學習，深度學習，還了解大模型，再去做數(shù)據，有點屈才了。

但我想告訴你的是，1 是更多轉行大模型同學更容易上岸的方式。條條大路通羅馬，不是只有一條路走到黑。

首先，目前國外的大模型技術至少領先國內兩年，雖然國內已經有幾十上百個“大模型”了，但真正能打的并沒有幾個。探究原因，還是有很多技術沒有突破。

算法本身來說，GPT 已經不是什么秘密了。那剩下還有什么呢，一是數(shù)據，二是工程技巧。

拿數(shù)據來說，先說通用的大模型訓練，數(shù)據的來源，從哪里采，數(shù)據的質量怎么把控，如何過濾有毒信息，語言的篩選與比例，數(shù)據的去重，以及數(shù)據的規(guī)范化處理，評測集的構建。這些既是體力活，又是技術活。

對于垂直領域，比如金融，電商，法律，車企，這種領域數(shù)據的構建就更考驗技術了，業(yè)務數(shù)據怎么來，數(shù)據不夠怎么辦，完全沒有數(shù)據怎么辦？如果構建高質量的微調數(shù)據？

能把這些問題解決好，模型也就成功了一大半。因此，就目前的現(xiàn)狀，對于數(shù)據工程師，特別是有經驗的數(shù)據工程師，是非常稀缺的。

4.大模型平臺干些啥？

然后說下 2，大模型平臺工程師。如果你之前是做工程的，或者對工程比較感興趣，我比較建議你選 2。

這二者其實并沒有本質的區(qū)別，都是為了大模型業(yè)務服務的，也叫大模型基礎設施的建設，作用就是讓大模型 train 得更好，大模型跑得更快。

這塊主要是干些啥呢？

從計算層面來說，有分布式計算，并行計算，高性能計算，有些公司對這三者也不加區(qū)分。

從硬件層面來說，有搞大模型訓練集群，GPU 集群，CPU/GPU 混部集群，池子里要管理幾百上千張卡，還要負責他們的利用率，機器的健康狀況，有沒有掛的，中小公司這塊基本都是開發(fā)和運維一體的，一個工作干兩個工種的活。

從平臺層面來說，有做 LLMOps 的，也就是 pipeline。集數(shù)據 IO，模型訓練，預測，上線，監(jiān)控于一體，這種就是跟著業(yè)務團隊走，做適配，造很多高效的輪子，方面業(yè)務團隊使用，減少他們額外重復開發(fā)的時間。

這塊整體上來說，在大模型時代穩(wěn)中有升，因為實際上很多公司這方面的人都是從之前搞深度學習平臺，大規(guī)模機器學習平臺的人招過來的，技術上的 gap 相對比較小。因此，對于 AI 工程感興趣的，可以選這個方向。

5.大模型部署干些啥？

最后說一下 4，大模型部署工程師。這個崗位之前也有，不過在大模型這一兩年尤其的火熱。

什么原因呢？

因為部署大模型太費錢了。首先模型延遲本身就高，30B 以上的模型，對算力，顯存要求很高。

老板關心什么？一方面是大模型產品，也就是業(yè)務指標要好看，方便 PR。另一方面也要求控制成本(大廠/獨角獸除外)。

一般企業(yè)里面，一個 P8 級別的 leader，要在公司里面搶業(yè)務，拉資源，找人力，本身就是一個不容易的事。

“降本增效”是 23 年以來，幾乎所有公司的一個主旋律。所以老板們很關心你節(jié)約了多少錢，比如你把推理效率提高一倍，那就實實在在降低了一倍的成本。

回到大模型部署工程師來，這個崗位總體有兩個方向的工作：云端部署和端側部署。

云端比較好理解，可以做推理加速平臺，也可以隨著業(yè)務走，做大模型定制化加速。

比如 Qwen-7b 的加速，還可以做大模型推理引擎，比如搜索/問答的推理引擎，一般是在高并發(fā)用戶場景下，在保證用戶 SLO 的前提下，最優(yōu)化 latency 和 throughput。

另一個大方向是端側的部署。也就是在消費級 GPU/NPU 以及邊端設備下，部署大模型，同時讓領域大模型小型化，讓業(yè)務能實際工程落地。

總的來說，大模型部署工程師對工程能力，系統(tǒng)能力，以及硬件等方面都要有一定的了解，現(xiàn)在各種推理框架出來以后，降低了一點難度，但仍然是一個比較有競爭力的工種。

你得了解計算圖和 OP 的優(yōu)化，得了解各種推理框架，緩存/顯存優(yōu)化，還有 LLM 結構運行時的系統(tǒng)架構。這個崗位一般不推薦新人入場，因為太吃經驗了。建議先從 2 進場，然后逐步轉到 4。

6.總結

最后，給準備入場大模型的新人幾點建議：

不要只關心 finetune，SFT，RLHF，作為系統(tǒng)性學習是 OK 的，切忌花太多精力。
想做應用的，建議 focus 到某個垂直領域，比如對話機器人，問答系統(tǒng)，金融/醫(yī)療/教育方向，找一個具體的場景，把它做好，做深。
多關心數(shù)據，data pipeline，高質量訓練/測試集的構建經驗，對數(shù)據的sense，是最直接，也是最適合用到未來工作當中的。
大模型不只有算法，也可以有工程。大公司拼的都是基建，平臺是對業(yè)務的支撐，牛逼的 infrastrure 是大模型產品成功不可或缺的因素。

本文轉載自??丁師兄大模型??，作者：丁師兄 ????

標簽

算法

RLHF

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂