智能招聘-簡歷解析技術方案回憶及SmartResume demo方案解讀 原創
這次看到這個開源的一個demo,想起若干年前做過的項目和參加的一些類似比賽經歷,先來看看llm出來之前是怎么干的,兩種:
- ocr(pdfparser等)解析簡歷的文字內容 + bert-crf(更早的比賽經歷就不追溯了,那會bert都沒出來,可以看看下圖)等進行實體識別
- 結合cv的方式,版式分析+ocr+bert-crf等進行實體識別

pdfparser解析pdf(可編輯pdf情況,圖片pdf使用ocr)

簡歷信息實體識別,很早之前的ner模型,后面演變成bert類
實體識別干了什么呢?
- 姓名聯系方式解析:NER可以幫助提取簡歷中的聯系方式,如電話號碼、電子郵件地址等。
- 教育背景解析:NER可以幫助提取簡歷中的教育背景信息,如學校名稱、專業、學位等。
- 工作經驗解析:NER可以幫助提取簡歷中的工作經驗信息,如公司名稱、職位名稱、工作時間等。
- 技能關鍵字解析:NER可以幫助提取簡歷中涉及的技能關鍵字,如語言能力、技術框架等。
有了上述概念,再來看本文接下來要將的框架(如下圖)就很清楚,基本上一句話概括:使用layout劃分簡歷的區塊(個人信息、教育經歷、項目經歷、其他)+ ocr識別相應區塊的文字+llm對相應文本進行實體識別。

SmartResume pipline
也就是說,把曾經bert干的事情,使用llm替換了,因此,只要不考慮解析速度,這套系統其實是不錯的。
題外話,解析得到相應的字段后,就是各種字段結果的標準化映射了,比如:公司名稱mapping、日期標準化等等。
來看下性能:在llm出來之前,我映像中各種模型+工程手段的簡歷解析模型速度快,準確率那時候已經很高了,llm在這個demo系統的pipline中也僅僅是替換了以前的bert模型,也許上下文上面有一些優勢(畢竟bert之前是512長度)。
結論:pipline系統和以前的處理其實是一樣的,這里面最重要的部分其實是如何準確的劃分出簡歷的各個區塊并將提取到區塊內的文本恢復順序。

參考文獻:Layout-Aware Parsing Meets Efficient LLMs: A Unified, Scalable Framework for Resume Information Extraction and Evaluation,https://arxiv.org/abs/2510.09722,
repo:https://github.com/alibaba/SmartResume/blob/main/README_CN.md
本文轉載自???大模型自然語言處理??? 作者:老余

















