多模態文檔智能解析-MonkeyOCR v1.5框架、數據構造及特點
原創
多模態的解析大家的方案越來越趨近相同,繼續看《??文檔智能??》,快速過一下基于多模態視覺語言模型MonkeyOCRv1.5的兩階段文檔解析技術報告及數據設計。ps:模型權重暫未開源。性能對比《???文檔解析進展??》如下:整體框架如下圖,兩階段的pipline框架,與mineru一樣,VLM同時負責layout、閱讀順序和版面元素識別解析。第一階段{"label":"Table","bbox":[187,98,517,111],"index":0},{"label":"Image","bbox":[xx,1x...