為什么數(shù)據(jù)格式那么多,大模型卻獨(dú)愛(ài) Markdown?背后的原理其實(shí)很簡(jiǎn)單 原創(chuàng)
“ markdown之所以成為大模型的首選格式,就在于其簡(jiǎn)單的格式。”
在之前介紹RAG的文章中,不止一次的提到過(guò)在知識(shí)庫(kù)的建設(shè)中,使用markdown作為主要的存儲(chǔ)格式;原因就在于一個(gè)現(xiàn)象,明明數(shù)據(jù)格式有那么多,為什么大模型選擇了markdown格式?
以我們常見(jiàn)的數(shù)據(jù)格式為例,有普通文本,xml,json,html,markdown等;但如果我們仔細(xì)觀察就會(huì)發(fā)現(xiàn),除了一些對(duì)數(shù)據(jù)格式要求比較高的場(chǎng)景之外,在大模型應(yīng)用中的主要格式就是markdown?
為什么會(huì)產(chǎn)生這種情況呢?
不同格式的數(shù)據(jù)和大模型
文檔可以說(shuō)是我們?nèi)粘9ぷ髦薪佑|到的最多的東西了,而常見(jiàn)的文檔格式又多種多樣;在日常辦公中的word,pdf,ppt等,開(kāi)發(fā)中常用的markdown(技術(shù)文檔),html,xml,json等格式的數(shù)據(jù)。

但是,在大模型中我們最常見(jiàn)的輸出格式確實(shí)markdown,這是為什么呢?
我們通常使用Markdown格式來(lái)展示大模型相關(guān)的技術(shù)文檔和回答,原因包括:
- 可讀性強(qiáng):Markdown語(yǔ)法簡(jiǎn)單,易于閱讀和編寫(xiě),同時(shí)可以輕松轉(zhuǎn)換為HTML等其他格式。
- 兼容性:Markdown被廣泛支持,例如在GitHub、文檔編寫(xiě)、博客平臺(tái)等。
- 輕量級(jí):相比HTML,Markdown更加簡(jiǎn)潔,不需要繁瑣的標(biāo)簽。
- 結(jié)構(gòu)化:Markdown支持標(biāo)題、列表、代碼塊、表格等,能夠很好地組織技術(shù)內(nèi)容。
- 易于版本控制:因?yàn)镸arkdown是純文本,所以適合用Git等版本控制工具管理。
然而,大模型在處理數(shù)據(jù)時(shí),內(nèi)部可能使用JSON等結(jié)構(gòu)化格式。但在與用戶交互時(shí),Markdown提供了一種更友好的方式。
舉例來(lái)說(shuō),在技術(shù)文檔中,我們常用Markdown來(lái)編寫(xiě)README,而模型在輸出代碼、表格、列表時(shí),Markdown也能很好地呈現(xiàn)。

但是,這并不意味著其他格式不被使用。例如:
- JSON常用于數(shù)據(jù)傳輸和配置。
- HTML用于Web頁(yè)面展示。
- 其他格式如YAML、XML等也在特定場(chǎng)景下使用。
所以,選擇Markdown主要是為了可讀性和通用性,特別是在文檔和對(duì)話中。
1. 可讀性與可寫(xiě)性的平衡
格式 | 可讀性 | 可寫(xiě)性 | 復(fù)雜度 |
Markdown | ????? | ????? | 低 |
JSON | ?? | ? | 中 |
HTML | ?? | ? | 高 |
XML | ? | ? | 高 |
Markdown 在保持人類(lèi)可讀的同時(shí),機(jī)器也能輕松解析,達(dá)到了最佳平衡。
2. 訓(xùn)練數(shù)據(jù)的天然格式
大模型的訓(xùn)練數(shù)據(jù)主要來(lái)自:
- GitHub(大量 README.md 文件)
- 技術(shù)文檔(大多使用 Markdown)
- 維基百科(類(lèi)似 Markdown 的格式)
- Stack Overflow(代碼和文本混合)
這些數(shù)據(jù)源天然使用類(lèi) Markdown 格式,模型在訓(xùn)練過(guò)程中就學(xué)會(huì)了這種格式。
3. 結(jié)構(gòu)化表達(dá)的靈活性
大模型本質(zhì)是概率模型,要讓它產(chǎn)出穩(wěn)定結(jié)構(gòu),需要“簡(jiǎn)單、清晰、可提示”的格式。
Markdown 完美滿足這一點(diǎn):
# 明確區(qū)分層級(jí)
**重點(diǎn)內(nèi)容**
- 列表項(xiàng)-
另一個(gè)列表項(xiàng)
`代碼片段`相比 JSON 的嚴(yán)格結(jié)構(gòu),Markdown 允許:
- 自由混合文本、代碼、列表
- 漸進(jìn)式結(jié)構(gòu)化
- 容錯(cuò)性更強(qiáng)
4. Markdown 是“文本第一”的格式
大模型是文本模型。Markdown 也是“純文本”。
再?gòu)?fù)雜的頁(yè)面,在 Markdown 下都能降級(jí)成:
- 文本
- 簡(jiǎn)單符號(hào)
而不會(huì)出現(xiàn):
- 二進(jìn)制格式(docx、pdf)
- 富文本樣式(顏色、縮進(jìn)、字體)
越接近文本,越適合大模型。
所以Markdown 是一種**“人類(lèi)看得懂、機(jī)器也看得懂、訓(xùn)練成本又低”**的完美折中格式。
本文轉(zhuǎn)載自??AI探索時(shí)代?? 作者:DFires

















