精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

解讀AI大模型,從了解token開始 精華

發布于 2024-9-25 12:41
瀏覽
0收藏

上次??《科普神文,一次性講透AI大模型的核心概念》??一文中,我基于結合大量示例及可視化的圖形手段給大家科普了AI大模型的相關算法和核心概念。

但是收到不少非技術背景的小伙伴反饋,相關的算法內容的解釋技術性還是太強,很難完全理解。所以這次,題主從最基礎的概念“token”著手,跳過了復雜的算法邏輯,這次一定讓你建立起對AI大模型工作原理的清晰認知。

什么是token?最小的語義單元

你可能會好奇,大規模語言模型是如何工作的呢?它們是如何從數據中學習到語言的呢?它們是如何根據輸入來生成合理的文本延續的呢?為了回答這些問題,我們需要從最基礎的概念開始講起:token。

在自然語言處理(NLP)中,token是指文本中最小的語義單元。比如,一個句子可以被分割成若干個單詞,每個單詞就是一個token。例如,“I love you”這個句子可以被分割成三個token:“I”,“love”和“you”。token可以幫助我們把文本分解成更容易處理和分析的部分。

但是,并不是所有的語言都可以用空格來劃分單詞。有些語言,比如中文、日語等,沒有明顯的單詞邊界。在這種情況下,我們需要用一些更復雜的方法來進行tokenization(分詞)。比如,我們可以用一些規則或者統計模型來判斷哪些字或者字組合構成了一個有意義的token。例如,“我愛你”這個句子可以被分割成兩個token:“我”和“愛你”。當然,這種方法并不完美,有時候會出現錯誤或者歧義。

除了單詞之外,還有一些其他的符號也可以被視為token。比如,標點符號、數字、表情符號等等。這些符號也可以傳達一些信息或者情感。例如,“I love you!”和“I love you?”就不同于“I love you”,因為感嘆號和問號表達了不同的語氣和態度。

總之,token就是文本中的最小有意義的單位,它們可以幫助我們把文本分解成更容易處理和分析的部分。不同的語言和場景可能需要不同的tokenization方法。接下來,我們要看看GPT系列采用了什么樣的token類型?

GPT系列采用了什么樣的token類型?

解讀AI大模型,從了解token開始-AI.x社區

GPT系列是一系列基于Transformer的生成式預訓練模型,它們可以用來生成各種類型的文本。目前,已經有了GPT-2、GPT-3和GPT-4等不同版本的模型,它們的區別主要在于模型的大小、訓練數據的規模和質量、以及生成能力的強度。

GPT系列的模型都是基于子詞(subword)來進行tokenization的。子詞是指比單詞更小的語言單位,它們可以根據語料庫中的詞頻和共現頻率來自動劃分。比如,一個單詞“transformer”可以被劃分成兩個子詞“trans”和“former”,或者三個子詞“t”,“rans”和“former”,或者四個子詞“t”,“r”,“ans”和“former”,等等。不同的劃分方法會產生不同數量和長度的子詞。一般來說,子詞越多越短,就越能覆蓋更多的語言現象,但也會增加模型的計算復雜度;子詞越少越長,就越能減少模型的計算復雜度,但也會損失一些語言信息。

GPT系列采用了一種叫做Byte Pair Encoding(BPE)的子詞劃分方法。BPE是一種基于數據壓縮原理的算法,它可以根據語料庫中出現頻率最高的字節對(byte pair)來合并字節,從而生成新的字節。比如,如果語料庫中出現頻率最高的字節對是“ns”,那么BPE就會把所有的“ns”替換成一個新的字節“Z”,從而減少字節總數。這個過程可以重復進行,直到達到預設的字節總數或者沒有更多的字節對可以合并為止。這樣,BPE就可以把原始的字節序列轉換成一個由新字節組成的子詞序列。

例如,“obsessiveness”這個單詞可以被BPE轉換成以下子詞序列:

  • 原始字節序列:o b s e s s i v e n e s s
  • 第一次合并:o b s e Z i v e n e Z (假設Z代表ss)
  • 第二次合并:o b s E i v e n E (假設E代表e Z)
  • 最終子詞序列:o b s E i v e n E(如果沒達到預設的字節要求,可合并只出現一次的子詞)

當然,這只是一個簡單的例子,實際上BPE會根據大規模的語料庫來生成更多更復雜的子詞。GPT系列使用了不同大小的BPE詞典來存儲所有可能出現的子詞。比如,GPT-3使用了50,257個子詞。

總之,GPT系列采用了基于BPE算法的子詞作為token類型,主要目的是以無損的方式壓縮文本的內容,從而以保證語言覆蓋度和計算效率之間達到一個平衡。接下來,我們要看看如何用子詞來表示和生成文本?

如何用子詞來表示和生成文本?

我們已經知道了GPT系列使用了子詞作為token類型,并且通過上文講述的BPE或其他相關算法我們可以將文本內容轉換為由子詞組合而成的序列,也就是術語中分詞過程。

有了子詞序列之后,我們就可以用子詞來表示和生成文本了嗎?答案是否定的。因為語言模型是基于神經網絡的,而神經網絡只能處理數值數據,而不能處理文本數據。因此,我們還需要做第二件事情:將子詞序列轉換為數值向量。

這里,我們需要介紹兩個重要的概念:編碼(encoding)和解碼(decoding)。

編碼和解碼

將子詞序列轉換為數值向量的過程叫做編碼(Encoding),它是語言模型的第二步。編碼的目的是將一個個離散且無序的token映射到一個個連續且有序的向量空間中,從而方便語言模型進行計算和學習。比如,我們可以用以下的BPE詞典來表示上面的例子:

子詞

數值編碼

子詞

數值編碼

o

1

i

5

b

2

v

6

s

3

e

7

E

4

n

8

那么,編碼和解碼就可以按照以下的規則進行:

  • 編碼:根據BPE算法,將文本分割成最長的匹配子詞,然后根據BPE詞典,將每個子詞替換成其對應的數值編碼,從而得到一個數值向量。比如,“obsessiveness”這個單詞可以被編碼為[1, 2, 3, 4, 5,6,7,8,4]這個數值向量。
  • 解碼:根據BPE詞典,將每個數值編碼替換成其對應的子詞,然后根據BPE算法,將相鄰的子詞合并成最長的匹配單詞,從而得到一個文本。比如,[1, 2, 3, 4, 5,6,7,8,4]這個數值向量可以被解碼為“obsessiveness”這個單詞。

通過編碼和解碼,我們就可以實現文本和子詞序列向量之間的互相轉換。但是,這還不夠。我們還需要讓GPT系列能夠理解和生成這些子詞序列。為了做到這一點,我們還需要進行另外兩個步驟:嵌入(embedding)和預測(prediction)。

嵌入和預測

我們已經知道,子詞分詞和編解碼,可以把文本轉換成數字,就像我們用數字來表示電話號碼一樣。但是,這樣的數字只是一種編碼方式,它們并不能告訴我們子詞之間有什么關系。比如,我們怎么知道“貓”和“狗”是兩種動物,而“貓”和“桌子”是不同的東西呢?

為了讓GPT系列能夠理解子詞之間的關系,我們需要進行嵌入(embedding)。嵌入就是把每個子詞用一個特征向量來表示,這個特征向量可以反映出子詞的含義、用法、情感等方面的信息。

特征向量的計算算法比較復雜,但計算原理比較容易理解,GPT只需要基于互聯網上大量的文本資料,統計出兩個詞語在相鄰/句子/文章中共同出現的概率并通過權重來匯總計算,就能分析出某個詞語與另外一個詞語的親密度的數值,并將這個數值作為特征向量來描述這個詞語。比如,“貓”在互聯網的資料中與“動物”等詞語一同出現的次數多,所以“貓”的特征向量可能包含了它是一種動物、有毛發、喜歡吃魚、會發出喵喵聲等信息。

通過嵌入,我們就可以把每個子詞看作是高維空間中的一個點,而這些點之間的距離和方向,就可以表示出子詞之間的相似度和差異度。比如,“貓”和“狗”的點因為同為寵物,可能會比較接近,相對“狗”而言,“貓”和“?!钡狞c可能會比較遠離。

解讀AI大模型,從了解token開始-AI.x社區

在完成嵌入后,我們就可以進行預測(prediction)。預測就是根據給定的文本,計算出下一個子詞出現的概率。比如,如果給定的文本是“我家有一只”,那么下一個子詞可能是“貓”或者“狗”,而不太可能是“桌子”或者“電視”。這個概率的計算,就是基于特征向量表進行的。

解讀AI大模型,從了解token開始-AI.x社區

通過嵌入和預測,我們就可以實現從數字到文本,或者從文本到數字的轉換。但是,這還不夠。我們還需要讓GPT系列能夠根據給定的文本來生成新的文本。為了做到這一點,我們還需要進行最后一個步驟:生成(generation)。

生成與自回歸

生成是指根據給定的文本來生成新的文本的過程。生成可以分為兩種模式:自回歸(autoregressive)和自編碼(autoencoding),GPT系列主要采用了自回歸模式。

那么什么是自回歸?簡單理解就是想象這么一副畫面:

一個人在拍連環畫,每一頁連環畫都是前一張連環畫的延續。也就是說,人需要看前一張畫乃至前多張畫才能知道該畫什么內容。類似地,自回歸模型中的每個時間點都需要前一個時間點的信息才能計算出當前時間點的輸出值。就像拍連環畫一樣,自回歸模型中各個時間點之間存在著緊密的聯系和依賴關系,這種聯系在預測時間序列數據時非常有用。

解讀AI大模型,從了解token開始-AI.x社區

例如,“I love you”這個句子可以被GPT系列生成為以下的文本:

  • I love you more than anything in the world.
  • I love you and I miss you so much.
  • I love you, but I can't be with you.

總之,GPT系列使用了子詞、數值向量、實數向量和Transformer模型來表示和生成文本。通過編碼、解碼、嵌入、預測和生成等步驟,它可以實現從文本到文本的轉換。

整體過程可以參考GPT官方的示意圖,如下:

解讀AI大模型,從了解token開始-AI.x社區

總結

今天,我們學習了GPT系列是如何用子詞來表示和生成文本的。我們了解了token相關的概念和文本生成的步驟,通過這些概念和步驟,我們可以理解GPT系列是如何從文本到文本的轉換。

本文轉載自 ??AI小智??,作者: AI小智

收藏
回復
舉報
回復
相關推薦
欧美日韩亚洲精品内裤| 东京一区二区| 日韩国产欧美在线播放| 国产视频自拍一区| 99免费视频观看| 尤物网址在线观看| 国产毛片精品视频| 97视频在线看| 免费看黄色av| 国产乱码精品一区二区三区亚洲人 | 日韩精选视频| 欧美激情在线看| 亚洲va国产va天堂va久久| 国产精品白浆一区二小说| 蜜桃精品噜噜噜成人av| 欧美蜜桃一区二区三区| 一区二区国产日产| 蜜桃视频在线观看www| 久久人人超碰| 欧美精品制服第一页| 给我免费观看片在线电影的| 超级白嫩亚洲国产第一| 国产午夜精品一区二区| 国产精品对白刺激| 欧美xxxx黑人xyx性爽| 竹菊久久久久久久| 欧美一区二区黄| 18禁免费无码无遮挡不卡网站 | 欧美mv和日韩mv的网站| 99久久激情视频| 日本在线视频中文有码| 国产色产综合色产在线视频| 91天堂在线视频| 天天操天天干视频| 欧美.www| 中文精品99久久国产香蕉| 又色又爽又黄18网站| 亚洲日本在线观看视频| 午夜精品久久久久久久久久久| 亚洲激情一区二区| 视频一区二区三区在线看免费看| 九九热在线视频观看这里只有精品| 久久久午夜视频| 欧美特级黄色录像| 国产丝袜一区| 日韩一卡二卡三卡国产欧美| 亚洲人辣妹窥探嘘嘘| 超碰资源在线| 亚洲国产精品人人做人人爽| 亚洲欧美在线网| 精品无人乱码| 91日韩精品一区| 亚洲一区二区三区xxx视频| 成人一级免费视频| 久久裸体视频| 2018国产精品视频| 精品在线视频观看| 伊人久久大香线| 日韩在线观看网址| 国产免费一区二区三区网站免费| 黑色丝袜福利片av久久| 欧美mv和日韩mv的网站| 中文字幕一区二区三区人妻在线视频| 久久久免费人体| 欧美性猛交xxxx偷拍洗澡| 农民人伦一区二区三区| 久久大胆人体| 亚洲在线视频网站| 欧美中日韩在线| av网站大全在线| 亚洲精品久久久久久国产精华液| 一区二区精品视频| 男人的天堂在线视频免费观看 | 奇米4444一区二区三区| 毛片视频网站在线观看| 在线亚洲国产精品网站| 5566成人精品视频免费| 人妻丰满熟妇av无码区| 99国产精品| 日本不卡高字幕在线2019| 成年人免费高清视频| 国产精品嫩草99av在线| 欧洲日本亚洲国产区| 麻豆久久久久久久久久| 久久久久久久欧美精品| 国产精品视频久久久| 国产原创欧美精品| 久久精品无码人妻| 综合一区av| 欧美激情成人在线视频| 国产亚洲精品久久久久久打不开| 在线播放亚洲| 国产国语videosex另类| 在线观看国产黄| 精彩视频一区二区| 亚洲综合成人婷婷小说| 午夜精品久久久久久久99老熟妇| 成人综合激情网| 久久久久久九九九九| 国产区视频在线| 综合自拍亚洲综合图不卡区| 黄色网络在线观看| 成人bbav| 欧美日韩精品欧美日韩精品| av影片在线播放| 欧美激情99| 在线免费看av不卡| 男女做暖暖视频| 欧美日韩国产高清| 国产成人综合一区二区三区| 妺妺窝人体色www聚色窝仙踪| 99热这里只有精品8| 国产精品久久久久久久7电影| 国产麻豆一精品一男同| 99这里都是精品| 在线视频亚洲自拍| 国产传媒在线| 欧美高清视频在线高清观看mv色露露十八 | 亚洲国产无线乱码在线观看| 日韩 欧美一区二区三区| 91精品啪在线观看麻豆免费| 婷婷五月综合激情| 17c精品麻豆一区二区免费| 国产高清av在线播放| 青青国产精品| 日韩激情视频在线播放| 性生交大片免费全黄| 中文久久精品| 亚洲一区二区三区四区视频| 国产九九在线| 欧美日韩色婷婷| 波多野结衣在线免费观看| 国产精品qvod| 亚洲香蕉伊综合在人在线视看 | 成人久久一区| 8090成年在线看片午夜| www.黄色小说.com| 国产精品美女久久福利网站| 日本韩国欧美在线观看| 国产麻豆精品| 日韩亚洲精品电影| 黄色网址中文字幕| 久久婷婷久久一区二区三区| 国产va亚洲va在线va| 欧美特黄不卡| 久久亚洲私人国产精品va| 亚洲免费视频二区| 国产日韩综合av| 777久久久精品一区二区三区| 8848成人影院| 欧美日韩国产二区| av一区二区三| 亚洲丝袜另类动漫二区| 欧美精品aaaa| 国产精品日韩精品中文字幕| 性欧美办公室18xxxxhd| 亚洲av无码一区二区三区dv| 亚洲激情av在线| 国产探花在线观看视频| 99久久99视频只有精品| 国产91免费看片| 亚洲国产视频一区二区三区| 一区二区三区中文在线| 亚洲国产综合av| 亚洲欧美伊人| 亚洲最大av网| 欧美人与牲禽动交com | 欧美高清一级大片| 国产三级按摩推拿按摩| 亚洲三级小视频| 国产探花在线观看视频| 在线中文字幕亚洲| 成人国产1314www色视频| 性xxxfreexxxx性欧美| 日韩精品中文字幕在线一区| 欧美成人三级视频| 盗摄精品av一区二区三区| 久久人人爽人人爽人人av| 国产成人在线中文字幕| 91精品国产91久久久久久不卡 | 国产福利91精品| 91视频 - 88av| 青青草久久爱| 日本一区二区在线播放| 搞黄视频免费在线观看| 欧美理论片在线| 久久久久久久极品内射| 播五月开心婷婷综合| 亚洲国产精品久久久久爰色欲| 中日韩免视频上线全都免费| 日本久久91av| 在线观看免费黄色| 91精品国产综合久久久蜜臀粉嫩| 成年人一级黄色片| bt7086福利一区国产| 好男人www社区| 亚洲影视一区二区三区| 国产精品日本一区二区| 成人免费网站视频| 久久香蕉国产线看观看av| 日本高清视频网站| 欧美天堂亚洲电影院在线播放| 免费中文字幕日韩| 99精品国产99久久久久久白柏| 久久亚洲中文字幕无码| 国产亚洲精品美女久久久久久久久久| 91精品久久久久久久久久久久久久 | 黄色大片在线播放| 亚洲丁香久久久| 99成人精品视频| 亚洲主播在线观看| 天天舔天天操天天干| 懂色av中文一区二区三区| 日本韩国欧美在线观看| 亚洲成人免费| 国产一区二区三区无遮挡| 日韩大陆av| 国产91精品久久久久久| 精品视频在线一区二区| 日韩精品极品在线观看| 国产美女免费看| 日韩欧美在线视频观看| 91视频综合网| av成人动漫在线观看| 亚洲欧美天堂在线| 国产精品资源| www.男人天堂网| 欧美一区二区三| 久精品国产欧美| 亚洲经典视频| 国产日韩av高清| 黑人巨大亚洲一区二区久 | 逼特逼视频在线观看| 免费观看在线综合| 国产l精品国产亚洲区久久| 午夜精品婷婷| 影音欧美亚洲| 精品av一区二区| 国产日韩精品一区观看| 精品国产乱码久久久久久樱花| 国产精品扒开腿做爽爽爽视频| av影视在线看| 中文字幕日韩在线视频| 免费国产在线观看| 精品亚洲国产成av人片传媒| 草逼视频免费看| 91精品在线观看入口| 最新黄色网址在线观看| 色国产精品一区在线观看| 欧美成人精品欧美一级乱黄| 亚洲国产乱码最新视频| 欧美成人免费观看视频| 一区二区三区在线视频观看 | 国产口爆吞精一区二区| 在线看一区二区| 香蕉免费毛片视频| 黄色91在线观看| 亚洲免费激情视频| 无吗不卡中文字幕| 久久草视频在线| 精品久久久久久久久久久久| 亚州国产精品视频| 激情成人中文字幕| 一本一道无码中文字幕精品热| 午夜精品久久久久久久蜜桃app| 久久精品www人人爽人人| 亚洲免费在线电影| 澳门黄色一级片| 一区二区欧美精品| 五月天婷婷网站| 高潮白浆女日韩av免费看| 亚洲日本韩国在线| 色丁香久综合在线久综合在线观看| 日韩精品成人免费观看视频| 色94色欧美sute亚洲13| 亚洲国产精品无码久久久| 在线观看精品一区| 97人妻精品一区二区三区软件| 欧美高清一级片在线| 国产乱码精品一区二区三区精东| 9191成人精品久久| 亚洲精品久久久久久久久久久久久久 | 欧美激情一区| 免费看黄在线看| 在线高清一区| 黄色一级一级片| 韩国精品免费视频| 国产精品果冻传媒| 91一区二区三区在线播放| 大乳护士喂奶hd| 国产视频一区二区在线| 欧美色视频一区二区三区在线观看| 亚洲欧美另类久久久精品| 伊人365影院| 在线视频国内自拍亚洲视频| 91丨porny丨在线中文 | 国产夫妻在线观看| 亚洲精品美女网站| 999国产在线视频| 久久99精品久久久久久噜噜| 天堂资源在线| 91嫩草在线视频| 天海翼精品一区二区三区| 日本日本精品二区免费| 亚洲有吗中文字幕| 欧美亚洲黄色片| 久久亚洲美女| 无码人妻一区二区三区在线视频| 99久久精品免费精品国产| 精品熟妇无码av免费久久| 亚洲国产va精品久久久不卡综合| 国产综合精品视频| 欧美精品三级日韩久久| 天堂av资源在线| 中文字幕在线国产精品| 青草视频在线免费直播| 国产精品日本精品| 久久婷婷国产| 三年中国中文在线观看免费播放| 99在线精品免费视频九九视| 欧美视频国产视频| 久久久www成人免费毛片麻豆| 亚洲一级生活片| 在线欧美日韩精品| 亚洲欧美色视频| 色综合色综合网色综合| 欧美成人三级| 欧美高清性xxxxhd| 艳女tv在线观看国产一区| 国产中文字幕二区| 国产乱一区二区| 99热99这里只有精品| 欧美性猛交99久久久久99按摩| www.久久色| 日韩在线视频网| 精品欧美一区二区三区在线观看 | 欧美精品久久久久久久久久久| 六月丁香综合| 国产激情视频网站| 亚洲综合色在线| 国产精品永久久久久久久久久| 国产亚洲精品久久久| 三级成人黄色影院| 日韩av高清在线播放| 日韩国产欧美视频| 蜜桃av免费在线观看| 欧美日韩免费视频| 男人和女人做事情在线视频网站免费观看 | 国产精品日韩一区二区三区| 午夜欧美精品久久久久久久| 国产裸体视频网站| 亚洲精品久久7777| 刘玥91精选国产在线观看| 国内精品400部情侣激情| 国产三级精品三级在线观看国产| 男人日女人视频网站| 久久综合久久综合久久综合| 亚洲av无码精品一区二区| 中文字幕视频在线免费欧美日韩综合在线看 | 国产一级免费片| 精品久久久国产| chinese偷拍一区二区三区| 国产剧情日韩欧美| 中文精品久久| jlzzjizz在线播放观看| 色又黄又爽网站www久久| av资源种子在线观看| 91网站在线免费观看| 亚洲麻豆视频| 影音先锋制服丝袜| 日韩三级视频在线观看| h片视频在线观看| 日韩理论片在线观看| 狠狠色狠狠色综合| 国产成人无码精品亚洲| 国产亚洲精品美女久久久| 超碰国产精品一区二页| 欧美午夜小视频| 国产精品蜜臀av| 隣の若妻さん波多野结衣| 国产福利精品av综合导导航| 亚洲精品电影| 欧美无人区码suv| 欧美久久久久久久久| bbw在线视频| 色综合视频二区偷拍在线| 国产精品亚洲人在线观看| 三级视频在线观看| 久久艹在线视频| 免费视频国产一区| 熟妇女人妻丰满少妇中文字幕| 色婷婷激情久久| 最新av在线播放| 日韩电影大全在线观看| 高清不卡一区二区| 国产日韩在线免费观看| 久久久久久999| 99久久www免费| 国产人妻一区二区| 精品国产青草久久久久福利|