精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

徹底理解GPT tokenizers

發布于 2024-7-17 10:12
瀏覽
0收藏

你可能已經聽說過GPT這個詞,它是一種人工智能模型,可以生成各種各樣的文本,比如小說、詩歌、對話、新聞等等。GPT的全稱是Generative Pre-trained Transformer,意思是生成式預訓練變換器。生成式表示它可以根據一些輸入(比如一個單詞或一句話)來創造新的內容,預訓練表示它在使用之前已經在大量的文本數據上進行了學習,變換器表示它使用了一種叫做Transformer的神經網絡結構。

要理解GPT的工作原理,我們需要先了解一個重要的概念:token。token是文本的最小單位,可以是一個字母、一個單詞、一個標點符號或者一個符號。比如,這句話:

Hello, world!

可以被分成五個token:

Hello , world !

GPT模型在處理文本時,需要先把文本分割成token,然后把每個token轉換成一個數字,這個數字就代表了這個token的含義。這個數字叫做token ID。比如,我們可以用下面的表格來表示每個token和它對應的token ID:

token

token ID

Hello

1

,

2

world

3

!

4

那么,這句話就可以被轉換成一個數字序列:

1 2 3 4

GPT模型就是通過學習大量的這樣的數字序列,來掌握文本的規律和語義。

然后,當我們給它一個輸入(比如一個token ID或者一個數字序列),它就可以根據它學到的知識,來生成一個合理的輸出(比如一個新的token ID或者一個新的數字序列)。

但是,如果我們只用單個字母或單詞作為token,會有一些問題。首先,不同的語言有不同的詞匯量,有些語言可能有幾萬個單詞,有些語言可能有幾十萬甚至幾百萬個單詞。如果我們要給每個單詞分配一個唯一的token ID,那么我們需要很大的內存空間來存儲這些ID。其次,有些單詞可能很少出現在文本中,或者有些單詞可能是新造出來的,比如一些專有名詞、縮寫、網絡用語等等。如果我們要讓GPT模型能夠處理這些單詞,那么我們需要不斷地更新我們的token ID表格,并且重新訓練模型。

為了解決這些問題,GPT模型使用了一種叫做BPE(Byte Pair Encoding)的方法來分割文本。BPE是一種數據壓縮技術,它可以把一段文本分割成更小的子單元(subword),這些子單元可以是單個字母、字母組合、部分單詞或完整單詞。

BPE的原理是基于統計頻率來合并最常見的字母對或子單元對。比如,如果我們有下面這四個單詞:

lowlowernewestwidest

我們可以先把它們分割成單個字母:

l o wl o w e rn e w e s tw i d e s t

然后,我們可以統計每個字母對出現的次數,比如:

pair

count

l o

2

o w

2

w e

2

e r

1

n e

1

e w

1

w i

1

i d

1

d e

1

e s

1

s t

1

我們可以看到,l o,o w和w e都出現了兩次,是最常見的字母對。我們可以把它們合并成一個新的子單元,比如:

lowlow ern e westw i dest

這樣,我們就減少了一些token的數量。我們可以重復這個過程,直到達到我們想要的token的數量或者沒有更多的可合并的字母對。比如,我們可以繼續合并e r,n e,e w等等,得到:

lowlowernewestwidest

這樣,我們就把四個單詞分割成了六個子單元:

lowernewestwidest

這些子單元就是BPE的token。我們可以給它們分配token ID,比如:

token

token ID

low

5

er

6

new

7

est

8

wid

9

那么,這四個單詞就可以被轉換成下面的數字序列:

55 67 89 8

你可能會問,為什么要用BPE來分割文本呢?有什么好處呢?其實,BPE有以下幾個優點:

  • 它可以減少token的數量,從而節省內存空間和計算資源。
  • 它可以處理未知或罕見的單詞,只要把它們分割成已知的子單元就行了。比如,如果我們遇到一個新單詞lowerest,我們可以把它分割成low er est,然后用對應的token ID表示它。
  • 它可以捕捉單詞的形態變化,比如復數、時態、派生等等。比如,如果我們遇到一個單詞lowering,我們可以把它分割成low er ing,然后用對應的token ID表示它。這樣,GPT模型就可以學習到這個單詞和其他形式的關系。

當然,BPE也有一些缺點,比如:

  • 它可能會破壞一些有意義的子單元,比如把一個完整的單詞分割成兩個或多個部分。比如,如果我們遇到一個單詞tower,我們可能會把它分割成t ow er,而不是保留它作為一個整體。
  • 它可能會導致一些歧義或混淆,比如把兩個不同的單詞分割成相同的子單元序列。比如,如果我們遇到兩個單詞tow er和tower,我們可能會把它們都分割成t ow er,而不是區分它們。
  • 它可能會影響一些特殊的符號或標記的處理,比如HTML標簽、URL、郵箱地址等等。比如,如果我們遇到一個URLhttps://www.bing.com/, 我們可能會把它分割成多個子單元,比如:

https : / / www . bing . com /

這樣,可能會丟失一些原本的含義或格式。

所以,BPE并不是一種完美的方法,它只是一種權衡的方法,它在減少token數量和保留token含義之間尋找一個平衡點。不同的BPE方法可能會有不同的分割規則和結果,比如,我們可以設置一個最大的token數量,或者一個最小的合并頻率,來影響BPE的過程和輸出。

那么,GPT模型是如何使用BPE來分割文本的呢?實際上,GPT模型并不是直接使用BPE來分割文本,而是使用了一種叫做GPT-2 tokenizer的工具,這個工具是基于BPE的一種改進版本。GPT-2 tokenizer有以下幾個特點:

  • 它使用了Unicode編碼來表示每個字符,而不是ASCII編碼。這樣,它可以支持更多的語言和符號,比如中文、日文、阿拉伯文、表情符號等等。
  • 它使用了一個固定的token數量,即50257個。這個數字是根據GPT-2模型的輸入層的大小來確定的,每個輸入層可以容納50257個不同的token ID。
  • 它使用了一個預先訓練好的BPE模型來分割文本,這個BPE模型是在一個大規模的文本數據集上訓練得到的,它包含了各種各樣的文本類型和語言。

上手實踐

如果你想使用GPT-2 tokenizer來分割文本,你可以參考以下的步驟:

  • 首先,你需要安裝和導入transformers庫,這是一個提供了各種預訓練模型和工具的開源庫12。
  • 然后,你需要從預訓練的gpt2模型中加載tokenizer和model,你可以使用AutoTokenizer和GPT2DoubleHeadsModel類來實現這一功能12。
  • 接著,你需要給tokenizer添加一些特殊的token,比如[CLS]和[SEP],這些token可以幫助模型識別文本的開始和結束12。
  • 最后,你可以使用tokenizer的encode或encode_plus方法來把文本轉換成token ID的序列,并且使用model的forward方法來得到模型的輸出123。

下面是一個簡單的Python代碼示例:

# 導入transformers庫
from transformers import AutoTokenizer, GPT2DoubleHeadsModel
import torch

# 加載tokenizer和model
tokenizer = AutoTokenizer.from_pretrained("gpt2")
model = GPT2DoubleHeadsModel.from_pretrained("gpt2")

# 添加特殊的token
num_added_tokens = tokenizer.add_special_tokens({"cls_token": "[CLS]", "sep_token": "[SEP]"})

# 分割文本
text = "Hello, my dog is cute"
inputs = tokenizer.encode_plus(text, add_special_tokens=True, return_tensors="pt")

# 得到模型的輸出
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state

一旦您了解了令牌,GPT 工具生成文本的方式就會變得更加有意義。

特別是,觀看 GPT-4 將其輸出作為獨立令牌流式傳輸回很有趣(GPT-4 比 3.5 略慢,因此更容易看到發生了什么)。


徹底理解GPT tokenizers-AI.x社區

這是我得到的 - 使用我的 llm CLI 工具從 GPT-4 生成文本:llm -s 'Five names for a pet pelican' -4。

字典中不存在的“Pelly” 占用了多個token,而字典中存在的“Captain Gulliver”則能一次性輸出。

本文轉載自 ??AI小智??,作者: AI小智

收藏
回復
舉報
回復
相關推薦
欧美日韩成人免费| 欧美妇女性影城| 欧美一区二视频在线免费观看| 波多野结衣视频在线看| 日韩黄色大片| 日韩天堂在线观看| 日本免费黄视频| 麻豆tv入口在线看| 成人黄色网址在线观看| 国产成人精品午夜| 国产精品白丝喷水在线观看| 欧美电影在线观看完整版| 在线观看日韩精品| 亚洲精品久久久久久久蜜桃臀| 青梅竹马是消防员在线| 激情成人综合网| 538国产精品一区二区在线 | 蜜臀久久99精品久久久久久宅男| 日本wwwwwww| 欧美在线se| 欧美午夜宅男影院在线观看| 国产卡一卡二在线| 黄网站在线观看| kk眼镜猥琐国模调教系列一区二区| 国产精选久久久久久| 日韩久久久久久久久| 久久久久久久久久久久久久 | 日韩在线无毛| 国产电影精品久久禁18| 国产精品久久久久久中文字| 日韩精品一区二区三| 亚洲女同一区| 亚洲天堂影视av| 国产性生活毛片| 久久国产精品美女| 欧美日韩国产天堂| 女人另类性混交zo| f2c人成在线观看免费视频| 亚洲天堂精品在线观看| 亚洲国产一区二区精品视频 | 中文字幕精品一区二区三区精品 | 欧美视频亚洲图片| 成人国产激情| 在线观看av不卡| 超碰97人人射妻| 免费看男女www网站入口在线| 亚洲精品中文字幕乱码三区| 宅男av一区二区三区| yw在线观看| 久久免费美女视频| 另类小说综合网| 色呦呦视频在线| 国产精品99久久久久久似苏梦涵 | 国产一区二区三区小说| 色在线视频网| 亚洲综合一二三区| 无码人妻精品一区二区蜜桃网站| 91精品国产91久久久久久青草| 国产精品护士白丝一区av| 亚洲欧洲国产日韩精品| 91xxx在线观看| 国产精品网站导航| 亚洲欧美日韩综合一区| 男人天堂手机在线| 国产精品激情偷乱一区二区∴| 亚洲高清资源综合久久精品| porn亚洲| 亚洲日本一区二区| 日本免费黄色小视频| 金瓶狂野欧美性猛交xxxx| 尤物在线观看一区| 精品视频在线观看一区二区| 成人性生交大片免费看在线播放| 午夜影院欧美| 一区二区三区久久精品| 手机看片日韩av| 欧美wwwww| 久久天天躁狠狠躁老女人| 欧美日韩三级在线观看| 亚洲经典自拍| 日本欧美在线视频| 国产99久久久久久免费看| 麻豆精品久久久| 亚洲综合日韩在线| 视频一区二区免费| 国产欧美日韩在线看| 自拍偷拍99| 超碰在线公开| 欧洲精品中文字幕| 四虎国产精品免费| 日韩深夜福利| 最近日韩中文字幕中文| 青青草成人免费| 亚洲精品字幕| 国产精品手机播放| 精品国产无码AV| 99久久精品国产毛片| 亚洲欧美日韩综合一区| jizzjizz中国精品麻豆| 在线视频欧美区| 在线观看欧美一区二区| 欧美人妖在线| 久久av在线播放| 精品国产午夜福利| 国产麻豆成人精品| 欧美一区视久久| 三级福利片在线观看| 色视频成人在线观看免| 中文字幕1区2区| 精品视频免费| 国内偷自视频区视频综合| 影音先锋国产资源| 91在线精品一区二区三区| 最新国产精品久久| 第84页国产精品| 日韩欧美在线网站| 538精品视频| 国产精品嫩草99av在线| 91中文精品字幕在线视频| 日本大臀精品| 亚洲一区中文日韩| 182午夜在线观看| 日韩精品欧美大片| 色综合久久久888| 中文在线字幕av| 91在线porny国产在线看| 成人手机在线播放| 日日狠狠久久| 亚洲天堂av电影| 国产成人在线免费视频| 国产91在线观看| 艳母动漫在线观看| 免费视频观看成人| 夜夜嗨av色一区二区不卡| 欧美精品亚洲精品日韩精品| 成人中文字幕合集| www.国产亚洲| 日韩精品一区二区三区中文在线| 最好看的2019的中文字幕视频| 伊人中文字幕在线观看| 99久久精品情趣| www插插插无码视频网站| 欧美经典影片视频网站| 久久久精品久久久| 国产精品久久久久久无人区| 国产精品剧情在线亚洲| 亚洲激情在线观看视频| jiujiure精品视频播放| 国产精品69久久| 毛片免费在线播放| 91官网在线观看| 天天躁日日躁aaaxxⅹ| 亚洲永久免费精品| 久久久久久久久久码影片| 免费v片在线观看| 亚洲精品自在久久| 无码人妻精品一区二| 久久久噜噜噜久久中文字幕色伊伊 | 午夜免费福利视频| 亚洲综合视频网| www.四虎在线| 国产欧美三级| 欧美一区二区综合| 精品福利在线| 另类色图亚洲色图| 亚洲精品一区二区三区新线路| 亚洲高清久久久| 蜜臀av一区二区三区有限公司| 亚洲免费网址| 亚洲第一综合| 日韩精品三级| 97香蕉久久超级碰碰高清版| 日本1级在线| 欧美性猛交一区二区三区精品| 国产福利在线导航| 国产馆精品极品| 亚洲熟妇国产熟妇肥婆| 国产一区二区精品久| 国产在线高清精品| 美女航空一级毛片在线播放| 亚洲欧美国产精品| 91高潮大合集爽到抽搐| 亚洲一二三专区| 性欧美成人播放77777| 日韩电影在线观看电影| 天天综合五月天| 美女视频亚洲色图| 国产精品嫩草视频| 懂色av一区| 亚洲欧洲中文天堂| av男人天堂av| 色综合色狠狠天天综合色| 亚洲AV成人无码精电影在线| 成人网页在线观看| 天天干在线影院| 黄页网站一区| 色99中文字幕| 99re热精品视频| 国产精品电影网| 丰满的护士2在线观看高清| 欲色天天网综合久久| 超碰在线观看av| 在线观看视频一区| 国产一级久久久| 国产精品久久99| 泷泽萝拉在线播放| 国产精品一区一区三区| 国产成人av影视| 激情欧美丁香| 中文字幕一区二区三区有限公司 | 妺妺窝人体色www看人体| 精品国产a一区二区三区v免费| 97超碰人人看人人 | 欧美怡红院视频| 五月婷婷激情网| 亚洲欧美区自拍先锋| 青娱乐国产视频| av中文一区二区三区| 国产aⅴ爽av久久久久| 日韩影院在线观看| 99视频在线免费播放| 一区二区电影| 亚洲成人精品电影在线观看| 香蕉久久精品日日躁夜夜躁| 99久久国产免费免费| 日日夜夜一区| 国产美女91呻吟求| 欧美电影免费观看高清完整| 久久免费精品视频| 18视频在线观看| yellow中文字幕久久| shkd中文字幕久久在线观看| 亚洲美女性生活视频| 少妇av在线播放| 精品伦理精品一区| 99久久精品无免国产免费| 欧美日韩中文字幕一区二区| 久久久久久无码精品大片| 欧美日韩一区二区在线播放| 国产一级一级片| 一区二区在线观看视频| 日本福利片在线观看| 亚洲欧洲日产国码二区| 国产传媒视频在线| 中文幕一区二区三区久久蜜桃| 一区二区黄色片| 久久综合给合久久狠狠狠97色69| 国产精品福利导航| 波多野结衣91| 五十路六十路七十路熟婆| www.av精品| 国产全是老熟女太爽了| 久久精品网站免费观看| 韩国女同性做爰三级| 国产亚洲成aⅴ人片在线观看| www色com| 综合在线观看色| 久草免费新视频| 亚洲成人一二三| 久久久久99精品成人片我成大片| 日韩欧美亚洲综合| 最近中文字幕在线观看| 欧美日韩你懂得| h狠狠躁死你h高h| 日韩女优av电影在线观看| 空姐吹箫视频大全| 日韩高清a**址| 国产原创av在线| 菠萝蜜影院一区二区免费| 99热国产在线| 91国内揄拍国内精品对白| 神马电影网我不卡| 国产日韩在线视频| 亚洲一二av| 青青成人在线| 日韩精品网站| 妺妺窝人体色www看人体| 午夜在线精品偷拍| 国产九九热视频| 国产精品白丝jk白祙喷水网站| 大桥未久恸哭の女教师| 91麻豆6部合集magnet| 国产无遮挡在线观看| 亚洲精品成a人| 中文字幕亚洲乱码熟女1区2区| 欧美日韩在线精品一区二区三区激情| 国产熟女精品视频| 日韩精品视频在线观看网址| 亚洲成人三级| 91国内揄拍国内精品对白| 国产精品一区二区免费福利视频| 99c视频在线| 国产成人一区| 国产女教师bbwbbwbbw| 美女视频一区免费观看| 免费高清视频在线观看| 久久天堂av综合合色蜜桃网| 999精品在线视频| 日韩欧美在线一区| www.av网站| 中文字幕亚洲二区| h片在线观看下载| 成人在线视频网| 蜜桃一区二区| 日韩精品第1页| 玖玖玖国产精品| 岛国av免费观看| 亚洲欧洲成人精品av97| 91精品国产综合久久久蜜臀九色| 日韩一区二区三区三四区视频在线观看| 亚洲欧洲精品视频| 久久成年人免费电影| 国产精品久久久久久久久免费高清| 国产欧美日韩亚洲| 国产精品久久占久久| 99久久国产宗和精品1上映| 成人黄色a**站在线观看| 永久免费未视频| 欧美午夜在线观看| 欧美女v视频| 国语自产偷拍精品视频偷| 国模大尺度视频一区二区| 视频一区视频二区视频| 亚洲一区网站| 妖精视频一区二区| 洋洋成人永久网站入口| 中文字幕在线播放av| 亚洲色图13p| 天堂av中文在线观看| 国产精品久久一区二区三区| 中文字幕免费一区二区| 色一情一区二区三区| 国产精品毛片无遮挡高清| 国产免费一区二区三区四区五区 | 一广人看www在线观看免费视频| 日韩免费精品视频| 亚洲欧美tv| 欧美日韩亚洲一| 91丨九色porny丨蝌蚪| 日韩av在线播| 亚洲第一精品夜夜躁人人爽| av在线小说| 国产精品免费视频一区二区| 欧美极品一区二区三区| 国产传媒免费观看| 亚洲日本中文字幕区| 国产美女裸体无遮挡免费视频| 日韩在线欧美在线| 91麻豆精品一二三区在线| 一级特黄录像免费播放全99| 免费成人小视频| 殴美一级黄色片| 欧美精品一二三四| 国产一区久久精品| 懂色一区二区三区av片| 伊人久久婷婷| 国产二级一片内射视频播放| 天天做天天摸天天爽国产一区| 午夜国产在线视频| 日韩av电影在线免费播放| 极品美女一区二区三区| 四季av一区二区| 中文字幕在线一区| 国产草草影院ccyycom| 欧美激情一区二区三区高清视频| 欧美91在线| 黄色片久久久久| 国产精品久久午夜夜伦鲁鲁| 国产老妇伦国产熟女老妇视频| 免费97视频在线精品国自产拍| 国产成人精品福利| 欧洲av无码放荡人妇网站| 一区精品在线播放| 成人黄色在线观看视频| 91精品国产网站| 日韩黄色大片| 亚洲午夜久久久久久久久| 色哟哟一区二区在线观看| 日本中文字幕在线看| 国产精品免费观看高清| 日本视频一区二区三区| 久久综合色综合| 国产亚洲精品久久久| 精品久久亚洲| 黄色a级片免费| 亚洲美女视频一区| 日韩二区三区| 亚洲va欧美va国产综合久久| 国产一级久久| 日本福利片在线观看| 亚洲人午夜精品| 日韩一区二区三区色| 成年人小视频网站| 亚洲综合久久久| av电影在线网| 国产伦精品一区二区三区免 | av在线资源网| 国产欧美综合精品一区二区| 久久99蜜桃精品| 美女又爽又黄免费视频|