精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

擊敗ChatGPT?OpenChat霸榜斯坦福AlpacaEval開源榜首,性能高達(dá)105.7%

人工智能
最能打的開源模型來了?OpenLLM在最新評測中,一舉擊敗ChatGPT。

一夜之間,全新開源模型「OpenLLM」擊敗ChatGPT的消息,在網(wǎng)上引起軒然大波。

根據(jù)官方的介紹,OpenLLM:

- 在斯坦福AlpacaEval上,以80.9%的勝率位列開源模型第一

- 在Vicuna GPT-4評測中,性能則達(dá)到了ChatGPT的105.7%

圖片圖片

最重要的是,如此卓越的性能,只需要6K的GPT-4對話數(shù)據(jù)進(jìn)行微調(diào)訓(xùn)練。

圖片圖片

項(xiàng)目地址:https://github.com/imoneoi/openchat

不過Chatbot Arena的「榜單主」提醒稱,由于舊的Vicu?a eval基準(zhǔn)存在一些bias,因此提倡大家遷移到新提出的MT-bench上——從而更好地測評LLM更多方面的能力。

圖片圖片

OpenLLM:只需6K GPT-4對話微調(diào)

OpenLLM是一個(gè)在多樣化且高質(zhì)量的多輪對話數(shù)據(jù)集上進(jìn)行微調(diào)的開源語言模型系列。

具體來講,研究人員從約90K的ShareGPT對話中,過濾出來約6K的GPT-4對話。

經(jīng)過6k數(shù)據(jù)微調(diào)后,令人驚訝的是,OpenLLM已經(jīng)被證明可以在有限的數(shù)據(jù)下實(shí)現(xiàn)高性能。

OpenLLM有兩個(gè)通用模型,它們是OpenChat和OpenChat-8192。

圖片圖片

OpenChat:基于LLaMA-13B微調(diào),上下文長度為2048

- 在Vicuna GPT-4評估中達(dá)到ChatGPT分?jǐn)?shù)的105.7%

- 在AlpacaEval上取得了驚人的80.9%的勝率

OpenChat-8192:基于LLaMA-13B微調(diào),上下文長度為8192

- 在Vicuna GPT-4評估中達(dá)到ChatGPT分?jǐn)?shù)的106.6%

- 在AlpacaEval上取得的79.5%勝率

圖片圖片

此外,OpenLLM還有代碼模型,其性能如下:

OpenCoderPlus:基于StarCoderPlus,原始上下文長度為8192

- 在Vicuna GPT-4評估中達(dá)到ChatGPT分?jǐn)?shù)的102.5%

- 在AlpacaEval上獲得78.7%的勝率

模型評估

研究人員使用Vicuna GPT-4和AlpacaEval基準(zhǔn)評估了最新模型,結(jié)果如下圖所示:

圖片圖片

Vicuna GPT-4評估(v.s. gpt-3.5-turbo)

圖片圖片

Vicuna GPT-3.5-Turbo評估(v.s. gpt-3.5-turbo)

另外,值得注意的是,研究者采用的評估模式與Vicuna的略有不同,還使用了證據(jù)校準(zhǔn)(EC)+平衡位置校準(zhǔn)(BPC)來減少潛在的偏差。

圖片圖片

安裝和權(quán)重

要使用OpenLLM,需要安裝CUDA和PyTorch。用戶可以克隆這個(gè)資源庫,并通過pip安裝這些依賴:

git clone git@github.com:imoneoi/OChat.git
pip install -r requirements.txt

目前,研究人員已經(jīng)提供了所有模型的完整權(quán)重作為huggingface存儲庫。

用戶可以使用以下命令在本地啟動一個(gè)API服務(wù)器,地址為http://localhost:18888。

圖片圖片

其中,服務(wù)器與openai包,以及ChatCompletions協(xié)議兼容(請注意,某些功能可能不完全支持)。

用戶可以通過設(shè)置以下方式指定openai包的服務(wù)器:

openai.api_base = "http://localhost:18888/v1"

當(dāng)前支持的ChatCompletions參數(shù)有:

圖片圖片

建議:使用至少40GB(1x A100)顯存的GPU來運(yùn)行服務(wù)器。

數(shù)據(jù)集

轉(zhuǎn)換后的數(shù)據(jù)集可在openchat_sharegpt4_dataset上獲取。

項(xiàng)目中所使用的數(shù)據(jù)集,是對ShareGPT清洗和篩選后的版本。

其中,原始的ShareGPT數(shù)據(jù)集包含大約90,000個(gè)對話,而僅有6,000個(gè)經(jīng)過清理的GPT-4對話被保留用于微調(diào)。

清洗后的GPT-4對話與對話模板和回合結(jié)束時(shí)的token相結(jié)合,然后根據(jù)模型的上下文限制進(jìn)行截?cái)啵ǔ鱿拗频膬?nèi)容將被丟棄)。

要運(yùn)行數(shù)據(jù)處理流程,請執(zhí)行以下命令:

./ochat/data/run_data_pipeline.sh INPUT_FOLDER OUTPUT_FOLDER

輸入文件夾應(yīng)包含一個(gè)ShareGPT文件夾,其中包含每個(gè)ShareGPT對話頁面的.html文件。

數(shù)據(jù)處理流程包括三個(gè)步驟:

- 清洗:對HTML進(jìn)行清理并轉(zhuǎn)換為Markdown格式,刪除格式錯(cuò)誤的對話,刪除包含被屏蔽詞匯的對話,并進(jìn)行基于哈希的精確去重處理

- 篩選:僅保留token為Model: GPT-4的對話

- 轉(zhuǎn)換:為了模型的微調(diào),針對所有的對話進(jìn)行轉(zhuǎn)換和分詞處理

最終轉(zhuǎn)換后的數(shù)據(jù)集遵循以下格式:

MODEL_TYPE.train.json / .eval.json

[
    [token_id_list, supervise_mask_list],
    [token_id_list, supervise_mask_list],
    ...
]

MODEL_TYPE.train.text.json / .eval.text.json從token_id_list解碼的純文本

除此之外,研究人員還提供了一個(gè)用于可視化對話嵌入的工具。

只需用瀏覽器打開ochat/visualization/ui/visualizer.html,并將MODEL_TYPE.visualizer.json拖放到網(wǎng)頁中。點(diǎn)擊3D圖中的點(diǎn),就可以顯示相應(yīng)的對話。

其中,嵌入是使用openai_embeddings.py創(chuàng)建的,然后使用dim_reduction.ipynb進(jìn)行UMAP降維和K-Means著色。

圖片圖片

模型修改

研究人員為每個(gè)基礎(chǔ)模型添加了一個(gè)EOT(對話結(jié)束)token。

對于LLaMA模型,EOT的嵌入初始化為所有現(xiàn)有token嵌入的平均值。對于StarCoder模型,EOT的嵌入以0.02標(biāo)準(zhǔn)差進(jìn)行隨機(jī)初始化。

對于具有8192上下文的LLaMA-based模型,max_position_embeddings被設(shè)置為8192,并且進(jìn)行了RoPE(相對位置編碼)代碼的外推。

訓(xùn)練

訓(xùn)練模型時(shí)使用的超參數(shù)在所有模型中都是相同的:

圖片圖片

使用8xA100 80GB進(jìn)行訓(xùn)練:

NUM_GPUS=8


deepspeed --num_gpus=$NUM_GPUS --module ochat.training_deepspeed.train \
    --model_type MODEL_TYPE \
    --model_path BASE_MODEL_PATH \
    --save_path TARGET_FOLDER \
    --length_grouping \
    --epochs 5 \
    --data_path DATASET_PATH \
    --deepspeed \
    --deepspeed_config ochat/training_deepspeed/deepspeed_config.json

評估

要運(yùn)行Vicuna GPT-4評估,請執(zhí)行以下步驟:

1. 生成模型答案

python -m ochat.evaluation.get_model_answer --model_type MODEL_TYPE --models_path PATH_CONTAINING_ALL_MODELS_SAME_TYPE --data_path ./ochat/evaluation/vicuna --output_path ./eval_results

2. 生成基線(GPT-3.5)答案

OPENAI_API_KEY=sk-XXX python -m ochat.evaluation.get_openai_answer --data_path ./ochat/evaluation/vicuna --output_path ./eval_baselines --model_types gpt-3.5-turbo

3. 運(yùn)行GPT-4評估

OPENAI_API_KEY=sk-XXX python -m ochat.evaluation.openai_eval --data_path ./ochat/evaluation/vicuna --baseline_path ./eval_baselines/vicuna_gpt-3.5-turbo.jsonl --input_path ./eval_results

4. 可視化和細(xì)節(jié)

要獲得可視化和繪制評估結(jié)果,請使用瀏覽器打開ochat/visualization/eval_result_ui/eval_result_visualizer.html,并選擇./eval_results/eval_result_YYYYMMDD文件夾中的所有文件以顯示結(jié)果。

局限性

基礎(chǔ)模型限制

盡管能夠?qū)崿F(xiàn)優(yōu)秀的性能,但OpenLLM仍然受到其基礎(chǔ)模型固有限制的限制。這些限制可能會影響模型在以下領(lǐng)域的性能:

- 復(fù)雜推理

- 數(shù)學(xué)和算術(shù)任務(wù)

- 編程和編碼挑戰(zhàn)

不存在信息的幻覺

OpenLLM有時(shí)可能會產(chǎn)生不存在或不準(zhǔn)確的信息,也稱為「幻覺」。用戶應(yīng)該意識到這種可能性,并驗(yàn)證從模型中獲得的任何關(guān)鍵信息。

參考資料:

https://github.com/imoneoi/openchat

https://tatsu-lab.github.io/alpaca_eval/

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2023-09-21 12:31:54

AI數(shù)據(jù)

2025-01-17 10:26:19

模型開發(fā)ChatGPT

2021-03-04 14:50:11

計(jì)算機(jī)互聯(lián)網(wǎng) 技術(shù)

2023-03-31 13:55:00

模型智能

2023-02-14 09:45:11

模型測試

2024-05-06 08:00:00

AI模型

2025-07-21 11:51:12

模型AI工具

2024-01-03 13:37:00

模型數(shù)據(jù)

2021-04-02 15:02:42

開源技術(shù) 工具

2023-04-04 13:58:55

人工智能論文

2023-02-17 09:01:50

ChatGPT對話機(jī)器人

2013-01-31 09:45:14

斯坦福超級電腦百萬內(nèi)核

2012-03-21 21:38:27

蘋果

2009-05-19 09:06:41

Apple斯坦福iPhone

2025-03-12 10:38:05

2019-12-16 14:33:01

AI人工智能斯坦福

2025-02-28 09:22:00

2018-08-13 21:19:07

Weld開源數(shù)據(jù)

2024-04-02 08:45:08

ChatGPTAI會議人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

亚洲日本在线视频观看| 青青草精品视频| 精品视频偷偷看在线观看| 丰满爆乳一区二区三区| 1024免费在线视频| 粉嫩av一区二区三区在线播放 | 天堂va在线| 91视视频在线观看入口直接观看www | 超碰在线最新网址| 久久久亚洲精品一区二区三区| 国产精品欧美日韩| 久久久久99精品| av一区二区在线观看| 欧美一区二区三区公司| 日韩av片在线看| av在线麻豆| 久久精品欧美一区二区三区麻豆| 亚洲综合自拍一区| 国产免费一级视频| 中文字幕一区二区av| 亚洲欧洲日本专区| av在线天堂网| 日韩毛片网站| 日本国产一区二区| 妞干网在线观看视频| 秋霞影院午夜丰满少妇在线视频| 91小视频在线| 国产成人精品一区二区三区福利| 自拍偷拍第八页| 亚洲免费精品| 欧美激情成人在线视频| www.黄色com| 免费电影一区二区三区| 精品国产一二三区| 亚洲精品一区二区三区四区五区| 六月婷婷综合网| 国产一区二区在线电影| 国产精品免费一区豆花| 中文字幕国产在线观看| 亚洲精品在线二区| 欧美激情在线播放| 欧美黑吊大战白妞| 综合天堂av久久久久久久| 色系列之999| 中文字幕伦理片| 亚洲精品进入| 精品无人国产偷自产在线| 亚洲精品第二页| 91精品国产自产在线丝袜啪| 5858s免费视频成人| 欧美一级特黄a| 色8久久影院午夜场| 欧美日韩亚洲一区二| 男人添女人下部高潮视频在观看| 性xxxxfjsxxxxx欧美| 日韩一区欧美一区| 日本特级黄色大片| 黄色网址在线免费| 中文字幕视频一区| 老汉色影院首页| 麻豆视频网站在线观看| 中文字幕国产一区| 亚洲人成77777| 日本不卡视频| 亚洲图片你懂的| 五月天男人天堂| v片在线观看| 一区二区三区免费在线观看| 免费看污污视频| 少妇视频在线| 亚洲成av人影院在线观看网| 欧美日韩在线一| 自拍视频在线看| 91黄色在线观看| 天天看片天天操| 99ri日韩精品视频| 亚洲精品一区二区网址| 国产精品免费无码| 91成人免费| 久久久久久成人精品| 日韩特黄一级片| 六月丁香综合| 成人久久精品视频| 欧美视频在线观看一区二区三区| 91蜜桃免费观看视频| 精品亚洲第一| av播放在线| 一区二区成人在线| 国产日韩一区二区在线| 四虎国产精品成人免费影视| 日韩视频免费直播| 国产呦小j女精品视频| 日韩在线看片| 久久久久久久一| 久久人人爽人人爽人人片av免费| 久久99精品国产麻豆婷婷| 超碰97人人人人人蜜桃| 蜜芽tv福利在线视频| 国产精品理伦片| 日韩一级片免费视频| 欧美成a人片在线观看久| 日韩欧美一区二区在线视频| 亚洲精品成人无码熟妇在线| 999久久久免费精品国产| 欧美黄色片免费观看| 天天干天天操天天操| 国产高清在线精品| 日韩午夜视频在线观看| 欧美一卡二卡| 欧美午夜电影一区| 精品人妻伦一二三区久| 手机在线电影一区| 欧美在线激情网| 国产理论片在线观看| 久久综合狠狠综合久久综合88 | 稀缺小u女呦精品呦| 色婷婷亚洲mv天堂mv在影片| 91精品成人久久| 97免费观看视频| 久久精品无码一区二区三区| 国产免费裸体视频| 日本一区二区三区中文字幕| 日韩国产欧美区| 久久午夜无码鲁丝片| 美女精品自拍一二三四| 久久久久久亚洲精品不卡4k岛国| 黄色免费在线观看网站| 91福利国产成人精品照片| 一边摸一边做爽的视频17国产| 大片网站久久| 国产成人avxxxxx在线看| 国产成人无码www免费视频播放| 国产精品国产三级国产普通话99| 久久综合精品一区| 四季久久免费一区二区三区四区| 在线看一区二区| 成人性生活免费看| 亚洲成色精品| 成人动漫在线观看视频| 91香蕉在线观看| 欧美日高清视频| 天堂网中文在线观看| 日日摸夜夜添夜夜添国产精品 | 色婷婷激情五月| 亚洲午夜电影在线| 国产裸体视频网站| 动漫av一区| 欧美高清视频免费观看| www.黄色国产| 亚洲线精品一区二区三区八戒| 一级日本黄色片| 午夜精品国产| 亚洲自拍另类欧美丝袜| 自拍亚洲图区| 日韩欧美国产一区二区在线播放| 国产一区二区视频在线观看免费| 国产真实乱偷精品视频免| 一区一区视频| 粉嫩一区二区三区在线观看| 久久亚洲精品毛片| 精品欧美在线观看| 亚洲成人tv网| 不卡一区二区在线观看| 裸体素人女欧美日韩| 日本福利一区二区三区| 亚洲一区二区三区四区| 日韩在线观看免费全集电视剧网站| 中文字幕久久熟女蜜桃| 国产福利一区在线观看| 欧美极品少妇无套实战| 国产成人精品亚洲线观看| 97久久久久久| 久久这里精品| 欧美欧美午夜aⅴ在线观看| 伊人久久久久久久久久久久久久| 久久99久国产精品黄毛片色诱| 自拍偷拍亚洲色图欧美| 福利在线一区| 青青精品视频播放| 色视频在线免费观看| 欧美一区二区三区性视频| 国产无码精品视频| 国产亚洲福利社区一区| 中文字幕 欧美日韩| 激情视频一区二区三区| 欧洲亚洲一区二区| 国产成人免费视频网站视频社区 | 亚洲精品美女久久久| 波多野结衣电车痴汉| 亚洲日本欧美天堂| 一区二区三区免费在线观看视频 | 日本国产高清不卡| 日韩子在线观看| 亚洲国产成人精品久久| 羞羞色院91蜜桃| 亚洲一区二区在线播放相泽| 永久免费看mv网站入口78| 久久国产精品99精品国产| 妞干网在线观看视频| 久久国产中文字幕| 黑人中文字幕一区二区三区| 欧美v亚洲v综合v国产v仙踪林| 久久久免费电影| 免费**毛片在线| 亚洲免费中文字幕| 午夜精品久久久久久久91蜜桃| 91福利精品第一导航| 成人免费看片98| 国产精品久久久久婷婷| 国产精品成人无码专区| 激情五月激情综合网| 激情综合网婷婷| 亚洲二区在线| 天天操天天干天天玩| 伊人精品一区| 国产精品污www一区二区三区| 福利视频一区| 欧美中文字幕在线播放| 日韩电影免费观看| xxxx性欧美| av网站在线播放| 亚洲视频网站在线观看| 黄色一级a毛片| 欧美一区二区三区免费大片| 在线观看亚洲黄色| 欧美午夜精品久久久久久浪潮 | 亚洲精彩视频| 亚洲精美视频| 精品美女久久久| 久久久亚洲综合网站| 电影一区二区在线观看| 亚洲字幕在线观看| 精品99re| 91亚洲精品一区二区| 韩国理伦片久久电影网| 国产成人午夜视频网址| 中文字幕高清在线播放| 韩国19禁主播vip福利视频| 污污网站在线看| 久久资源免费视频| 免费大片黄在线观看视频网站| 伊人久久五月天| 欧美777四色影视在线| 精品一区二区三区电影| 亚洲色大成网站www| 日韩av中文在线| 神马午夜在线观看| 亚洲精品久久视频| 无码国产精品高潮久久99| 精品国产区一区| 人妻无码中文字幕免费视频蜜桃| 精品国产乱码久久久久久夜甘婷婷 | 中文字幕在线观看免费高清| 久久亚洲春色中文字幕久久久| 日韩成人av一区二区| 91一区二区在线| 亚洲精品视频大全| 国产蜜臀97一区二区三区 | 狠狠做深爱婷婷综合一区| 欧美日韩喷水| 91综合久久| 国产美女视频免费| 黄色日韩精品| 欧美 国产 综合| 久久中文字幕一区二区三区| 成人黄色一区二区| 精品一区二区三区久久久| 午夜国产福利在线观看| 国产v综合v亚洲欧| 国产老熟女伦老熟妇露脸| 26uuu国产电影一区二区| 蜜桃久久精品成人无码av| 国产精品传媒入口麻豆| 顶级黑人搡bbw搡bbbb搡| 亚洲制服欧美中文字幕中文字幕| 日本在线观看中文字幕| 91久久精品一区二区三| 一本色道久久综合亚洲| 日韩女优毛片在线| 水莓100国产免费av在线播放| 国产亚洲欧美日韩一区二区| 久草资源在线观看| 韩国国内大量揄拍精品视频| 成人在线爆射| 97人人模人人爽人人喊38tv| 蜜桃久久久久| 91精品国产99| 欧洲av一区二区| 91黄色精品| 久久97视频| 大片在线观看网站免费收看| 国产日韩1区| 中文字幕第一页在线视频| 不卡的看片网站| 成年人看的免费视频| 亚洲国产欧美另类丝袜| 亚洲国产无线乱码在线观看| 日韩精品中文字幕一区| 成人免费视频| 欧美极品少妇xxxxⅹ裸体艺术| 欧洲av一区二区| 国语精品免费视频| 天天操综合网| wwwxxx黄色片| 国产69精品久久777的优势| 中文字幕成人动漫| 亚洲国产精品嫩草影院| 国产精品久久久国产盗摄| 亚洲剧情一区二区| 国产三线在线| 91精品在线播放| 欧美综合视频| 91av资源网| 国产·精品毛片| 日本黄色录像视频| 色网综合在线观看| 五月婷婷六月丁香综合| 精品中文字幕在线观看| 欧美啪啪网站| 欧美精品一区二区三区久久| 亚洲婷婷在线| 91在线第一页| 中文字幕亚洲在| 免费看污视频的网站| 亚洲国产精品字幕| 黄色在线观看视频网站| 亚洲综合大片69999| 日韩影院二区| 日韩高清第一页| 亚洲国产精品精华液2区45| 青青操免费在线视频| 精品奇米国产一区二区三区| 欧美成人三区| 国产日韩精品入口| 日韩av在线中文字幕| 男人女人黄一级| 国产欧美综合在线观看第十页| 国产三级av片| 国产视频久久久| 成人香蕉视频| 久久久人人爽| 老司机久久99久久精品播放免费| 免费成人蒂法网站| 午夜激情一区二区三区| 色噜噜一区二区三区| 97香蕉久久超级碰碰高清版| 风间由美一区二区av101| 日本一区午夜艳熟免费| 成人av电影在线网| www.日本精品| 亚洲美女免费精品视频在线观看| 在线天堂资源| 日韩资源av在线| 日韩在线观看一区二区| 国产在视频线精品视频| 欧美日韩精品电影| www久久日com| 国产嫩草一区二区三区在线观看| 亚洲人成久久| 女人被狂躁c到高潮| 欧美亚洲一区二区在线| bbbbbbbbbbb在线视频| 成人精品视频99在线观看免费| 亚洲精彩视频| 国产一级免费片| 色综合中文字幕国产| 成人免费视频| 99久久精品久久久久久ai换脸| 国精品一区二区三区| 黄色性生活一级片| 欧美伊人久久久久久久久影院| 91xxx在线观看| 91麻豆蜜桃| 一本久道久久综合婷婷鲸鱼| 在线观看福利片| 8x福利精品第一导航| 青青在线视频| 欧美日韩一区二区三区在线视频| 麻豆91在线看| 久久精品视频久久| 亚洲人成电影网站色xx| 91成人小视频| 女人天堂av手机在线| 中文字幕一区免费在线观看 | 欧美特黄aaaaaaaa大片| 伊人久久大香线蕉av一区| 成人看片黄a免费看在线| 中文精品久久久久人妻不卡| 色综合五月天导航| 国产一区二区电影在线观看| 午夜天堂在线视频| 欧美午夜视频在线观看| 国产在线1区| 鲁丝一区二区三区免费| 国内精品写真在线观看| 六月丁香激情综合| 免费成人高清视频| 成人免费av| 性欧美丰满熟妇xxxx性久久久| 欧美精品xxxxbbbb|