精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

比 o3 更快更準(zhǔn)?聽說有人打造了一個超強郵件助手 ART·E 原創(chuàng)

發(fā)布于 2025-6-11 07:02
瀏覽
0收藏

你有沒有遇到過這種情況?

突然收到一條消息:“我弟弟周五航班的時間是幾點?”
你打開郵箱,翻來覆去地查找,輸入關(guān)鍵詞,一頁一頁瀏覽,好不容易才找到那封關(guān)鍵郵件。

這種操作在 2025 年還存在,是不是有點反人類了?

最近,有一個項目就瞄準(zhǔn)了這個痛點,推出了一個名叫 ART·E 的電子郵件研究代理。它并不是那種“看起來很厲害”的模型,而是真正能幫你從海量郵件中快速準(zhǔn)確找到答案的工具。

最讓人驚訝的是,它的表現(xiàn)竟然超過了 o3,不僅回答正確率更高,運行速度更快,成本也低了將近 64 倍。

比 o3 更快更準(zhǔn)?聽說有人打造了一個超強郵件助手 ART·E-AI.x社區(qū)

比 o3 更快更準(zhǔn)?聽說有人打造了一個超強郵件助手 ART·E-AI.x社區(qū)

ART·E 是什么?它真的有用嗎?

ART·E 全稱 ART·E(可能是某個縮寫,但目前還沒公開),是一個通過強化學(xué)習(xí)訓(xùn)練出來的 AI 助手,專門用于從你的郵箱中查找和回答問題。

比如:

  • “RSVP 方式是什么?”
  • “修訂版 anexb.doc 文件在哪兒下載?”
  • “公司差旅政策里關(guān)于酒店報銷的規(guī)定是什么?”

這些問題聽起來是不是很眼熟?沒錯,這就是我們?nèi)粘I钪薪?jīng)常碰到的真實場景。

而 ART·E 的目標(biāo)很簡單:讓你不再手動翻找郵件,直接發(fā)問,它就能給出答案。

更夸張的是,它不僅能回答出這些問題,還能告訴你這些答案來自哪幾封郵件,出處一目了然。

數(shù)據(jù)從何而來?Enron 郵件庫成了訓(xùn)練寶庫

為了訓(xùn)練這樣一個模型,首先需要一個龐大的數(shù)據(jù)集。

于是開發(fā)者們盯上了 Enron——這家在 2001 年因財務(wù)造假被起訴的能源公司。當(dāng)時公布的近 50 萬封郵件,意外地成為了研究人員的寶藏。

最終,他們從中挑選了 8 個員工的郵箱作為測試集,另外選了 20 個作為訓(xùn)練集。每個郵箱至少包含 5,000 封郵件,有些甚至超過 10,000 封。

光有郵件還不夠,還需要大量真實的問題與答案對來模擬用戶可能提出的查詢。

于是,GPT-4.11 被派上用場了。每批處理 20 封郵件,自動生成多個問題和答案,同時還會打一個“how_realistic”分值,來過濾掉那些不合理的提問。

最終,得到了一個包含約 4000 個問題的合成數(shù)據(jù)集。

舉幾個真實的例子看看你就明白了:

問題

答案

來源

周二下午與 EES 會議討論什么問題?

強制公用事業(yè)公司支付拖欠的 PX 信用額度、是否應(yīng)向客戶收取新的 1 分附加費、是否應(yīng)將客戶重新轉(zhuǎn)回捆綁式服務(wù)等

Expand Source

我去科羅拉多斯普林斯的大陸航空航班確認(rèn)號是多少?

N1BTZH

Expand Source

e-commerce交易禁運國家有哪些?

巴林、伊拉克、科威特、黎巴嫩、利比亞、阿曼、卡塔爾、沙特阿拉伯、敘利亞、阿聯(lián)酋、也門

Expand Source

這些數(shù)據(jù)既貼近現(xiàn)實,又具備代表性,非常適合用來訓(xùn)練和評估模型。

工具設(shè)計簡潔高效,只圍繞核心任務(wù)展開

為了讓模型專注于核心任務(wù),環(huán)境的設(shè)計也被盡可能簡化。

提供了三個基礎(chǔ)工具函數(shù):

def search_emails(keywords, sent_after=None, sent_before):
    """根據(jù)關(guān)鍵詞及時間范圍搜索郵件"""
    # 返回最多10封匹配的郵件ID和摘要片段
    
def read_email(message_id):
    """讀取指定ID郵件的完整內(nèi)容"""
    
def return_final_answer(answer: str, sources: list[str]):
    """返回最終答案及引用郵件ID列表"""

這三個工具已經(jīng)足夠讓模型完成大部分的操作了。

所有數(shù)據(jù)都存儲在一個 SQLite 數(shù)據(jù)庫中,并使用 FTS5 全文檢索引擎來加速搜索。

整個流程也非常簡單:

  1. 接收初始提示詞:任務(wù)描述 + 用戶問題;
  2. LLM 生成下一步動作(調(diào)用哪個工具);
  3. 執(zhí)行工具,獲取結(jié)果;
  4. 將工具返回的信息加入上下文;
  5. 重復(fù)上述步驟,直到返回答案或達(dá)到最大步數(shù)(默認(rèn)為 10)。

沒有復(fù)雜的遞歸邏輯,也沒有花里胡哨的中間層,就是最為直接的執(zhí)行路徑。

測試現(xiàn)成模型:別急著訓(xùn)練,先看看大模型能干啥

很多人拿到新任務(wù)第一反應(yīng)就是“趕緊訓(xùn)練一個模型”,但在正式訓(xùn)練之前,先嘗試一些現(xiàn)成的大模型其實是非常有必要的。

原因有幾個:

  1. 可能你發(fā)現(xiàn)現(xiàn)有的模型已經(jīng)做得很好了,根本不需要再訓(xùn)練;
  2. 很多時候模型表現(xiàn)差是因為提示詞缺失、工具不可靠或者任務(wù)模糊,這些問題 RL 也解決不了;
  3. 最重要的是,當(dāng)你最終超越這些模型時,那一刻的成就感會讓你覺得一切努力都值得。

所以這次也測試了不少主流模型,包括 GPT-4o、Qwen-14B、o3、o4-mini 等等。

并通過 LLM-as-judge 的方式來做自動評估:

def judge_answer(golden_answer, model_answer):
    """判斷模型回答是否正確"""
    prompt = f"請比較以下兩個答案是否一致:\n\nGolden Answer: {golden_answer}\nModel Answer: {model_answer}"
    response = call_llm(prompt)
    return response.strip().lower() == "yes"

結(jié)果顯示,即使是目前最強的大模型,在這類任務(wù)上的準(zhǔn)確率也不高。這就為我們提供了改進的空間。

獎勵函數(shù)怎么設(shè)計?告訴模型你要什么

這是整個過程中最關(guān)鍵的一環(huán)之一。

很多人都會誤解:我已經(jīng)有一個評價函數(shù)了,還需要什么獎勵函數(shù)?

其實不然。雖然我們可以用 LLM 作為裁判來衡量答案是否正確,但這只是一個最終目標(biāo)。而在 RL 中,我們還可以引導(dǎo)模型同時優(yōu)化多個指標(biāo),比如:

  • 準(zhǔn)確性(Correctness)
  • 幻覺抑制(Hallucination Penalty)
  • 步數(shù)最小化(Turn Minimization)

最終采用的獎勵函數(shù)如下:

def calculate_reward(correct, hallucinated, turns):
    base_reward = 1.0 if correct else -1.0
    hallucination_penalty = -0.5 if hallucinated else 0
    turn_bonus = 0.1 * (10 - turns) / 10  # 鼓勵更少步驟
    return base_reward + hallucination_penalty + turn_bonus

其中:

  • ??correct?? 表示答案是否正確;
  • ??hallucinated?? 表示是否虛構(gòu)答案;
  • ??turns?? 是完成任務(wù)所用的步驟數(shù)。

這個函數(shù)背后的核心思想在于:既要鼓勵模型回答正確,又要懲罰錯誤行為(如幻覺),還要讓它盡可能高效完成任務(wù)。

比 o3 更快更準(zhǔn)?聽說有人打造了一個超強郵件助手 ART·E-AI.x社區(qū)

比 o3 更快更準(zhǔn)?聽說有人打造了一個超強郵件助手 ART·E-AI.x社區(qū)

訓(xùn)練過程揭秘:GRPO + ART 庫實戰(zhàn)

訓(xùn)練部分使用的是他們自己開源的 ART(Agent Reinforcement Trainer)庫,采用 Group Relative Policy Optimization(GRPO)算法。

整個流程非常清晰:

  1. 加載一批問題(每次加載 12 個);
  2. 每個問題跑 4 次軌跡(trajectory);
  3. 對每個軌跡計算獎勵;
  4. 使用 GRPO 公式更新模型權(quán)重;
  5. 每 30 步運行一次驗證集測試;
  6. 直到模型在驗證集上停止提升為止。

完整的訓(xùn)練腳本只有幾十行代碼:

from art.trainer import GRPOTrainer
from art.envs.email_agent_env import EmailAgentEnv

env = EmailAgentEnv()
trainer = GRPOTrainer(env=env, model="qwen-14b", reward_func=calculate_reward)

# 開始訓(xùn)練
trainer.train(
    dataset_path="data/synthetic_qa_dataset.json",
    num_epochs=2,
    learning_rate=1.2e-5,
    batch_size=12,
    rollout_per_questinotallow=4,
    save_dir="results/art-e/",
    log_to_wandb=True
)

訓(xùn)練監(jiān)控方面也有一些小技巧:

  • 觀察獎勵標(biāo)準(zhǔn)差:如果所有軌跡得分接近,說明模型陷入局部最優(yōu);
  • 跟蹤多個指標(biāo):包括準(zhǔn)確率、幻覺率、平均步數(shù)等;
  • 定期查看模型輸出:防止 Reward Hacking,比如模型學(xué)會了重復(fù)調(diào)用同一個工具來“占滿”回合數(shù)從而拿更多獎勵。

最終,整個訓(xùn)練在一塊 H100 GPU 上完成,耗時不到一天,總成本約為 80 美元。

性能對比:ART·E vs o3,誰更勝一籌?

最后來看一下 ART·E 的實際表現(xiàn):

指標(biāo)

ART·E

o3

準(zhǔn)確率

89%

70%

平均步數(shù)

3.2

4.1

運行成本($/query)

$0.002

$0.128

幻覺率

2.3%

8.9%

可以看到,ART·E 不僅在準(zhǔn)確性上遠(yuǎn)超 o3,在成本和效率上也實現(xiàn)了質(zhì)的飛躍。更關(guān)鍵的是,它能回答很多 o3 根本無法理解的問題。

比 o3 更快更準(zhǔn)?聽說有人打造了一個超強郵件助手 ART·E-AI.x社區(qū)

結(jié)語:通往通用 Agent 的一小步

比 o3 更快更準(zhǔn)?聽說有人打造了一個超強郵件助手 ART·E-AI.x社區(qū)

ART·E 的誕生并不是終點,而是探索真正智能代理(Intelligent Agent)旅程中的重要一步。

它證明了一個道理:即使是最前沿的問題,也可以通過合理的方法、合適的數(shù)據(jù)以及一點巧思,打造出令人驚艷的產(chǎn)品。


本文轉(zhuǎn)載自??Halo咯咯??    作者:基咯咯


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
已于2025-6-11 07:02:01修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
在线播放中文字幕一区| 国产日产欧美一区| 最新欧美精品一区二区三区| 国产免费亚洲高清| 日韩一区二区三区四区在线| 少妇视频在线观看| 欧美激情中文字幕一区二区| 亚洲淫片在线视频| 亚洲日本韩国在线| 久久密一区二区三区| 日韩一级欧美一级| 欧美日韩第二页| 成人日韩欧美| 久久综合五月天婷婷伊人| 国产美女久久久| 国产福利拍拍拍| 欧美国产美女| 亚洲精品视频中文字幕| 福利视频999| 色戒汤唯在线观看| 亚洲免费观看高清完整版在线观看熊| 久久99精品久久久久久青青日本 | 亚洲男同性恋视频| 久久久久网址| 精品国产伦一区二区三区| 欧美综合自拍| 欧美精品乱人伦久久久久久| 欧美一区二区三区爽大粗免费 | 欧美日韩不卡一区二区| 日本人体一区二区| 免费a在线看| 久久精品亚洲精品国产欧美| 国产精品日韩一区二区免费视频| 中文字幕在线播出| 老司机午夜精品视频| 欧美黄色片视频| 精品综合久久久久| 欧美黄色网页| 一区二区三区在线免费播放| 亚洲人成网站在线观看播放| 日本免费不卡| 岛国av在线一区| 成人黄色大片在线免费观看| jizz国产在线观看| 亚洲欧美日韩国产| 久久久久久久久爱| 欧洲猛交xxxx乱大交3| 日韩电影一区| 欧美午夜片在线看| 日韩久久一级片| 丰乳肥臀在线| 亚洲综合在线视频| 精品免费久久久久久久| 黄色片免费在线观看| 中国色在线观看另类| 欧美日韩一区二区三区免费| 亚洲成人第一网站| 亚洲黄网站黄| 韩国三级电影久久久久久| 久草视频中文在线| 欧美日韩视频| 日韩成人av网| 私密视频在线观看| 久久超级碰碰| 日韩精品在线视频美女| 免费中文字幕av| 亚洲老女人视频免费| 亚洲欧美中文在线视频| 波多野吉衣中文字幕| 久久99国产精品视频| 亚洲精品中文字幕av| 天天躁日日躁aaaxxⅹ| 精品美女久久久| 中文日韩电影网站| 久草手机视频在线观看| 91精品国产成人观看| 欧美日韩福利视频| 日韩av女优在线观看| 国产精品一卡| 国产福利视频一区二区| 中文字幕在线网址| 久久99精品国产麻豆不卡| 国产日韩欧美一二三区| 国产福利视频导航| 久久综合导航| 国产精品视频在线播放| 97精品人妻一区二区三区香蕉| 狠狠狠色丁香婷婷综合久久五月| 91传媒在线免费观看| 黑人乱码一区二区三区av| 91免费视频网址| 日韩在线第一区| caoporn免费在线| 天天亚洲美女在线视频| 一级片视频免费观看| 欧美.com| 亚洲精品视频在线观看视频| 日韩国产第一页| 欧美色婷婷久久99精品红桃| 久久国产精品偷| 你懂的国产视频| 蜜乳av一区二区| 欧洲成人在线视频| 亚洲一区精品在线观看| 成人综合在线网站| 欧美一区1区三区3区公司 | 日韩综合av| 五月婷婷欧美视频| www.天天射.com| av成人资源| 中文字幕在线看视频国产欧美在线看完整 | 亚洲欧美激情在线视频| 国产精品无码自拍| 亚洲肉体裸体xxxx137| 久久视频这里只有精品| 国产尤物在线视频| 国产一区999| 日本一区二区高清视频| 久久久123| 欧美日韩aaa| 免费观看av网站| 激情成人综合| 91热福利电影| 国产乱视频在线观看| 午夜激情一区二区三区| 午夜av中文字幕| 国产一区不卡| 97成人超碰免| 免费观看国产精品| 中文字幕亚洲不卡| 亚洲三级视频网站| 羞羞色国产精品网站| 欧美精品福利视频| a在线观看视频| 亚洲欧洲av在线| 亚洲免费av一区二区三区| 免费看久久久| 国产最新精品视频| 日本中文字幕免费观看| 国产一区二区精品在线观看| 日韩欧美第二区在线观看| 僵尸再翻生在线观看| 欧美三级免费观看| 亚洲国产精品狼友在线观看| 中文字幕一区二区av| 国产一区私人高清影院| 91在线高清| 欧美无砖砖区免费| 在线免费观看视频| 日韩精品五月天| 欧美日韩国产一二| 日韩三区在线| 亚洲网站在线观看| 午夜精品久久久久久久蜜桃| 2020国产精品| 男人天堂网视频| 免费看成人哺乳视频网站| 欧美有码在线视频| 飘雪影院手机免费高清版在线观看| 天天操天天干天天综合网| 自拍视频一区二区| 亚洲欧美日韩专区| 欧美日韩国产综合在线| 成人国产精品入口免费视频| 尤物九九久久国产精品的特点| 中文在线字幕av| 国产精品护士白丝一区av| 日韩小视频网站| 国产精品亚洲d| 在线视频欧美日韩精品| 一级片在线观看视频| 亚洲日本va在线观看| 久久久国产精品久久久| 最新亚洲激情| 日本一区二区三区在线视频 | 国产大片精品免费永久看nba| 国产九九在线| 欧美高清视频一二三区 | 欧美日中文字幕| 91日本视频在线| 免费在线国产视频| 日韩精品在线观看视频| 一区二区小视频| 亚洲精品国产a| 成人免费av片| 久久99热国产| 久久久久久免费看| 日本精品黄色| 96精品久久久久中文字幕| 国产精品—色呦呦| 亚洲日韩第一页| 国产免费黄色网址| 国产婷婷一区二区| 性欧美1819| 亚洲性视频h| 亚洲不卡1区| 超碰在线资源| 国产午夜精品视频| 精品国产黄色片| 日韩欧美成人免费视频| av黄色免费在线观看| 成人久久视频在线观看| 欧美一级特黄a| 在线成人av| 亚洲综合第一| 亚洲宅男一区| 国产精品免费在线| 国语自产精品视频在线看抢先版结局| 日韩精品中文字幕有码专区| 中文字幕在线日亚洲9| 午夜欧美在线一二页| sm捆绑调教视频| 99精品久久99久久久久| 亚洲第一色av| 日韩经典中文字幕一区| 日本阿v视频在线观看| 久久亚洲精品中文字幕蜜潮电影| 精品久久蜜桃| 色妞ww精品视频7777| 欧美精品在线免费观看| 国产一级免费在线观看| 精品乱人伦小说| 国产精品自产拍| 欧美午夜激情小视频| 欧美日韩大片在线观看| 国产精品久久久久影院色老大| 国产黄色三级网站| 国产**成人网毛片九色| 日韩激情视频一区二区| 日韩精品四区| 日韩一区二区三区资源| 蜜桃a∨噜噜一区二区三区| 国产精品theporn88| 99久久99九九99九九九| 国产精品一二三视频| 欧洲一级精品| 国产成人免费av电影| 天堂av在线网| 91国在线精品国内播放| 欧美xxxx少妇| 大胆人体色综合| 中中文字幕av在线| 美女撒尿一区二区三区| 麻豆传媒视频在线| 精品国产一区二区三区久久久狼| 国产98在线| 国产亚洲欧美日韩美女| 欧美女同网站| 亚洲欧美成人网| 天堂av在线免费观看| 色婷婷激情综合| 午夜婷婷在线观看| 欧美日韩国产精品一区| 日本三级中文字幕| 性感美女久久精品| 成年人免费看毛片| 色综合久久久久综合| 在线永久看片免费的视频| 色女孩综合影院| 中文字幕乱码一区二区| 欧美精品高清视频| 国产人妻精品一区二区三| 欧美一级一区二区| 亚洲第一成人av| 亚洲精品黄网在线观看| 飘雪影视在线观看免费观看| 国产一区二区黑人欧美xxxx| 在线中文资源天堂| 欧美成人手机在线| а√天堂8资源中文在线| 2019亚洲男人天堂| 久久亚洲精品爱爱| 91日本在线观看| 卡一精品卡二卡三网站乱码| 欧美三日本三级少妇三99| 精品一区av| 一级黄色录像免费看| 欧美日韩看看2015永久免费 | 欧美成人精品激情在线观看| 金瓶狂野欧美性猛交xxxx | 日韩精品一区二区三| 激情亚洲一区二区三区四区| 无码人妻一区二区三区线| 欧美人动与zoxxxx乱| 亚洲av综合色区无码一二三区 | 国产免费一区视频观看免费| 国产精品777777在线播放| 国产乱码精品一区二区三区卡| 少妇精品久久久| 欧美 另类 交| 国产婷婷精品| 亚洲精品免费一区亚洲精品免费精品一区 | 欧美日韩看看2015永久免费| 日韩av高清| 欧美日本一区二区视频在线观看| 欧美 日韩 国产在线观看| 久久精品久久久精品美女| 国产情侣久久久久aⅴ免费| 国产亚洲一区二区三区四区 | 热久久天天拍国产| 全黄性性激高免费视频| 男女性色大片免费观看一区二区| 性生交大片免费看l| 久久人人97超碰com| 国产高潮流白浆| 日本久久一区二区| www.久久久久久| 在线播放精品一区二区三区| xxxcom在线观看| 国产精品免费久久久久久| 欧美激情极品| 日本一区二区三区四区五区六区| 国产精品婷婷| 亚洲熟女一区二区三区| 国产精品色哟哟| 欧美日韩综合在线观看| 日韩午夜在线影院| 999国产在线视频| 91精品国产九九九久久久亚洲| 人人精品久久| 欧美亚洲另类在线一区二区三区| 黑丝一区二区| 日本77777| 日本一区二区三区高清不卡| 精品国产免费观看| 欧美不卡视频一区| 男人和女人做事情在线视频网站免费观看| 欧美亚洲另类在线| 大奶在线精品| 国产精品免费看久久久无码| 男人的j进女人的j一区| 中文字幕成人动漫| 欧美视频不卡中文| 亚洲av片一区二区三区| 国产69精品久久久久9| 日韩欧美一级| 美女在线免费视频| 国产综合久久久久久久久久久久| 级毛片内射视频| 91黄色免费网站| 久草福利在线视频| 欧美一区二区.| 综合干狼人综合首页| 久草资源站在线观看| av在线综合网| av大片免费在线观看| 亚洲第一视频网| 五月天婷婷社区| 欧美极品少妇xxxxⅹ免费视频| 日韩欧美一级| www.av91| av不卡免费在线观看| 午夜精品三级久久久有码| 亚洲国产高潮在线观看| 99riav视频在线观看| 黑人另类av| 国产农村妇女精品一区二区| 玖玖爱在线观看| 91久久久免费一区二区| 成人福利在线| 国产精品无av码在线观看| 日韩久久精品网| 国产高清av片| 亚洲一区二区三区四区在线| 少妇人妻精品一区二区三区| 91av在线精品| 精品freesex老太交| 国产小视频精品| 亚洲人精品午夜| 亚洲av无码一区二区乱子伦| 97久久国产精品| 美女网站一区| 亚洲精品mv在线观看| 亚洲午夜私人影院| 日本福利午夜视频在线| 国产精品久久久久久久久借妻| 国产精品99久久久久久动医院| 精品人妻一区二区三区免费| 午夜精品视频一区| 激情综合闲人网| 亚洲xxxx在线| 国产一区二区精品| jizz18女人高潮| 日韩三级在线观看| www.com.cn成人| 特色特色大片在线| 久久影院午夜片一区| 96亚洲精品久久久蜜桃| 国产综合在线看| 久久神马影院| 日本丰满少妇裸体自慰| 欧美日韩精品一区二区在线播放 | 国内免费久久久久久久久久久 | 在线精品亚洲一区二区| 国产成人精品午夜视频免费| 无码人妻久久一区二区三区不卡| xx视频.9999.com| 神马日本精品| 日本一二三四区视频| 欧美色另类天堂2015|