今天分享一篇來自AI研究機構Nof1的文章,Title:ExploringtheLimitsofLargeLanguageModelsasQuantTraders(探索大型語言模型作為量化交易員的極限)。這篇文章進行了一項開創性的實驗,旨在測試當今頂尖大型語言模型(LLMs)在真實、動態和高風險的金融市場中的決策能力。研究團隊不再依賴傳統的靜態基準測試,而是創建了一個名為“AlphaArena”的真實交易環境。他們為六個領先的LLM(包括GPT5、Gemini2.5Pro等)各提供了1萬美元...
2025-11-07 07:42:14 1274瀏覽 0點贊 0回復 0收藏
今天分享一篇來自同濟大學與微軟亞洲研究院等機構的文章,題為《TRADEINMINUTES!RATIONALITYDRIVENAGENTICSYSTEMFORQUANTITATIVEFINANCIALTRADING》(分鐘級交易!理性驅動的量化金融交易智能體系統)。這篇文章開創性地提出了一個名為TiMi(TradeinMinutes)的多智能體(MultiAgent)量化交易系統。其核心思想是將復雜的策略制定與優化過程與對時間極其敏感的交易執行過程進行“解耦”。系統在離線環境下,利用大語言模型(LLM)...
2025-10-31 07:48:53 1461瀏覽 0點贊 0回復 0收藏
大家好,我是HxShine,今天繼續來分享OpenAI姚順雨的一篇文章,這篇文章探討了Agent實際落地時該如何評測,他在thesecondhalf里面也提了這篇文章,是Agent真正落地到客服等領域必須要進行的一些評測工作,推薦給大家~論文名字是Title:Tbench:ABenchmarkforToolAgentUserInteractioninRealWorldDomains(Tbench:一個用于真實世界領域中工具智能體用戶交互的基準測試)。現有基準大多不測試智能體與人類用戶的動態交互能力,也...
2025-10-20 07:55:42 844瀏覽 0點贊 0回復 0收藏
今天繼續來看下經典的codebenchmark之SWEBENCH的細節,其由普林斯頓大學和芝加哥大學聯合發表于ICLR2024,Title:SWEbench:CANLANGUAGEMODELSRESOLVEREALWORLDGITHUBISSUES(SWEbench:語言模型能解決真實的GitHub問題嗎?)。這篇文章旨在解決當前語言模型(LMs)在代碼生成領域評估基準過于簡單、無法反映真實世界軟件工程復雜性的問題。為此,作者們提出了一個全新的、極具挑戰性的評估框架——SWEbench。該框架包含從12個流行的...
2025-09-24 07:02:26 4434瀏覽 0點贊 0回復 0收藏
今天分享來自中關村實驗室和清華大學的一篇觀點文章:AIAgentCommunicationfromInternetArchitecturePerspective:ChallengesandOpportunities。各類AI智能體快速涌現,但它們的通信方式卻日益碎片化。這不僅造成了創新資源的冗余,也阻礙了跨系統間的協作。為此,本文首次從互聯網架構的視角,對AI智能體通信進行了系統性分析。文章借鑒互聯網數十年演進的成功經驗,提煉出評估智能體生態系統的核心要素——可擴展性、安全性、...
2025-09-24 07:01:35 1844瀏覽 0點贊 0回復 0收藏
大家好,我是HxShine。今天再來看看GAIABenchmark的細節,來看看GAIA如何成為Agent領域最經典的BenchMark之一。它由MetaFAIR、HuggingFace、AutoGPT等機構聯合發布。Title:GAIA:ABenchmarkforGeneralAlAssistants(GAIA:一個面向通用人工智能助手的基準測試)。GAIA旨在評估通用AI助手的能力。與當前主流AI評測基MMLU等追求“對人類也困難”的任務不同,GAIA的理念是提出一系列對普通人來說概念上簡單,但對當今最先進的AI來說...
2025-09-24 07:01:19 2655瀏覽 0點贊 0回復 0收藏
今天分享一篇來自OpenAI的文章,Title:PaperBench:EvaluatingAI'sAbilitytoReplicateAIResearch(PaperBench:評估AI復現AI研究的能力)。這篇文章提出了一個名為PaperBench的全新基準測試,旨在評估AIAgents(AIagents)從零開始復現頂尖AI研究論文的能力。這項任務極具挑戰性,要求AIAgents理解論文、從頭編寫代碼、并成功運行實驗以復現結果。該方法的核心貢獻是:1)數據集:精選了20篇ICML2024的Spotlight和Oral論文作為復現...
2025-08-29 06:52:19 1396瀏覽 0點贊 0回復 0收藏
今天分享一篇來自字節跳動和復旦大學的研究,標題為《通過自動化構建環境的反饋驅動方法提升大型語言模型的工具使用能力》(FeedbackDrivenToolUseImprovementsinLargeLanguageModelsviaAutomatedBuildEnvironments)。這篇文章提出了一種創新方法,旨在解決大型語言模型(LLMs)在工具使用方面所面臨的挑戰,特別是缺乏高效的強化學習(RL)框架以及難以構建穩定訓練環境和設計可驗證獎勵機制的問題。該研究通過構建自動化環境和...
2025-08-15 07:49:09 2231瀏覽 0點贊 0回復 0收藏
今天分享一篇ICLR25的一篇文章,標題為:AUTOMATEDDESIGNOFAGENTICSYSTEMS(自動化Agent設計系統)。手寫workflow太累啦,這篇文章探討了如何自動化設計強大的Agent系統(ADAS系統),其通過一種元智能體(metaagent)來自動編寫和迭代優化Agent,讓他自動化去發明新穎的構建模塊和組合方式。同時通過一個名為元智能體搜索(MetaAgentSearch)迭代地編程新穎智能體,并根據其性能進行評估和優化。該方法特點總結如下:1.自動化A...
2025-08-01 06:52:00 2201瀏覽 0點贊 0回復 0收藏
今天分享一篇來自耶魯大學、OPPO、UWMadison、UNC、斯坦福、字節跳動、微軟研究院、谷歌DeepMind等眾多頂尖機構合作的論文,題目為AGENTKB:LeveragingCrossDomainExperienceforAgenticProblemSolving(AGENTKB:利用跨域經驗解決智能體問題)。這篇文章直面當前語言Agent的核心痛點:即難以在不同任務和領域之間有效地復用和遷移經驗,導致在處理復雜問題時效率低下、錯誤頻發。該框架通過一個創新的“推理檢索精煉”(ReasonRe...
2025-08-01 06:41:15 2475瀏覽 0點贊 0回復 0收藏
今天分享一篇來自斯坦福大學和GoogleDeepMind的文章,標題為:《SyntheticDataGeneration&MultiStepRLforReasoning&ToolUse》(利用合成數據生成和多階段強化學習進行推理和工具使用)。本文提出了一種名為SWiRL(StepWiseReinforcementLearning)的方法,旨在優化LLMs在復雜多步推理和工具使用任務中的表現。該方法分為兩個主要階段:1.合成數據生成:通過迭代式生成多階段(Multistep)的推理和工具使用數據,并從中學習。2.多...
2025-07-11 06:44:02 2871瀏覽 0點贊 0回復 0收藏
這篇文章旨在探討數學推理能力的提升是否能泛化到其他領域?研究發現,盡管許多LLM在數學基準測試上取得了顯著進步,但這些提升在很大程度上未能有效遷移到其他領域。通過對20多個開源推理調優模型進行評估,并對Qwen314B模型進行控制實驗,研究發現,基于強化學習(RL)調優的模型展現出更好的跨領域泛化能力,而基于監督微調(SFT)的模型則常常導致通用能力的遺忘。通過對潛在空間表示和token空間分布漂移的分析,揭示了SFT...
2025-07-11 06:36:03 1546瀏覽 0點贊 0回復 0收藏
今天分享一篇來自NVIDIA的研究論文,標題為《ProRL:ProlongedReinforcementLearningExpandsReasoningBoundariesinLargeLanguageModels》(ProRL:長時間強化學習拓展大型語言模型的推理邊界)。這篇文章探討了強化學習(RL)是否真正能拓展LLM推理上限?還是僅僅優化了其基礎模型中已有的高獎勵輸出的采樣效率,以及持續擴展RL計算是否能可靠地提高推理性能。作者通過引入ProRL(ProlongedReinforcementLearning)訓練方法,證...
2025-06-26 01:02:03 2948瀏覽 0點贊 0回復 0收藏
今天分享一篇上海人工智能實驗室的文章,標題為DOLPHIN:MovingTowardsClosedloopAutoresearchthroughThinking,Practice,andFeedback(DOLPHIN:通過思考、實踐和反饋邁向閉環自動化研究)。這篇文章介紹了一個名為DOLPHIN的閉環、LLM驅動的框架,旨在提升科學研究的自動化水平。該框架模擬人類研究過程,通過迭代循環進行思考(想法產生)、實踐(實驗驗證)和反饋(結果分析)。DOLPHIN的方法主要包括三個關鍵階段:1)想法產生:...
2025-06-13 06:42:33 2072瀏覽 0點贊 0回復 0收藏
今天分享一篇來自HarvardUniversity和KempnerInstitute的文章,標題為EchoChamber:RLPosttrainingAmplifiesBehaviorsLearnedinPretraining(RL后訓練放大預訓練中學到的行為)。這篇文章旨在系統性地研究強化學習(RL)微調對語言模型行為的影響,特別是其與預訓練數據組成、超參數和模型規模的相互作用。該研究通過從頭開始訓練模型,并使用完全公開的數據集混合物進行預訓練和RL微調,揭示了RL微調如何放大預訓練數據中的特定模...
2025-05-30 06:03:16 2233瀏覽 0點贊 0回復 0收藏
從1920年的小說《R.U.R》到《鋼鐵俠》中的JARVIS,在過去的一個世紀里,人們一直夢想著構建能夠自動化日常工作的DigitalAgents(數字代理)。如今,隨著視覺語言模型(VLMs)的蓬勃發展,構建這樣的Agents成為了可能。11AgentforGUIControl想要構建一個有效的ComputerUseAgents,其必須擁有兩個能力:(1)Planning能力,即規劃Computeruse任務的能力,能將用戶給定的(高階)指令分步劃分為多個子目標(2)Action能力,即根據...
2025-05-19 01:59:53 2337瀏覽 0點贊 0回復 0收藏
大家好,我是HxShine今天分享一篇來自清華的文章,標題為:“DoesReinforcementLearningReallyIncentivizeReasoningCapacityinLLMsBeyondtheBaseModel”(強化學習真的能激勵大型語言模型(LLM)產生超越基礎模型本身的推理能力嗎?)。這篇文章研究的問題:可驗證獎勵的強化學習(RLVR)真能夠使LLM持續自我改進,獲得超越其對應基礎模型的新推理能力嗎?(即強化學習能提高base基座模型的天花板嗎?)。研究者通過使用passk指標(...
2025-05-06 07:12:18 2878瀏覽 0點贊 0回復 0收藏
今天分享一篇來自清華大學和上海人工智能實驗室的文章,標題為TTRL:TestTimeReinforcementLearning(測試時強化學習)。這篇文章探討了一個重要且具有挑戰性的問題:如何在沒有顯式標簽(groundtruth)的情況下,利用強化學習(RL)在測試階段提升大型語言模型(LLM)在推理任務上的性能。核心挑戰在于測試時無法獲得真實的獎勵信號。研究者們發現,像多數投票(majorityvoting)這類在測試時擴展(TestTimeScaling,TTS)中常用...
2025-05-06 07:09:42 3587瀏覽 0點贊 0回復 0收藏
大家好,我是HxShine今天分享一篇香港科技大學、DeepSeekAI和上海交通大學聯合發表的文章,標題為:CODEIO:CondensingReasoningPatternsviaCodeInputOutputPrediction(CODEIO:通過代碼輸入輸出預測濃縮推理模式)。這篇文章提出了一種名為CODEIO的新方法,旨在通過代碼輸入輸出預測來提煉和濃縮代碼中蘊含的多種推理模式,從而提升大語言模型(LLMs)的推理能力。該方法的核心思想是將代碼轉換為一種輸入輸出預測任務,讓模型...
2025-04-21 07:29:26 3146瀏覽 0點贊 0回復 0收藏
什么是AgentR1AgentR1是由中科大認知智能全國重點實驗室開發的智能體強化學習訓練框架,致力于推進強化學習與智能體技術的融合發展。框架采用端到端強化學習方法,突破了依賴人工設計工作流的傳統智能體開發瓶頸,讓AI直接從與環境的交互中學習最優策略,實現自主決策與行動。開發者只需定義特定領域的工具和獎勵函數,即可將AgentR1擴展到各種應用場景,無需編寫復雜的工作流程。背景隨著大型語言模型(LLM)技術的快速發展,智...
2025-04-09 06:29:20 3566瀏覽 0點贊 0回復 0收藏