在人工智能領域,大多數研究仍然遵循一種"工廠流水線"模式:中央管理器選擇基線,指示LLM提出單一改進,根據固定指標評估,然后終止會話。這種無狀態、自上而下的過程限制了科學發現的開放性和創造性。StephenChung和WenyuDu推出了TheStation,這是一個開放世界多agent環境,旨在讓AIagent能夠自主探索假設、開發方法,并在持久世界中進行交互,追求開放式的科學發現。什么是TheStation?TheStation是一個模擬微型科學生態系統...
世界模型使智能agent能夠想象、預測和推理世界如何響應其行動而演化,從而進行規劃和策略制定。雖然最近的視頻生成模型能夠產生逼真的視覺序列,但它們通常以"提示詞到完整視頻"的方式運行,缺乏有目的推理所需的因果控制、交互性或長時程一致性。另一方面,現有的世界建模工作往往聚焦于受限領域(如物理、游戲或3D場景動態),深度和可控性有限,難以跨不同環境和交互格式泛化。論文推出了PAN,這是一個通用、可交互、長時程...
預訓練數據集通常從網絡內容收集,缺乏固有的領域劃分。例如,廣泛使用的CommonCrawl等數據集不包含明確的領域標簽,而手動策劃像ThePile這樣的標注數據集則非常耗費人力。因此,盡管識別最優預訓練數據混合對預訓練性能有顯著益處,但這仍然是一個具有挑戰性的問題。NVIDIA和多所大學的研究團隊推出了CLIMB(CLusteringbasedIterativeDataMixtureBootstrapping),這是一個自動化框架,能夠在預訓練環境中發現、評估和優化數據...
你花數百萬訓練一個大模型。訓練完發現效果不錯。但你不知道的是:模型可能只學到了數據里20%的知識,剩下80%都浪費了。怎么證明?很簡單:訓練完之后,讓模型在回答問題時去原始訓練數據里"搜一搜",性能立馬提升——提升幅度相當于你多花5倍的錢重新訓練一個更大的模型。這是蘋果和斯坦福研究團隊最近發現的。他們的論文用大白話說就是:大模型訓練時學得太淺了,數據價值浪費嚴重。論文的實驗設計很巧妙,分三步:第一步:正...
2025-11-11 07:22:33 296瀏覽 0點贊 0回復 0收藏
當AI開始自己讀論文、想點子、寫代碼、跑實驗、寫論文,學術界會發生什么?最近,東京大學的研究團隊在arXiv上發布了一篇特別的論文——不僅展示了他們開發的Jr.AIScientist(初級AI科學家)系統,更難得的是,同步披露了開發過程中遇到的各種風險和失敗案例。圖片從新手研究生的工作流程說起:論文提出了一個樸實的想法:當學生第一次加入研究實驗室時,一個常見且有意義的過程是:導師分配一篇關鍵論文,學生分析其局限性,提...
2025-11-11 07:20:51 301瀏覽 0點贊 0回復 0收藏
設計和優化多agent系統非常重要。論文分析了一種多agent系統,其中一個元思考agent負責規劃,另一個推理agent負責執行,并識別出一種懶惰agent失效模式。論文發現一個agent完成了大部分工作,而另一個agent貢獻很少,本質上退化為單agent系統。這種情況非常常見,可能不是你設計中想要的結果。圖片為了解決這個問題,論文提出了Dr.MAMR(多agent元推理正確做法),該方法引入了一種Shapley風格的因果影響度量來衡量每個agent步驟...
2025-11-11 07:20:10 205瀏覽 0點贊 0回復 0收藏
NVIDIA推出了NemotronNanoV2VL,這是一個高效的12B參數視覺語言模型,專為強大的真實世界文檔理解、長視頻理解和推理任務而設計。NemotronNanoV2VL通過模型架構、數據集和訓練方案的重大增強,在所有視覺和文本領域都實現了相比前代模型Llama3.1NemotronNanoVL8B的顯著改進。在OCRBenchv2私有數據排行榜上取得了領先的準確率,同時在推理、文檔理解、長視頻理解、視覺問答和STEM推理方面表現強勁。NemotronNanoV2VL由三個模塊組...
2025-11-11 07:18:45 299瀏覽 0點贊 0回復 0收藏
unsloth與Kimi團隊合作修復了K2Thinking的聊天模板問題,該問題導致第一輪對話時未能添加默認系統提示詞"YouareKimi,anAIassistantcreatedbyMoonshotAI."。同時也修復了llama.cpp工具調用時的自定義jinja分隔符問題!現在可以使用unsloth的動態1bitGGUF在本地運行KimiK2Thinking!unsloth將1T模型壓縮到245GB(減少62%)并保留了約85%的準確率。可在247GBRAM上運行。unsloth還與Kimi團隊合作進行了系統提示詞修復。圖片KimiK2和...
2025-11-10 07:30:49 1250瀏覽 0點贊 0回復 0收藏
你有沒有想過,如果能在真實推出營銷活動之前,先在一個虛擬世界里測試效果會怎樣論文做到了這一點——他們用大語言模型(LLM)創建了一個虛擬小鎮,讓大模型"居民"們像真人一樣生活、社交和消費。圖片為什么需要虛擬消費者:傳統的營銷決策充滿不確定性。企業通常依賴銷售數據分析、問卷調查或AB測試來評估促銷效果,但這些方法有個共同的問題:結果都是在活動執行之后才能看到。如果策略失敗了,企業已經付出了真金白銀的代價。...
2025-11-07 07:41:13 335瀏覽 0點贊 0回復 0收藏
大多數科學知識將推理過程壓縮成了結論。你得到了"是什么",卻看不到"為什么"。這種極端壓縮創造了研究人員所說的知識"暗物質"——連接每個科學概念的不可見推導鏈條。圖片論文的解決方案堪稱瘋狂:一個蘇格拉底agent,在200門課程中生成了300萬個第一性原理問題。每個問題都由多個獨立的大語言模型求解,然后交叉驗證正確性。一個經過驗證的長鏈式思維(LCoT)知識庫,其中每個概念都能追溯到基本原理。論文構建了"頭腦風暴搜...
2025-11-07 07:41:01 286瀏覽 0點贊 0回復 0收藏
OpenAI開源了兩款用于危害分類的開源權重推理安全模型:gptosssafeguard120b和gptosssafeguard20b;這些模型接收開發者的策略文本和內容作為輸入,返回分類標簽和解釋說明,讓你可以用可審計的推理過程來執行自己的規則。核心創新:這些模型將內容審核從固定分類器轉變為基于策略的推理。修改規則就像編輯策略文本一樣簡單,無需重新訓練、無需新數據集、無需新檢查點。因為策略是輸入參數,你可以為不同產品、地區或年齡段切換...
2025-10-31 07:46:52 1040瀏覽 0點贊 0回復 0收藏
論文(NotaBandit:ProvablyNoRegretDrafterSelectioninSpeculativeDecodingforLLMs)通過推測解碼為大語言模型推理加速創造了新的SOTA。通過協調一組專家drafters,論文在Llama3.18BInstruct上實現了4.99倍加速,在Qwen32B上實現了4.93倍加速——比EAGLE3快了近2倍。那么它是如何工作的大語言模型會收到各種各樣的請求:數學、編程、科學、論文寫作等。EAGLE3草稿器是一個試圖在整體上表現良好的通才。但在每個領域中,專家會更好...
2025-10-31 07:45:46 684瀏覽 0點贊 0回復 0收藏
有人盜用了你的語言模型嗎?只要你打亂了訓練數據,論文(BlackboxModelProvenanceviaPalimpsesticMembershipInference)就能告訴你答案。論文只需要從他們的模型中獲取一些文本!具體來說,假設張三訓練了一個開放權重模型,李四使用它來生成文本。張三能證明李四使用了她的模型嗎?論文在兩個完全黑盒設置中研究了這個問題:1)(查詢)張三可以通過提示詞在API后面查詢李四的模型,2)(觀察)張三觀察來自李四的文本。論文開發...
2025-10-31 07:43:55 522瀏覽 0點贊 0回復 0收藏
論文(Dr.LLM:DynamicLayerRoutinginLLMs)介紹了一種巧妙的技術,在提高準確率的同時降低大語言模型的計算量。路由器在提高準確率的同時,每次查詢可減少約3到11層的計算。論文的方法是可改裝的,為凍結的大語言模型添加逐層路由器,決定跳過、執行或重復每個模塊。路徑通過對層編輯進行簡短的蒙特卡洛樹搜索進行離線監督,然后在線執行時無需搜索。在平均節省層數的同時,提高了邏輯和數學任務的準確率。啥是Dr.LLM:附加在每一...
2025-10-20 07:58:23 690瀏覽 0點贊 0回復 0收藏
論文(InoculationPrompting:InstructingLLMstomisbehaveattraintimeimprovestesttimealignment)提出了一種反直覺的對齊方法:免疫式提示(InoculationPrompting)問題:大語言模型(LLM)從訓練數據中學到了不良行為。解決方案:在再訓練時,明確地提示模型去“作惡”。這種方法反直覺,但效果顯著:它能減少獎勵黑客(rewardhacking)、拍馬屁式回答(sycophancy)等問題,同時不損害模型的能力學習。假設訓練數據中既有良好行...
2025-10-20 07:58:10 654瀏覽 0點贊 0回復 0收藏
這篇來自Meta的論文(TheArtofScalingReinforcementLearningComputeforLLMs)是迄今為止關于強化學習(RL)在大語言模型(LLM)中如何隨規模擴展的最深入研究之一。論文耗費了超過40萬GPU小時的實驗,找到了一個可預測的擴展規律和一套穩定可復現的訓練配方(ScaleRL),能夠在計算資源增加時持續奏效。可以將其視為一份實用指南——適用于任何想用RL訓練推理或對齊模型的人。洞見:RL的進步遵循可預測的曲線:當你將模型性能與計...
2025-10-20 07:56:37 731瀏覽 0點贊 0回復 0收藏
Unsloth出了個教程:如何使用Unsloth的Docker鏡像來進行LLM微調或強化學習(RL)。本地訓練常常因為依賴問題或環境破壞而變得復雜。Unsloth的Docker鏡像可以繞過這些問題。無需任何環境配置:直接拉取鏡像并運行,即可開始訓練。Unsloth官方Docker鏡像:unslothunsloth(??https:hub.docker.comrunslothunsloth??)為什么使用Unsloth&Docker??Unsloth的Docker鏡像穩定、更新頻繁,并且適用于任何受支持的環境。?所有依賴都封...
2025-10-10 06:24:22 1845瀏覽 0點贊 0回復 0收藏
谷歌的論文(TUMIX:MultiAgentTestTimeScalingwithToolUseMixture)提出了工具使用混合(TUMIX),利用多樣化的工具使用策略來改進推理能力。論文展示了如何通過并行運行一系列多樣化的agent(純文本、代碼、搜索等)并讓它們在幾輪中共享筆記,從而從大語言模型中獲得更好的推理能力。它不是暴力地增加更多樣本,而是混合策略,在有信心時停止,最終既更準確又更便宜。圖片混合不同的agent,而不僅僅是更多同一種agent:他們運行...
2025-10-10 06:12:58 1301瀏覽 0點贊 0回復 0收藏
這里介紹的是論文(UnderstandingtheRoleofTrainingDatainTestTimeScaling)的內容:你是否好奇,為什么有時候讓大模型"多想一會兒"能得到更好的答案,而有時候反而會越想越錯OpenAI的o3和DeepSeekR1展示了驚人的推理能力,它們的秘密就在于測試時擴展(testtimescaling)——給模型更多時間去"思考"。但什么樣的訓練數據才能讓這種"慢思考"真正有效圖片什么是測試時擴展:傳統的AI模型接收問題后會立即給出答案。而測試時擴展讓模...
2025-10-10 06:11:30 1140瀏覽 0點贊 0回復 0收藏
下面介紹的是論文(CoDA:AgenticSystemsforCollaborativeDataVisualization)的內容:數據分析師的"隱形稅":數據可視化在商業智能和數據科學中扮演著重要角色,能夠幫助專業人士通過直觀的圖形從復雜數據集中發現洞察。但現實是,數據分析師可能要花費超過三分之二的時間在低級別的數據準備和可視化任務上,經常需要手動迭代以實現清晰度、準確性和美觀。這種"隱形稅"讓分析師無法專注于洞察生成。圖片隨著LLM的興起,自動化這一...
2025-10-10 06:09:54 1059瀏覽 0點贊 0回復 0收藏