精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

51CTO首頁

AI.x社區

博客

學堂

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

在線學習

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

AI研究前瞻

LV.3

您的人工智能研究前沿指南！

帖子 33

聲望 242

關注 0

粉絲 0

社區頭條作者

私信

關注

主帖 33

回帖

大模型可靠性與校準：LLM高風險領域置信度校準，自然語言批判，CritiCal，不確定性

CritiCal:CanCritiqueHelpLLMUncertaintyorConfidenceCalibration20251028｜HKUST,HKUST??1???http:arxiv.orgabs2510.24505v1????????https:huggingface.copapers2510.24505????????https:github.comHKUSTKnowCompCritiCal???研究背景與意義問題定義與現狀概述大型語言模型（LLMs）在高風險領域的安全使用依賴于準確的置信度校準，即模型對其回答可信度的準確表達。現有傳統方法多通過模仿參考置信度表達...

2025-11-14 00:23:31 360瀏覽 0點贊 0回復 0收藏

主動調用工具的多模態智能體；視覺空間理解能力調優；通過細化文本嵌入緩解多模態不平衡；密集動作描述

DeepEyesV2:TowardAgenticMultimodalModel20251107｜XiaohongshuInc.??26??http:arxiv.orgabs2511.05271v1??????https:huggingface.copapers2511.05271??????https:visualagent.github.io??研究背景與意義問題定義與現狀概述當前多模態大模型（MLLM）雖具備較強的視覺和文本理解能力，但在主動調用外部工具（如代碼執行環境和網絡搜索）以輔助推理方面仍顯不足。現有模型大多被動接受輸入，缺少自主調用工具整...

2025-11-14 00:18:59 952瀏覽 0點贊 0回復 0收藏

多模態混合RAG；VLM開發數據集清晰，高質量數據基礎；偏好指導視覺優化；LLM內部信號和監督信號的平衡

TowardsMixedModalRetrievalforUniversalRetrievalAugmentedGeneration20251020｜RUC,RUC??28??http:arxiv.orgabs2510.17354v1??????https:huggingface.copapers2510.17354??????https:github.comSnowNation101Nyx??研究背景與意義問題定義與現狀近年來，檢索增強生成（RetrievalAugmentedGeneration,RAG）成為提升大型語言模型（LLMs）能力的重要方法，主要通過從外部語料庫檢索相關文檔來補充模型知識。然而...

2025-10-24 00:19:43 1984瀏覽 0點贊 0回復 0收藏

圖像編輯物理真實性評估；視覺自回歸推理時擴展；圖像編輯后訓練框架，獎勵信號稀疏

PICABench:HowFarAreWefromPhysicallyRealisticImageEditing20251020｜SJTU,ShanghaiAILab,CUHKMMLab,KreaAI,BUAA,AlibabaTongyiLab,USTC,HKU??53??http:arxiv.orgabs2510.17681v1??????https:huggingface.copapers2510.17681??????https:picabench.github.io??研究背景與意義隨著指令驅動的圖像編輯技術迅速發展，現代模型已能較好地理解復雜編輯指令并生成語義連貫的圖像。然而，當前主流研究和基準測試主要...

2025-10-24 00:16:07 1051瀏覽 0點贊 0回復 0收藏

VLM進行上下文長度擴展和壓縮；長文本多模型集成框架

DeepAnalyze:AgenticLargeLanguageModelsforAutonomousDataScience20251019｜RUC,THU??52??http:arxiv.orgabs2510.16872v1??????https:huggingface.copapers2510.16872??????https:github.comrucdatalabDeepAnalyze??研究背景與意義背景簡述當前數據科學領域追求實現從數據源到分析報告的全流程自動化，即“自主數據科學”。這一目標旨在減少人工干預，提高數據處理和洞察的效率與質量。然而，傳統方法多依賴預...

2025-10-24 00:12:34 1105瀏覽 0點贊 0回復 0收藏

模型架構創新：狀態空間模型中的記憶模式，動態狀態摘要機制

社區頭條

MemMamba:RethinkingMemoryPatternsinStateSpaceModel20250928｜RUC,SUFE,GaoLingInstitute,ShanghaiAILab??63??http:arxiv.orgabs2510.03279v1??????https:huggingface.copapers2510.03279??研究背景與意義隨著數據量的爆炸式增長，長序列建模在自然語言處理、生物信息學等領域變得尤為關鍵。傳統的循環神經網絡（RNN）由于梯度消失和爆炸問題，難以擴展到超長序列；而Transformer雖然能捕獲全局依賴，但其計算復雜...

2025-10-14 00:07:45 1611瀏覽 0點贊 0回復 0收藏

早期經驗監督的智能體強化學習；推理元信息感知的強化學習獎勵；安全與有效聯合訓練智能體框架

AgentLearningviaEarlyExperience20251009｜OSU,MetaSuperintelligenceLabs,MetaFAIR??172??http:arxiv.orgabs2510.08558v1??????https:huggingface.copapers2510.08558??研究背景與意義語言智能體旨在通過自身經驗學習和提升，最終在復雜現實任務中超越人類表現。然而，當前訓練方法面臨諸多挑戰。傳統的監督學習依賴專家示范數據，難以擴展且泛化能力有限，因示范數據覆蓋場景狹窄且缺乏環境多樣性。強化學習雖能優...

2025-10-14 00:07:28 2287瀏覽 0點贊 0回復 0收藏

視頻生成模型中的零樣本學習和推理能力；視頻生成和編輯統一框架；掩碼擴散模型，圖片理解生成一體；物理驅

社區頭條

Videomodelsarezeroshotlearnersandreasoners20250924｜GoogleDeepMind??50??http:arxiv.orgabs2509.20328v1??????https:huggingface.copapers2509.20328??????https:videozeroshot.github.io??研究背景與意義背景與現狀近年來，自然語言處理領域經歷了從任務專用模型向大型語言模型（LLMs）轉變的革命，LLMs通過大規模生成模型和海量網絡數據，實現了統一、通用的語言理解能力。機器視覺領域當前正處于類似的...

2025-09-29 07:28:02 3413瀏覽 0點贊 0回復 0收藏

智能體強化學習綜述；強化學習原生GUI智能體；多輪工具交互強化學習；模塊化多輪工具強化學習

TheLandscapeofAgenticReinforcementLearningforLLMs:ASurvey20250902｜OxfordU,ShanghaiAILab,NUS,UCL,UIUC,Brown,USTC,ImperialCollegeLondon,Bristol,CAS,CUHK,FudanU,UGA,UCSD,DLUT,UCSB??81??http:arxiv.orgabs2509.02547v1??????https:huggingface.copapers2509.02547??????https:github.comxhyumiracleAwesomeAgenticLLMRLPapers??研究背景與意義本論文聚焦于“AgenticReinforcementLearning（AgenticRL...

2025-09-05 00:17:53 4202瀏覽 0點贊 0回復 0收藏

長視頻理解語義聚合幻覺評估基準；無需蒸餾的VLM文檔裝好框架；Keye-VL 1.5技術報告，動態分配計算資源

ELVHalluc:BenchmarkingSemanticAggregationHallucinationsinLongVideoUnderstanding20250829｜SenseTime??51??http:arxiv.orgabs2508.21496v2??????https:huggingface.copapers2508.21496??????https:github.comhlsv02ELVHalluc??研究背景與意義研究背景視頻多模態大型語言模型（VideoMLLMs）在視頻理解領域取得了顯著進展，但仍存在“幻覺”問題，即生成與視頻內容不一致或無關的信息。現有研究多聚焦于短視...

2025-09-05 00:17:36 1507瀏覽 0點贊 0回復 0收藏

LLM能力評測與基準構建：金融LLM認知診斷框架；LLM未來事件預測評估基準；LLM MCP的評估基準

FromScorestoSkills:ACognitiveDiagnosisFrameworkforEvaluatingFinancialLargeLanguageModels20250819｜WHU,WHU,NAU,SWJTU,BUFT,AU,UoM??53??http:arxiv.orgabs2508.13491v1https:huggingface.copapers2508.13491https:github.comWHUNextGenFinCDM??研究背景與意義問題定義與現狀概述金融領域中大型語言模型（LLMs）展現出廣泛應用潛力，但現有評測方法多依賴單一分數，難以揭示模型對金融知識的具體掌握情況。傳統金融LLM...

2025-08-25 01:40:51 1570瀏覽 0點贊 0回復 0收藏

可驗證GUI數據集；智能體調用中的經濟效率平衡；自我進化的GUI智能體，從經驗學習；寬頻譜人類圖片偏好評估

VeriGUI:VerifiableLongChainGUIDataset20250806｜??117??http:arxiv.orgabs2508.04026v1??????https:huggingface.copapers2508.04026??????https:github.comVeriGUITeamVeriGUI??研究背景與意義問題定義與現狀概述當前自主GUI代理的研究已取得初步成果，主要聚焦于短期任務和基于結果的驗證，難以滿足現實中復雜、長鏈任務的需求。現有數據集多為短步驟操作，缺乏對多步驟、跨應用復雜流程的支持，且驗證方式...

2025-08-11 06:20:29 2133瀏覽 0點贊 0回復 0收藏

PPT多智能體自動設計與持續迭代；自主適應的RAG智能體檢索框架；LLM提示詞自動優化，任務難度層級分類

DesignLab:DesigningSlidesThroughIterativeDetectionandCorrection20250723｜Sony,KAIST??33???http:arxiv.orgabs2507.17202v1????????https:huggingface.copapers2507.17202????????https:yeolj00.github.iopersonalprojectsdesignlab???研究背景與意義問題定義與現狀概述高質量的演示幻燈片設計對于非專業人士而言是一項復雜且挑戰性的任務，涉及內容布局、配色方案、字體選擇等多方面的細節。現有自...

2025-07-28 00:20:47 2208瀏覽 0點贊 0回復 0收藏

大模型推理與驗證：MLLM感知圖靈測試；可驗證獎勵跨領域沖突與互補；LLM形式化代碼驗證

Pixels,Patterns,butNoPoetry:ToSeeTheWorldlikeHumans20250721｜UCAS,NJU,NUS,BUPT,NKU,PSU,PKU,BJTU??46???http:arxiv.orgabs2507.16863v1????????https:huggingface.copapers2507.16863????????https:TuringEyeTest.github.io???研究背景與意義多模態大語言模型（MLLMs）近年來在視覺理解與語言處理的結合上取得了顯著進展，成為人工智能領域的重要研究方向。盡管已有研究多聚焦于提升MLLMs的推理能力...

2025-07-28 00:13:07 2655瀏覽 0點贊 0回復 0收藏

3D生成與視覺理解：3D場景生成綜述；樂高結構序列化生成；3D幾何感知局部特征匹配

3DSceneGeneration:ASurvey20250508｜NTU??10???http:arxiv.orgabs2505.05474v1????????https:huggingface.copapers2505.05474????????https:github.comhzxieAwesome3DSceneGeneration???研究背景與意義圖片3D場景生成旨在創建具有空間結構、語義意義和逼真視覺效果的虛擬環境，支撐沉浸式媒體、機器人、自動駕駛和embodiedAI等多種應用。隨著虛擬現實、虛擬制作、城市規劃等需求的增長，逼真、多樣且具...

2025-07-07 06:29:17 1889瀏覽 0點贊 0回復 0收藏

多模態推理模型綜述；多模態多智能體協同基準；跨模態，跨領域推理能力泛化

Perception,Reason,Think,andPlan:ASurveyonLargeMultimodalReasoningModels20250508｜HIT,Shenzhen??79???http:arxiv.orgabs2505.04921v1????????https:huggingface.copapers2505.04921????????https:github.comHITszTMGAwesomeLargeMultimodalReasoningModels???研究背景與意義智能推理的核心地位：推理作為智能行為的核心，賦予人工智能系統在多變、不確定及多模態環境中做出決策、歸納總結及跨領域泛...

2025-07-07 06:17:39 3554瀏覽 0點贊 0回復 0收藏

圖表代碼生成，ChartIR；視頻與文本統一多模態模型

ImprovedIterativeRefinementforCharttoCodeGenerationviaStructuredInstruction20250615｜SJTU,ShanghaiInno,LehighU,BIGAI,BIGAI??8??http:arxiv.orgabs2506.14837v1??????https:huggingface.copapers2506.14837??研究背景與意義問題定義與現狀概述多模態大語言模型（MLLMs）在視覺理解領域表現卓越，但在圖表到代碼生成任務中仍存在明顯不足。該任務不僅要求模型精準理解高密度、多維度的圖表信息，還需將其準確轉...

2025-06-23 06:24:31 2158瀏覽 0點贊 0回復 0收藏

跨領域強化學習樣本數據集；符號表達的分層推理基準

REIMAGINE:SymbolicBenchmarkSynthesisforReasoningEvaluation20250618｜MSRCUK,MicrosoftResearchIndia｜ICML2025??2??http:arxiv.orgabs2506.15455v1??????https:huggingface.copapers2506.15455??研究背景與意義問題定義與現狀當前大型語言模型（LLMs）在多種推理基準測試中表現出較高準確率，但仍存在爭議，即這些結果是否源自真正的推理能力，還是僅僅是訓練數據的統計記憶。推理作為一種認知過程，涉及基于事實...

2025-06-23 06:22:11 1911瀏覽 0點贊 0回復 0收藏

空間感知的VLM模型；VLM的GUI網頁智能體；數學視頻QA基準；長視頻計數基準

RoboRefer:TowardsSpatialReferringwithReasoninginVisionLanguageModelsforRobotics20250604｜BUAA,PKU,BAAI??32??http:arxiv.orgabs2506.04308v1??????https:huggingface.copapers2506.04308??????https:zhoues.github.ioRoboRefer??研究背景與意義問題定義與現狀空間指稱是機器人理解并與三維物理世界交互的基礎能力。盡管現有預訓練視覺語言模型（VLMs）在二維視覺任務上表現優異，但它們在復雜三維場景的...

2025-06-09 22:40:39 2218瀏覽 0點贊 0回復 0收藏

多模態推理模型綜述；多模態多智能體協同基準；跨模態，跨領域推理能力泛化

Perception,Reason,Think,andPlan:ASurveyonLargeMultimodalReasoningModels20250508｜HIT,Shenzhen??79??http:arxiv.orgabs2505.04921v1??????https:huggingface.copapers2505.04921??????https:github.comHITszTMGAwesomeLargeMultimodalReasoningModels??研究背景與意義智能推理的核心地位：推理作為智能行為的核心，賦予人工智能系統在多變、不確定及多模態環境中做出決策、歸納總結及跨領域泛化的能力。隨...

2025-05-13 07:32:02 3624瀏覽 0點贊 0回復 0收藏

獲得成就

已積累 1.8w 人氣

獲得 0 個點贊

獲得 0 次收藏