CritiCal:CanCritiqueHelpLLMUncertaintyorConfidenceCalibration20251028|HKUST,HKUST??1???http:arxiv.orgabs2510.24505v1????????https:huggingface.copapers2510.24505????????https:github.comHKUSTKnowCompCritiCal???研究背景與意義問題定義與現狀概述大型語言模型(LLMs)在高風險領域的安全使用依賴于準確的置信度校準,即模型對其回答可信度的準確表達。現有傳統方法多通過模仿參考置信度表達...
2025-11-14 00:23:31 360瀏覽 0點贊 0回復 0收藏
DeepEyesV2:TowardAgenticMultimodalModel20251107|XiaohongshuInc.??26??http:arxiv.orgabs2511.05271v1??????https:huggingface.copapers2511.05271??????https:visualagent.github.io??研究背景與意義問題定義與現狀概述當前多模態大模型(MLLM)雖具備較強的視覺和文本理解能力,但在主動調用外部工具(如代碼執行環境和網絡搜索)以輔助推理方面仍顯不足。現有模型大多被動接受輸入,缺少自主調用工具整...
2025-11-14 00:18:59 952瀏覽 0點贊 0回復 0收藏
TowardsMixedModalRetrievalforUniversalRetrievalAugmentedGeneration20251020|RUC,RUC??28??http:arxiv.orgabs2510.17354v1??????https:huggingface.copapers2510.17354??????https:github.comSnowNation101Nyx??研究背景與意義問題定義與現狀近年來,檢索增強生成(RetrievalAugmentedGeneration,RAG)成為提升大型語言模型(LLMs)能力的重要方法,主要通過從外部語料庫檢索相關文檔來補充模型知識。然而...
2025-10-24 00:19:43 1984瀏覽 0點贊 0回復 0收藏
PICABench:HowFarAreWefromPhysicallyRealisticImageEditing20251020|SJTU,ShanghaiAILab,CUHKMMLab,KreaAI,BUAA,AlibabaTongyiLab,USTC,HKU??53??http:arxiv.orgabs2510.17681v1??????https:huggingface.copapers2510.17681??????https:picabench.github.io??研究背景與意義隨著指令驅動的圖像編輯技術迅速發展,現代模型已能較好地理解復雜編輯指令并生成語義連貫的圖像。然而,當前主流研究和基準測試主要...
2025-10-24 00:16:07 1051瀏覽 0點贊 0回復 0收藏
DeepAnalyze:AgenticLargeLanguageModelsforAutonomousDataScience20251019|RUC,THU??52??http:arxiv.orgabs2510.16872v1??????https:huggingface.copapers2510.16872??????https:github.comrucdatalabDeepAnalyze??研究背景與意義背景簡述當前數據科學領域追求實現從數據源到分析報告的全流程自動化,即“自主數據科學”。這一目標旨在減少人工干預,提高數據處理和洞察的效率與質量。然而,傳統方法多依賴預...
2025-10-24 00:12:34 1105瀏覽 0點贊 0回復 0收藏
MemMamba:RethinkingMemoryPatternsinStateSpaceModel20250928|RUC,SUFE,GaoLingInstitute,ShanghaiAILab??63??http:arxiv.orgabs2510.03279v1??????https:huggingface.copapers2510.03279??研究背景與意義隨著數據量的爆炸式增長,長序列建模在自然語言處理、生物信息學等領域變得尤為關鍵。傳統的循環神經網絡(RNN)由于梯度消失和爆炸問題,難以擴展到超長序列;而Transformer雖然能捕獲全局依賴,但其計算復雜...
2025-10-14 00:07:45 1611瀏覽 0點贊 0回復 0收藏
AgentLearningviaEarlyExperience20251009|OSU,MetaSuperintelligenceLabs,MetaFAIR??172??http:arxiv.orgabs2510.08558v1??????https:huggingface.copapers2510.08558??研究背景與意義語言智能體旨在通過自身經驗學習和提升,最終在復雜現實任務中超越人類表現。然而,當前訓練方法面臨諸多挑戰。傳統的監督學習依賴專家示范數據,難以擴展且泛化能力有限,因示范數據覆蓋場景狹窄且缺乏環境多樣性。強化學習雖能優...
2025-10-14 00:07:28 2287瀏覽 0點贊 0回復 0收藏
Videomodelsarezeroshotlearnersandreasoners20250924|GoogleDeepMind??50??http:arxiv.orgabs2509.20328v1??????https:huggingface.copapers2509.20328??????https:videozeroshot.github.io??研究背景與意義背景與現狀近年來,自然語言處理領域經歷了從任務專用模型向大型語言模型(LLMs)轉變的革命,LLMs通過大規模生成模型和海量網絡數據,實現了統一、通用的語言理解能力。機器視覺領域當前正處于類似的...
2025-09-29 07:28:02 3413瀏覽 0點贊 0回復 0收藏
TheLandscapeofAgenticReinforcementLearningforLLMs:ASurvey20250902|OxfordU,ShanghaiAILab,NUS,UCL,UIUC,Brown,USTC,ImperialCollegeLondon,Bristol,CAS,CUHK,FudanU,UGA,UCSD,DLUT,UCSB??81??http:arxiv.orgabs2509.02547v1??????https:huggingface.copapers2509.02547??????https:github.comxhyumiracleAwesomeAgenticLLMRLPapers??研究背景與意義本論文聚焦于“AgenticReinforcementLearning(AgenticRL...
2025-09-05 00:17:53 4202瀏覽 0點贊 0回復 0收藏
ELVHalluc:BenchmarkingSemanticAggregationHallucinationsinLongVideoUnderstanding20250829|SenseTime??51??http:arxiv.orgabs2508.21496v2??????https:huggingface.copapers2508.21496??????https:github.comhlsv02ELVHalluc??研究背景與意義研究背景視頻多模態大型語言模型(VideoMLLMs)在視頻理解領域取得了顯著進展,但仍存在“幻覺”問題,即生成與視頻內容不一致或無關的信息。現有研究多聚焦于短視...
2025-09-05 00:17:36 1507瀏覽 0點贊 0回復 0收藏
FromScorestoSkills:ACognitiveDiagnosisFrameworkforEvaluatingFinancialLargeLanguageModels20250819|WHU,WHU,NAU,SWJTU,BUFT,AU,UoM??53??http:arxiv.orgabs2508.13491v1https:huggingface.copapers2508.13491https:github.comWHUNextGenFinCDM??研究背景與意義問題定義與現狀概述金融領域中大型語言模型(LLMs)展現出廣泛應用潛力,但現有評測方法多依賴單一分數,難以揭示模型對金融知識的具體掌握情況。傳統金融LLM...
2025-08-25 01:40:51 1570瀏覽 0點贊 0回復 0收藏
VeriGUI:VerifiableLongChainGUIDataset20250806|??117??http:arxiv.orgabs2508.04026v1??????https:huggingface.copapers2508.04026??????https:github.comVeriGUITeamVeriGUI??研究背景與意義問題定義與現狀概述當前自主GUI代理的研究已取得初步成果,主要聚焦于短期任務和基于結果的驗證,難以滿足現實中復雜、長鏈任務的需求。現有數據集多為短步驟操作,缺乏對多步驟、跨應用復雜流程的支持,且驗證方式...
2025-08-11 06:20:29 2133瀏覽 0點贊 0回復 0收藏
DesignLab:DesigningSlidesThroughIterativeDetectionandCorrection20250723|Sony,KAIST??33???http:arxiv.orgabs2507.17202v1????????https:huggingface.copapers2507.17202????????https:yeolj00.github.iopersonalprojectsdesignlab???研究背景與意義問題定義與現狀概述高質量的演示幻燈片設計對于非專業人士而言是一項復雜且挑戰性的任務,涉及內容布局、配色方案、字體選擇等多方面的細節。現有自...
2025-07-28 00:20:47 2208瀏覽 0點贊 0回復 0收藏
Pixels,Patterns,butNoPoetry:ToSeeTheWorldlikeHumans20250721|UCAS,NJU,NUS,BUPT,NKU,PSU,PKU,BJTU??46???http:arxiv.orgabs2507.16863v1????????https:huggingface.copapers2507.16863????????https:TuringEyeTest.github.io???研究背景與意義多模態大語言模型(MLLMs)近年來在視覺理解與語言處理的結合上取得了顯著進展,成為人工智能領域的重要研究方向。盡管已有研究多聚焦于提升MLLMs的推理能力...
2025-07-28 00:13:07 2655瀏覽 0點贊 0回復 0收藏
3DSceneGeneration:ASurvey20250508|NTU??10???http:arxiv.orgabs2505.05474v1????????https:huggingface.copapers2505.05474????????https:github.comhzxieAwesome3DSceneGeneration???研究背景與意義圖片3D場景生成旨在創建具有空間結構、語義意義和逼真視覺效果的虛擬環境,支撐沉浸式媒體、機器人、自動駕駛和embodiedAI等多種應用。隨著虛擬現實、虛擬制作、城市規劃等需求的增長,逼真、多樣且具...
2025-07-07 06:29:17 1889瀏覽 0點贊 0回復 0收藏
Perception,Reason,Think,andPlan:ASurveyonLargeMultimodalReasoningModels20250508|HIT,Shenzhen??79???http:arxiv.orgabs2505.04921v1????????https:huggingface.copapers2505.04921????????https:github.comHITszTMGAwesomeLargeMultimodalReasoningModels???研究背景與意義智能推理的核心地位:推理作為智能行為的核心,賦予人工智能系統在多變、不確定及多模態環境中做出決策、歸納總結及跨領域泛...
2025-07-07 06:17:39 3554瀏覽 0點贊 0回復 0收藏
ImprovedIterativeRefinementforCharttoCodeGenerationviaStructuredInstruction20250615|SJTU,ShanghaiInno,LehighU,BIGAI,BIGAI??8??http:arxiv.orgabs2506.14837v1??????https:huggingface.copapers2506.14837??研究背景與意義問題定義與現狀概述多模態大語言模型(MLLMs)在視覺理解領域表現卓越,但在圖表到代碼生成任務中仍存在明顯不足。該任務不僅要求模型精準理解高密度、多維度的圖表信息,還需將其準確轉...
2025-06-23 06:24:31 2158瀏覽 0點贊 0回復 0收藏
REIMAGINE:SymbolicBenchmarkSynthesisforReasoningEvaluation20250618|MSRCUK,MicrosoftResearchIndia|ICML2025??2??http:arxiv.orgabs2506.15455v1??????https:huggingface.copapers2506.15455??研究背景與意義問題定義與現狀當前大型語言模型(LLMs)在多種推理基準測試中表現出較高準確率,但仍存在爭議,即這些結果是否源自真正的推理能力,還是僅僅是訓練數據的統計記憶。推理作為一種認知過程,涉及基于事實...
2025-06-23 06:22:11 1911瀏覽 0點贊 0回復 0收藏
RoboRefer:TowardsSpatialReferringwithReasoninginVisionLanguageModelsforRobotics20250604|BUAA,PKU,BAAI??32??http:arxiv.orgabs2506.04308v1??????https:huggingface.copapers2506.04308??????https:zhoues.github.ioRoboRefer??研究背景與意義問題定義與現狀空間指稱是機器人理解并與三維物理世界交互的基礎能力。盡管現有預訓練視覺語言模型(VLMs)在二維視覺任務上表現優異,但它們在復雜三維場景的...
2025-06-09 22:40:39 2218瀏覽 0點贊 0回復 0收藏
Perception,Reason,Think,andPlan:ASurveyonLargeMultimodalReasoningModels20250508|HIT,Shenzhen??79??http:arxiv.orgabs2505.04921v1??????https:huggingface.copapers2505.04921??????https:github.comHITszTMGAwesomeLargeMultimodalReasoningModels??研究背景與意義智能推理的核心地位:推理作為智能行為的核心,賦予人工智能系統在多變、不確定及多模態環境中做出決策、歸納總結及跨領域泛化的能力。隨...
2025-05-13 07:32:02 3624瀏覽 0點贊 0回復 0收藏