現在的商業模型都被調教得特別"乖",稍微涉及點敏感話題就開始道德說教。這在很多正當場景下其實挺麻煩的,GPT5被吐槽最多的也是這個問題:寫小說需要描述暴力情節?拒絕。研究網絡安全漏洞?拒絕。律師想分析犯罪案例?還是拒絕。醫學生想了解某種疾病的癥狀?繼續拒絕。開發者PhilippEmanuelWeidmann寫了一個叫Heretic的工具,專門用來移除語言模型的安全限制,讓那些總是拒絕回答"敏感"問題的模型變得更配合。效果比人工調優...
AndrejKarpathy最近提出了一個判斷哪些工作會被AI替代的新標準:不看復雜度,看可驗證性。這個觀點顛覆了很多人的直覺。按照傳統想法,越復雜的工作越難被替代,越簡單的工作越容易被自動化。但Karpathy發現,真正的分界線在于任務是否可以快速驗證對錯。Software2.0的核心邏輯Karpathy把這個現象放在Software2.0的框架下解釋。他認為AI就是一種新的編程范式:Software1.0時代:程序員的價值在于把規則寫清楚,告訴計算機該做什...
Gartner最新發布《生成式AI模型提供商創新指南》,首次對這個快速發展的市場進行象限劃分。報告按功能完整性(縱軸)和未來潛力(橫軸)將廠商分為四個區域。新興領導者象限匯集了8家公司:OpenAI、Google、阿里云、AWS、IBM、Anthropic、Writer和微軟。這些廠商在技術能力和市場前景兩個維度都表現突出。新興挑戰者包括Meta和MistralAI,它們在功能方面表現強勁,但未來潛力評分相對較低。新興遠見者象限有UiPath、Cohere、Vec...
NanoBanana2近期意外地在MediaAI平臺上短暫現身。其輸出結果與之前在Gemini上短暫泄漏的確認版本一致,讓社區用戶得以提前體驗新版本的能力。針對性改進初代NanoBanana在處理復雜任務時存在明顯局限:精確著色、視角控制、修正生成圖片中的文字元素都不夠理想。NanoBanana2專門針對這些痛點做了優化,泄漏的圖像樣本顯示視覺質量有了實質性提升。核心技術變化最大的改進是生成流程。新版本采用多步工作方式:花時間規劃輸出,生...
2025-11-10 07:35:00 495瀏覽 0點贊 0回復 0收藏
音頻編輯一直是個技術活。專業軟件復雜,學習成本高,普通人想做點音頻內容,門檻不低。StepFunAI剛剛開源“全球首個”音頻編輯模型StepAudioEditX。核心想法很直接:用文字控制音頻。想讓AI說話時帶點情緒?寫個提示詞。想加點呼吸聲、笑聲?也是文字指令搞定。不用再在復雜界面里調各種參數,這確實是個進步。具體能做什么?情感控制支持憤怒、開心、悲傷、興奮等十幾種狀態,說話風格可以調成撒嬌、老人、小孩、耳語等。副語...
2025-11-10 07:33:59 910瀏覽 0點贊 0回復 0收藏
訓練大型模型時遇到梯度爆炸,程序直接崩潰。內存不足(OOM)錯誤讓訓練停滯,混合專家模型的某些專家完全不工作。這些問題每個做過大模型訓練的人都遇到過。最近出現的LuminaAI開源框架試圖徹底改變這種狀況。它不只是一個訓練工具,更像是一個會思考的訓練助手,能在問題發生時自動修復,讓訓練過程更加穩定。真正的自適應訓練LuminaAI的核心是一個叫"自適應編排器"(AdaptiveOrchestrator)的系統,擁有一整套自動化機制:梯...
2025-11-10 07:31:56 247瀏覽 0點贊 0回復 0收藏
斯坦福大學的研究團隊最近在Nature上發表一個新研究,AI竟然分不清事實和信念。他們測試了15個最新的大模型,包括GPT4o、Claude3和Llama3等,涉及13000個問題。結果發現,這些AI在區分事實、信念和知識方面存在嚴重缺陷。研究顯示,當驗證事實性數據時,模型的準確率能達到86%。但面對虛假場景時,表現急劇下降。更關鍵的是,AI處理第一人稱信念("我相信...")的準確率只有54.4%,而處理第三人稱信念("他相信...")時能達到80.7%...
2025-11-07 07:48:35 443瀏覽 0點贊 0回復 0收藏
Image1夏威夷的旅游行程規劃、馬薩諸塞的科學研究、印度的網頁開發——這三件事看似無關,卻是各自地區最突出的Claude使用場景。這不是說它們全球最流行。軟件工程在幾乎所有國家都遙遙領先。但數據顯示,馬薩諸塞用戶更常讓Claude協助科研;巴西用戶對語言任務格外熱衷,翻譯和語言學習頻率是全球平均的六倍。這些發現來自Anthropic第三期經濟指數報告。他們追蹤了AI如何重塑工作與經濟,有幾個關鍵觀察。地域差異明顯美國占全...
2025-11-07 07:47:08 296瀏覽 0點贊 0回復 0收藏
阿里剛剛在HuggingFace和ModelScope上開源了智能簡歷解析系統SmartResume。這個系統能把PDF、圖片、Office文檔格式的簡歷,直接轉換成結構化的數據。HR部門手動錄入簡歷的工作,現在可以秒級完成。系統的工作原理分為三個核心階段。首先,通過OCR技術和PDF元數據完成文本提取,結合版面檢測模型重建文檔的閱讀順序。系統使用的版面檢測模型是基于YOLOv10。然后,利用大型語言模型將提取出的文本內容轉換為結構化的字段信息,包...
2025-11-07 07:46:53 821瀏覽 0點贊 0回復 0收藏
近日,Qwen3VL系列模型終于合并到了llama.cpp項目中。這意味著用戶現在可以通過llama.cpp直接運行這個支持視覺理解的大型語言模型。合并后的模型支持圖像輸入和多輪對話。有用戶測試后反饋,即使使用4bit量化,模型也能較好地理解圖像內容并回答問題。不過,開發者提醒,量化過程可能會對性能產生一定影響,建議根據實際需求選擇合適的參數。技術細節方面,此次合并主要解決了模型架構的兼容性問題。Qwen3VL采用了特殊的視覺編...
2025-11-03 07:26:19 725瀏覽 0點贊 0回復 0收藏
Emu3.5是由北京智源研究院剛剛推出的大規模多模態世界模型,原生就能預測視覺和語言的下一個狀態。它用統一的下一token預測目標進行端到端預訓練,訓練數據包含超過10萬億token,主要來自互聯網視頻的連續幀和轉錄文本。這個模型天然接受交錯的視覺語言輸入,生成交錯的視覺語言輸出。之后還用大規模強化學習進行后訓練,增強多模態推理和生成能力。為了提高推理效率,團隊提出了離散擴散適配(DiDA),把逐token解碼轉換成雙向...
2025-11-03 07:26:02 900瀏覽 0點贊 0回復 0收藏
圖片10月31日,llamacpp版本Qwen3VL系列模型(Qwen3VL模型已并入llama.cpp,ollama同步支持),有網友在使用Qwen3VL8B時發現一個問題:第二次對話時llama.cpp總會崩潰。錯誤信息指向聊天模板的語法問題。Unsloth團隊緊急修復了這個問題,并重新上傳了所有GGUF量化文件。現在Qwen3VL系列模型可以在本地穩定運行,從2B到235B的各種規格都有對應版本。硬件需求與實際表現Qwen3VL2B:在4GB內存設備上運行,速度約40token秒Qwen3VL23...
2025-11-03 07:25:23 2224瀏覽 0點贊 0回復 0收藏
在最近ThinkingMachines的新文章(見文末)里指出一種很有用的模型壓縮技術——在線策略蒸餾(OnPolicyDistillation),它通過從高性能“教師”模型的概率分布中轉移知識來訓練一個小的“學生”模型。這使得學生能夠模仿教師的任務性能,同時顯著減少大小和延遲。它讓小模型在特定領域達到大模型的表現,成本卻只有傳統方法的十分之一。但這里有一個知識蒸餾一直存在的痛點:老師和學生必須用同一套分詞器。這意味著你不能讓Lla...
2025-11-03 07:24:13 962瀏覽 0點贊 0回復 0收藏
傳統的token擴展方式已經走到了算力成本的天花板。與其硬扛百萬級token的計算壓力,不如讓AI"看"文字,而不是"讀"文字。不知道是否是巧合,DeepSeek與智譜都想到了這一個思路,并同時對外發布,DeepSeek發布了DeepSeekOCR,而智譜發布了一個名為Glyph的框架,直接工程化的實現了這一思路。不過,大家可能被deepseek吸引了注意力,而沒有注意到它,筆者今天介紹介紹。核心思想傳統方法要么擴展位置編碼,要么修改注意力機制,但...
2025-10-30 07:52:39 1322瀏覽 0點贊 0回復 0收藏
LangChain拿到了新融資,對自己有了新定位——Agent基礎設施提供商,同時對自己的產品矩陣做了新的梳理,重新定義了Agent開發的三個層次。他把Agent開發分成三層:Framework(框架層):提供抽象和標準化接口。LangChain就是這一層,還有Vercel的AISDK、CrewAI這些。主要解決的是"怎么寫"的問題。框架的價值在于提供心智模型的抽象,讓開發者更容易上手,但做得不好就會掩蓋內部機制,缺乏高級用例的靈活性。Runtime(運行時)...
2025-10-30 07:52:18 597瀏覽 0點贊 0回復 0收藏
AndrejKarpathy剛剛分享了一件挺有意思的事:教他的超小型語言模型nanochatd32數單詞里有幾個字母r。這聽起來簡單,但對一個"大腦只有蜜蜂大小"的模型來說,難度不小。要知道,連ChatGPT這樣的大模型都經常在這種任務上翻車。Karpathy的解決方案很實用:創建一個叫SpellingBee的合成任務(代碼見文末),生成大量用戶詢問字母計數的例子,然后用這些數據對模型進行微調。關鍵在于細節。對小模型來說,你得把任務拆得很細:先把...
2025-10-30 07:51:28 676瀏覽 0點贊 0回復 0收藏
市場調研每年花費企業數十億美元,卻始終受困于樣本偏差和規模限制。有沒有好且經濟的辦法呢?來自PyMCLabs和高露潔棕欖的團隊發現了一件有意思的事:讓大語言模型扮演特定人群的消費者,給它看個產品,讓它說說感受,再用另一個AI來評分,就能預測真實的購買意圖,準確率高達90%。他們測試了57個個人護理產品概念,收集了9300份真實消費者反饋。最令人意外的是,這種方法不需要任何訓練數據就打敗了傳統機器學習。直接讓AI打分...
2025-10-17 07:47:49 879瀏覽 0點贊 0回復 0收藏
最近一階段,網絡上大量吐槽ChatGPT過于機械保守,回復謹小慎微,刻板無趣。不過情況要改變了,ChatGPT即將放松內容限制。OpenAICEOSamAltman透露,ChatGPT將在未來幾周內推出新版本,允許更加人性化的對話方式。12月將進一步開放,經過年齡驗證的成年用戶可以訪問包括情色內容在內的更多功能。Altman表示,此前為防范心理健康風險,ChatGPT的限制設置過于嚴格,影響了大多數正常用戶的使用體驗。經過技術改進,現在可以在保證...
2025-10-17 07:43:11 1624瀏覽 0點贊 0回復 0收藏
GoogleResearch最近公布了一項研究進展:他們的開源模型Gemma家族新成員Cell2SentenceScale(C2SScale)27B,在與耶魯大學和GoogleDeepMind的合作中,發現了一種新的癌癥治療途徑,并已在活細胞實驗中驗證。這個27B參數模型的核心創新在于將單細胞基因表達數據轉換成語言模型可理解的"細胞句子"。耶魯大學DavidvanDijk實驗室通過標記化處理,把每個細胞的基因表達模式以及數千個基因的活躍程度及相互關系編碼成類似自然語言的序...
2025-10-17 07:40:08 599瀏覽 0點贊 0回復 0收藏
你的RAG系統慢,可能是因為在做太多無用功。最近,Meta的研究團隊發布了REFRAG框架,證明了一個關鍵發現:在RAG系統中,99%的跨段落注意力計算都是浪費的。隨著上下文窗口不斷增長,首個token的生成延遲呈二次方增長,這成為了RAG系統的性能瓶頸。REFRAG通過一種新的壓縮策略,實現了30.85倍的首token生成加速,同時保持了模型的準確性。核心技術方案傳統RAG流程很簡單:查詢來了,編碼成向量,從向量數據庫里找相似的文本塊,...
2025-10-17 07:27:48 677瀏覽 0點贊 0回復 0收藏