Parallax:開源自主AI操作系統(tǒng),打造真正屬于你的個人AI生態(tài)

近日,Gradient 開源了分布式推理技術(shù)框架--Parallax。在Product Hunt平臺一經(jīng)亮相,Parallax便斬獲日榜冠軍,引發(fā)全球AI開發(fā)社區(qū)的熱烈討論。這款被定位為"自主AI操作系統(tǒng)"的創(chuàng)新產(chǎn)品,正在重新定義個人和團隊如何部署、運行完全由自己掌控的AI應(yīng)用。

為何我們需要真正自主的AI
當(dāng)前AI大模型時代面臨一個根本性問題:當(dāng)我們將個人生活和工作中的敏感信息交給AI助手處理時,這些數(shù)據(jù)究竟歸誰所有?Parallax團隊認(rèn)為,個人AI助手應(yīng)當(dāng)是真正自主的——它不應(yīng)該將所有信息上傳至中心化云服務(wù),而應(yīng)將關(guān)于用戶的學(xué)習(xí)成果保存在用戶自己控制的本地記憶中。
這種自主性意味著用戶不會被鎖定在單一模型中,也沒有第三方能在未經(jīng)許可的情況下訪問、篡改或關(guān)閉你的AI助手。如果你選擇讓AI了解你的生活背景,那么這些信息就應(yīng)當(dāng)真正屬于你。
Parallax:自主AI操作系統(tǒng)
Parallax本質(zhì)上是一個分布式運行時和服務(wù)架構(gòu),它能夠?qū)悩?gòu)設(shè)備(從個人筆記本電腦到實驗室GPU再到團隊工作站)無縫組合成一個統(tǒng)一的服務(wù)體系。當(dāng)模型規(guī)模超出單臺設(shè)備承載能力時,Parallax會將其拆分為連續(xù)的層片,智能地分布到用戶的多臺設(shè)備上,并協(xié)調(diào)它們協(xié)同工作。
每個請求都能通過最優(yōu)路徑處理,無論是在單臺主機上、局域網(wǎng)內(nèi)還是跨越公共互聯(lián)網(wǎng),且無需配置公共IP或使用相同硬件。這一創(chuàng)新為用戶打開了廣闊的可能:完全自主掌控代碼協(xié)作者、個人助理、視覺和語音處理流水線,以及多代理模擬系統(tǒng)。
Parallax目前支持40多種開源模型,參數(shù)規(guī)模從0.6B到萬億級MoE,兼容GPU和Apple Silicon芯片,全面覆蓋Windows、Linux和macOS三大主流操作系統(tǒng),并獲得Qwen、Kimi、SGLang、MimiMaxParallax等頂尖團隊認(rèn)可。

三大核心競爭力
1. 三種模式,一套系統(tǒng)
- 單機模式(LocalHost):在個人設(shè)備上部署模型- LAN集群(Co-Host):與朋友或同事組建本地集群,部署較大的模型- WAN集群(Global Host):通過W廣域網(wǎng),與遍布全球的機器一起部署和運行超大模型
2. 支持異構(gòu)硬件部署
跨GPU和Apple Silicon平臺無縫運行40+模型,兼容Windows、MacOS、Linux三大操作系統(tǒng),讓分布各地、不同配置的設(shè)備能夠協(xié)同工作。
3. 卓越推理性能
即使在廣域網(wǎng)的不確定的環(huán)境下,Parallax也能保持高吞吐量和低延遲,支持高并發(fā)請求。
技術(shù)突破:Parallax如何實現(xiàn)高效分布式AI
Parallax通過三大技術(shù)支柱實現(xiàn)卓越性能:
1. 智能調(diào)度:模型分片與請求路由
- 將模型拆分為連續(xù)層片并智能分配到各主機- 為每個請求動態(tài)選擇最低延遲路徑進行調(diào)度- 節(jié)點變動時可在毫秒級(≤10ms)內(nèi)重新調(diào)整- 支持高達256節(jié)點的集群,已通過7節(jié)點真實部署驗證

調(diào)度階段1: 在跨構(gòu)架、跨區(qū)域主機間進行模型層片分配

調(diào)度階段2: 智能選擇模型執(zhí)行路徑
2. 無感點對點通信
- 自動局域網(wǎng)檢測,優(yōu)先選擇低延遲本地路徑- 通過先前推出的點對點數(shù)據(jù)通訊協(xié)議Lattica實現(xiàn)NAT穿透,無需公共IP- 統(tǒng)一的數(shù)據(jù)平面確保跨硬件后端的一致性- 通過分布式哈希表實現(xiàn)成員發(fā)現(xiàn)和健康檢查
3. 高效后端執(zhí)行引擎
- 持續(xù)批處理技術(shù)保持設(shè)備高利用率- 動態(tài)鍵值緩存管理支持高并發(fā)- 僅加載分配的模型層,節(jié)省資源- 針對Apple Silicon和NVIDIA GPU分別基于MLX與SGLang進行定制級優(yōu)化

后端執(zhí)行引擎框架
實測性能:超越推理的想象空間
在14節(jié)點全球模式(WAN)測試環(huán)境中,Parallax上運行的Qwen3-32B-FP8展現(xiàn)卓越性能:- 端到端吞吐量達495 tokens/s- 支持200并發(fā)請求,每秒處理超1個請求- Inter-token中位數(shù)僅110-120ms,p99延遲<300ms- 相比非優(yōu)化的4節(jié)點集群,吞吐量提升約3倍
對比測試顯示,Parallax在多項關(guān)鍵指標(biāo)上大幅領(lǐng)先競品:- 全球模式下,p99延遲比HexGen低2.6倍- 吞吐量比HexGen高3.6倍- 局域網(wǎng)協(xié)同模式下,TTFT比Exo快1.97倍
對比組 | 場景 | 指標(biāo) | Parallax | 結(jié)果 |
Global host vs HexGen | WildGPT/32B, rate 32 | p99 latency | 78.1 ms | 2.6× lower |
Global host vs HexGen | WildGPT/32B, rate 32 | Throughput | 0.40 req/s | 3.6× higher |
LAN Co-host vs Exo | Llama-3.1, 2048 in / 128 out | TTFT | 4,532 ms | 1.97× faster |
Single GPU Local Host vs llama.cpp | RTX 5090, Qwen3-32B | TPOT (decode) | 85.98 ms/token | 1.41× faster |
與競品在不同測試場景下的對比結(jié)果
開啟自主AI新時代
“參數(shù)規(guī)模擴展的時代正在結(jié)束,自主AI擴展的時代從此開始。"Parallax團隊表示。這款操作系統(tǒng)讓開發(fā)者能夠從單臺設(shè)備起步,逐步擴展到多機協(xié)同,最終構(gòu)建全球分布式AI服務(wù),同時確保數(shù)據(jù)完全掌握在用戶手中。
Parallax已在GitHub開源,技術(shù)論文也已在arXiv發(fā)布。隨著其在Product Hunt上獲得日榜第一的亮眼成績,Parallax正迅速成為構(gòu)建自主AI應(yīng)用的首選平臺,為AI技術(shù)發(fā)展開辟全新路徑。
未來,Parallax團隊還將持續(xù)帶來多項創(chuàng)新功能:- 專家混合(MoE)感知調(diào)度:優(yōu)化專家和門控分布- 彈性序列并行:靈活拆分工作負載- 長上下文解碼優(yōu)化:改進鍵值處理和解碼圖重用
對開發(fā)者而言,這意味著可以將流行開發(fā)工具和代理框架連接到自己托管的Parallax節(jié)點,在消費級設(shè)備上運行如代碼助手、個人助理和代理IDE等應(yīng)用,同時保持?jǐn)?shù)據(jù)完全自主可控。這不僅是技術(shù)的突破,更是AI真正回歸用戶掌控的重要一步。
體驗Parallax:https://github.com/GradientHQ/parallax閱讀論文:https://arxiv.org/abs/2509.26182




























