全球互聯網架構巨頭:Perplexity 的“幽靈爬蟲”到處亂竄,后者回懟:亂咬人惡意炒作,不會分析就來請教 原創
編輯 | 云昭
出品 | 51CTO技術棧(微信號:blog51cto)
最近,全球最大的互聯網架構提供商之一 Cloudflare 拋出了一顆“4A級炸彈”,直接炮轟當紅 AI 初創公司 Perplexity。
在Cloudflare 公開的博客中指出,當 Perplexity 的爬蟲遭遇阻斷時,該公司將隱藏其爬蟲身份,偽裝成真實用戶來突破封鎖規則,繼續抓取拒絕采集的網站內容。
Cloudflare 的工程師 Gabriel Corral、Vaibhav Singhal、Brian Mitchell 和 Reid Tatoris 在周一的一篇博客中表示:
“雖然 Perplexity 一開始使用其聲明的用戶代理進行抓取,但當遭遇網絡封鎖時,它們會隱藏爬蟲身份,試圖繞過網站的意愿。”
“我們持續看到 Perplexity 多次更改其用戶代理和源 ASN(自治系統編號),以隱藏其抓取行為。同時,它們無視 robots.txt 文件的指令,有時甚至根本不請求該文件。”
雖然 Perplexity 回應稱這是“誤解”和“宣傳噱頭”,但事情遠比聲明聽起來嚴峻得多……
Cloudflare 點名怒斥:Perplexity 的“隱身爬蟲”到處亂竄
今天的幾個小時前,Cloudflare 發布博客稱,其監測到 AI 搜索公司 Perplexity 在遇到網站封鎖后,采用“偽裝身份”繼續抓取內容。
圖片
- 初始階段 Perplexity 爬蟲使用官方標識,比如:PerplexityBot、Perplexity-User,一旦被封鎖,就切換至模擬 macOS 上 Chrome 瀏覽器的通用瀏覽器,并使用非官方 IP 和 ASN (自治系統編號)進行網絡請求,企圖繞過 robots.txt 和用戶制定的 WAF 規則。
“這種行為模式覆蓋了數萬個域名,每天產生數百萬次請求。”
Cloudflare 最終通過機器學習和網絡信號的組合,才成功地識別出 Perplexity 幽靈爬蟲的行為特征:
圖片
ClouCloudflare 為此還專門構建了測試域名(無索引、robots.txt 明令禁止所有爬蟲),結果 Perplexity 依然能夠提供這些隱藏頁面的詳細內容,說明其實踐方式與聲明明顯沖突。
圖片
Perplexity 回懟:惡意炒作截圖里的bot根本不是我們的
PerpPerplexity 發言人 Jesse Dwyer 第一時間也對這種“炮轟行為”做出了回應: Cloudflare 的報告是一個“宣傳噱頭”!
同時,Dwyer 批評其聲明中存在“很多誤解”,存在嚴重的分析錯誤,并堅稱文章中提到的截圖“并未訪問任何內容”,而 Cloudflare 指認的 bot “根本不是我們的”。
目前,這種神仙吵架的態勢沒有停息。前一刻,Cloudflare 已將 Perplexity 從已驗證機器人名單中移除,并推出了阻止 Perplexity“隱形爬行”的方法。
回應:是Agent,還是爬蟲bot?
Perplexity 今天還在X上發表了一篇有關AI時代,代理和爬蟲bot區別的文章,小編認為非常有啟發:如何重新思考AI時代的瀏覽行為和爬蟲行為?這是一個繼續澄清的問題。所以也給大家整理出來,希望能有所幫助。
圖片
這篇回懟文章整理如下:
| 是 Agent 還是 Bot?理解開放網絡上的 AI
隨著互聯網的發展,我們訪問和交互信息的方式也在不斷演變。在網絡發展的早期,自動化 bot 扮演著一種簡單且被廣泛理解的角色:為搜索引擎建立索引、檢查鏈接是否失效,或根據網站所有者設定的明確規則抓取數據。
但隨著 AI 助手和以用戶為驅動的 Agent 的興起,“只是一個 bot”與“真正為人類服務”的界限變得越來越模糊。
| 數字助手的崛起
現代 AI 助手的工作方式,與傳統的網頁爬蟲有著本質區別。當你向 Perplexity 提一個需要實時信息的問題——比如“那家新餐廳的最新評價是什么?”——AI 并不會從某個已存數據庫中提取答案。而是會主動訪問相關網站,閱讀內容,并針對你的具體問題生成一份定制化摘要。
這與傳統的網頁爬蟲完全不同——后者是系統性地訪問數百萬頁面,構建起龐大的數據庫,哪怕從未有人實際請求過這些信息。而用戶驅動的 Agent 僅在真實用戶發起具體請求時,才去獲取相關內容,并立即用于回答問題。Perplexity 的用戶驅動型 Agent 并不會保存這些信息,也不會用其訓練模型。
| 為什么這種區別至關重要?
自動爬取與用戶驅動式獲取的區別不僅僅是技術問題,更關乎誰可以訪問開放網絡上的信息。
比如當谷歌搜索引擎進行索引爬取,這是一個過程;而當它因為你的查詢請求而加載某個網頁預覽,這就是另一個完全不同的機制。谷歌的“用戶觸發式抓取”行為優先考慮的是你的體驗,而非 robots.txt 文件的限制,因為這些請求是“代表用戶”發起的。
AI 助手同理。當 Perplexity 抓取某網頁時,是因為你提出了一個需要實時信息的問題。相關內容不會被儲存,也不會用于訓練模型,而是即時為你服務。
當像 Cloudflare 這樣的公司把這種用戶驅動的 AI 助手錯誤歸類為惡意 bot,他們其實是在宣稱——任何為用戶服務的自動化工具都應被懷疑。這種觀點如果成立,那么郵箱客戶端、網頁瀏覽器,甚至任何能自動處理請求的服務都可能被“守門人”視為非法。
而這場爭議正揭示出:Cloudflare 當前的系統,根本無法區分一個合法的 AI 助手與真正的威脅。如果你都分不清一個有幫助的數字助手和一個惡意爬蟲,那你大概也不應該決定什么才算“合法的網頁流量”。
| 封鎖傷害的是所有人
想象一個使用 AI 來研究健康問題、對比產品評價或獲取多方新聞資訊的用戶。如果他的助手因為被識別為“惡意 bot”而被封鎖,那他就無法訪問原本屬于開放網絡的有價值信息。
最終,這將導致一個“雙軌互聯網”——你能否訪問信息,不再取決于你的需求,而是你的工具是否獲得了某些基礎設施控制方的“認證許可”。這直接削弱了用戶的自主選擇權,也威脅著創新服務在開放網絡上的生存機會。
| 呼吁澄清:用戶代理(User Agents)到底如何運作?
AI 助手的工作方式就像一個真人助手。當你問他們一個需要實時信息的問題,他們并不會提前知道答案,而是幫你去查找、完成你交給的任務。
在 Perplexity 及所有 agentic AI 平臺上,這個過程是實時發生的,僅為滿足你的請求而觸發。獲取到的信息會立刻用于回答問題,不會被存儲到龐大的數據庫中,也不會用于模型訓練。
用戶驅動的 Agent 只會在用戶有特定請求時行動,并僅獲取完成任務所需的內容。這是“用戶代理”(User Agent)與“bot”之間最根本的區別。
| 正面回應 Cloudflare:一個關于專業能力的問題
Cloudflare 最近的一篇博文,幾乎把現代 AI 助手的運作方式全都誤解了。
除了錯誤地認為每天 2000 萬到 2500 萬條用戶代理請求是爬蟲行為,Cloudflare 還聲稱 Perplexity 在進行“隱形爬取”,使用隱藏 bot 和偽裝手段繞過網站限制。但技術事實并非如此。
看起來 Cloudflare 實際上是把每天來自 BrowserBase(一個第三方云瀏覽器服務)的 300 萬到 600 萬條無關請求錯誤地歸咎于 Perplexity。而 Perplexity 僅在極少數特定任務中使用該服務,每天調用不超過 4.5 萬次。
由于 Cloudflare 故意遮掩其分析方法,且拒絕配合解釋,我們只能歸納出兩種可能的解釋:
- Cloudflare 想搞一個聰明的公關噱頭,而我們(作為他們的客戶)剛好是個足夠吸睛的名字;
- Cloudflare 把 BrowserBase 的自動瀏覽器流量錯誤歸類為 Perplexity,這是一個基礎級別的流量分析失敗——而 Cloudflare 的核心業務,正是理解和分類網絡流量。
無論哪種原因,都表明 Cloudflare 的分析存在嚴重錯誤。這些技術失誤不僅令人尷尬,甚至足以讓人質疑其在該領域的專業資格。如果你會錯誤歸因上百萬條請求,發布完全不符實際的技術圖示,并徹底誤解現代 AI 助手的運作方式,那你就已經失去了在這個領域中擔任權威的資格。
這場爭議也進一步暴露出,Cloudflare 的系統根本無法區分一個合法 AI 助手與真正的網絡威脅。如果你連這個都搞不清楚,就不應該掌握判斷什么才算“合法流量”的權力。
更令人哭笑不得的是,Cloudflare 還發布了一張所謂的“Perplexity 爬蟲流程圖”,但那圖跟 Perplexity 的真實工作機制毫無關系。如果 Cloudflare 真想理解它看到的數據,了解我們的系統如何運行,或者理解上文中所講的基礎邏輯,他們其實可以像我們鼓勵所有用戶做的那樣:
直接來問。
網友:至少引起了關注,Cloudflare前不久剛宕機
事實上,AI 爬取網站內容的事情已經讓參與方,包括模型廠商、AI應用側、網站方、創作者等之間,前前后后 battle了好幾個回合。
只不過這次 Cloudflare 站出來向 Perplexity AI 開炮,連各種截圖和路徑分析都放出來,著實讓網友們 更好地 Get 到了 AI 時代,我們聊天框里的 Chatbot 是如何精確從網站扒取內容的,有了更好地理解。
同樣,Perplexity 的回應文章同樣也非常精彩,指出了自動爬取與用戶驅動式獲取的區別。
正如一位推友所言,不管是不是炒作,但教育意義還是非常高的。
圖片
不過,在事情沒有塵埃落定之前,不少網友還是各自站隊。比如內容創作者希望能在AI時代爭取到更多的權益。而 Perplexity 的擁躉們則直接嘲笑 Cloudflare:幾周前剛大規模宕機來著,現在連分析方式都被質疑了,聽起來挺無能的。
圖片
事情開始變得非常有趣了,而且這些網友的熱情討論,讓小編覺得:即便在各種 AI 工具盛行的時刻,“互聯網精神”的味道依舊濃郁。
本文轉載自??51CTO技術棧??,作者:云昭

















