精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

無人談論的AI堆棧:數據采集作為基礎設施

人工智能
人工智能社區癡迷于越來越大的模型、十億令牌上下文窗口和GPU 的微調運行讓人感到厭倦,而人工智能堆棧中最被忽視的力量倍增器卻靜靜地位于這一切之下的一層:數據。

人工智能社區癡迷于越來越大的模型、十億令牌上下文窗口和GPU 的微調運行讓人感到厭倦,而人工智能堆棧中最被忽視的力量倍增器卻靜靜地位于這一切之下的一層:數據。

讓我們明確一點:雖然擴展模型規模仍然很重要,但對于大多數現實世界的人工智能產品而言,性能提升越來越取決于數據質量和新鮮度,而不僅僅是參數數量。將模型規模翻倍以榨取邊際收益不僅成本高昂,而且在環境方面也難以為繼,因為驚人的電力和水成本根本無法擴展。

該瓶頸已從堆棧中移出。

構建 AI 原生產品的創始人和首席技術官開始意識到,他們的代理不會錯過新興市場信號,也不會給出空洞的見解,因為“模型”本身 “不夠智能”——它之所以失敗,是因為它盲目地處理過時、不相關或不完整的上下文。正因如此,Salesforce 于 2025 年 5 月斥資 80 億美元收購了 Informatica,以增強其 AI 驅動的 Agentforce 平臺。現在,他們可以訪問高質量的實時數據,從而獲得更準確、更可擴展的成果。

性能的成敗取決于您能檢索到什么,而不僅僅是您如何提示。除非您使用的是 H100 集群或運行著 API 預算無限的前沿模型,否則您超越巨頭的最佳機會是在您負擔得起的范圍內為模型提供更智能的數據:領域特定、結構化、去重和新鮮的數據。

但在構建情境之前,它必須先存在。這意味著需要可靠、實時地訪問開放網絡——不僅僅是一次性的數據抓取或數據集,而是能夠反映當前情況的強大管道。

各位,這就是基礎設施。如果說計算讓 NVIDIA 變得不可或缺,那么我認為下一個重大突破不是更多層,而是更多信號而不是噪聲。而這始于將數據采集視為生產基礎設施。

“好數據”是什么樣的?

如果你正在構建一款 AI 原生產品,那么系統的智能程度將不再取決于你的提示有多巧妙,或者你能在上下文窗口中塞入多少個標記。而是取決于你能多好地為它提供當下重要的上下文。

但“好數據”的定義相當模糊。讓我們來澄清一下。它對人工智能的意義如下:

領域特定:AI 輔助優化零售定價需要競爭對手數據、客戶評論或區域趨勢,而不是無關的噪音。你必須做到精準定位。

持續更新:網絡瞬息萬變。錯過今日 X 趨勢的情緒模型,或使用上周價格的供應鏈模型,都已經過時了。

結構化和去重:重復、不一致和噪聲會浪費計算并稀釋信號。結構勝過規模。干凈勝過龐大。

實時可操作:過時的數據就是死數據。實時數據——價格變動、新聞、庫存變化——能夠為即時決策提供支持。但前提是收集數據必須合乎道德、可靠且規模化。

這就是 Salesforce 收購 Informatica 的原因——不是為了新模型,而是為了向 Agentforce 提供結構化的實時數據,以改善下游決策。

正因如此,IBM 于 2024 年 7 月斥資 23 億美元收購了 StreamSets,用于打造 Watsonx。StreamSets 專注于從混合數據源提取數據、監控數據流并處理模式漂移——這使得 IBM 能夠跨企業系統為 Watsonx 提供最新、一致的信號。對于需要基于實時狀態(而非僅僅基于歷史模式)進行推理的 AI 來說,這種基礎設施能夠帶來 10 倍的增效效果。

這也是 Dataweps 轉向Bright Data為飛利浦和華碩等電商客戶收集實時競爭對手定價和市場趨勢的原因。他們的 AI 驅動定價和競價系統依賴于快速、準確的數據,而 Bright Data 的 API 驅動生態系統(包括代理、存檔/數據集、支持 AI 代理的瀏覽器自動化工具等)使他們能夠可靠且大規模地收集這些數據。Bright Data 不僅僅是數據抓取,它還提供了現實世界 AI 系統所需的彈性、容量和合規性。坦率地說,它是一家 AI 基礎設施提供商。

關鍵在于:檢索質量如今勝過提示工程。即使是最好的提示也無法修復模型在推理時提取過時或不相關數據的問題。

正是現在,正確的環境。這就是后 Deepseek 時代 AI 生存或消亡的關鍵所在。

第一步總是最難的

乍一看,數據基礎設施聽起來像是管道。采集管道、轉換、存儲?貌似無聊至極。但在 RAG 和代理 AI 時代,這種管道已變得至關重要。為什么?因為你的系統不再只是運行推理——它基于外部、不斷變化的多模態實時信息進行推理。這改變了一切。

我是這樣認為的:現代人工智能數據棧已經發展成為一個成熟的價值鏈,從信息的獲取和提取,到信息的轉換和豐富,到信息的整理和排序,再到存儲和提供給合適的組件——無論是模型、代理還是人類。每一層都帶來了實時挑戰和現實后果。與傳統的 ETL 管道不同,它不僅僅是將數據錄入數據湖然后留在那里。

大多數團隊在第一步就搞砸了:采集。糟糕的數據提取會毀掉上下文。如果你的采集層錯過了關鍵更新,在邊緣情況下默默地失敗,或者以錯誤的結構或語言捕獲信息,那么你的整個堆棧都會繼承這種盲目性。

換句話說:你無法設計你未曾攝取的語境。這里有一篇有趣的論文,《AI 海洋中的塞壬之歌:大型語言模型中的幻覺調查》,作者是 Zhang 等人。該論文展示了在生產級系統中,未解決的攝取問題是“模型幻覺”和其他異常代理行為的最常見根源。

因此,在 RAG 和代理 AI 時代,攝取需要具有戰略性,這是不容置疑的:

它必須對人工智能代理友好,也就是說,能夠提供結構化的、即時的數據。

它必須處理動態 UI、CAPTCHA、變化的模式和混合提取(API + 抓取)。

多步驟AI代理既需要實時信號,也需要歷史記憶——現在發生了什么,之前發生了什么,發生順序如何,以及原因。因此,該基礎設施必須支持定時提取、增量更新和TTL感知路由——所有這些都具有彈性、合規性,并且隨時準備應對變化。

它必須具有規模可靠性,并能持續從數百萬個來源提供最新信息。

并且必須符合網站條款和法律規范。

這就是為什么脆弱的抓取工具、靜態數據集和一次性連接器不再足夠好的原因,以及為什么像 Bright Data 這樣專注于自動化友好、代理優先數據基礎設施的平臺正在變得像模型本身一樣基礎。

我見過像 Gemma 3 這樣的開源、開放權重模型在狹窄領域中表現優于 GPT-4,僅僅是因為新鮮的、精選的、基于領域的數據讓它們能夠用于更好的檢索系統。

我們來算一下。假設我們將檢索到的上下文片段的總效用定義為:

U=i=1ΣkRiFi

在哪里:

R i∈[0,1] 是第i個檢索到的片段與查詢的相關性得分。

???? [ 0 , 1 ] 是新鮮度得分,以隨時間衰減的函數建模(例如指數或線性)。

k是檢索到的上下文塊的數量,受模型的上下文窗口約束。

即使假設語義搜索完美(即???? 已優化),最大化U也可能意味著丟棄高度相關但過時的數據,轉而選擇相關性稍低(但最新!)的信號。如果您的提取層跟不上,就會造成可見性損失和效用下降。第二個影響與第一個影響相輔相成:不僅無法獲得新鮮內容,而且過時內容的存在還會降低性能。這會導致檢索到的上下文質量的復合下降。

這就是為什么數據采集(包括但不限于計劃更新、TTL 感知爬取、SERP 提取、提要解析等)不再僅僅是管道。

數據采集基礎設施究竟是什么樣子

那么,將數據采集視為一流的基礎設施究竟意味著什么呢?

這意味著:

構建循環管道,而非負載。數據不應被一次性抓取并存檔。它應該按計劃進行流式傳輸、刷新和更新——并內置自動化、版本控制、重試邏輯和可追溯性。一次性轉儲無法提供持久的智能。

將新鮮度納入檢索邏輯。數據會老化。您的排名和檢索系統應該將時間漂移視為首要信號——優先考慮能夠反映當前世界狀態的上下文。

使用基礎設施級來源。從自制腳本中抓取原始 HTML 無法擴展。您需要訪問層,這些層應提供 SLA、對驗證碼的彈性、模式漂移處理、重試、代理編排和合規性支持。

跨模態采集。有價值的信號存在于 PDF、儀表板、視頻、表格、屏幕截圖和嵌入式組件中。如果您的系統只能從純 HTML 或 Markdown 中提取數據,那么您就錯過了一半的信息。

構建事件原生數據采集架構。Kafka、Redpanda、Materialize 和時間序列數據庫——這些并非只適用于后端基礎設施團隊。在 AI 原生系統中,它們將成為采集和重放時間敏感信號的神經系統。

簡而言之,不要再把數據視為靜態資源。要把它當成計算資源——需要編排、抽象、擴展和保護。這才是“數據采集即基礎設施”的真正含義。

未來在于信息 > 規模

大多數 RAG 討論都停留在模型層面。但如今正在興起的 AI 棧,其模型可以互換,而數據基礎設施才是長期的護城河。

摩爾定律或許已不復存在,但原始性能仍在穩步提升。但在不久的將來,我并不確信人工智能系統的性能將取決于微調或快速的魔法。我認為,最終的勝利將取決于你的系統掌握的知識以及它們獲取知識的速度。最智能的人工智能系統并非擁有最大窗口的系統,而是擁有最佳上下文管理能力的系統——這得益于實時數據、動態內存和智能提取。

因此,作為工程師,我們不應將每一個新的數據源、反饋或實時數據流視為“內容”,而應將其視為能力。因此,每一個新的數據流也未必是噪音,而是信號。

也許你已經構建了這樣一個關鍵的人工智能基礎設施——只是你可能還沒有這樣稱呼它。

也許你已經開始考慮將數據(例如 API)饋送到你自己的內部智能層,并且意識到:你不需要最大的模型。你只需要合適的管道。

擁有這種想法的團隊,將網絡規模的數據采集視為基礎設施而不是一項次要任務,將會行動得更快、學到更多、用更少的費用獲得成功。

責任編輯:龐桂玉 來源: 數據驅動智能
相關推薦

2020-05-07 07:00:00

AI人工智能基礎設施

2022-07-05 09:31:46

基礎設施容器Docker

2022-02-10 11:54:34

即時基礎設施基礎設施數字化轉型

2025-07-23 09:21:03

2021-11-11 15:17:36

人工智能IT技術

2024-09-30 11:29:07

2021-11-25 17:00:26

數據

2023-05-17 14:24:09

2022-02-22 16:01:33

微軟人工智能超級計算

2017-06-09 15:25:23

IT設施數據中心融合

2015-12-07 09:39:53

光纖數據中心

2021-05-12 10:52:06

云原生K3S命令

2023-07-17 18:43:26

測試基礎設施開發

2009-12-18 17:14:25

惠普基礎架構

2009-12-22 13:59:59

惠普基礎設施運營

2021-11-08 15:32:33

數據中心數據中心架構基礎設施管理

2023-03-09 14:20:04

2020-02-24 11:08:27

云計算網絡攻擊數據
點贊
收藏

51CTO技術棧公眾號

人妻人人澡人人添人人爽| 中文字幕在线亚洲精品| 国产精品免费精品一区| 国产欧美高清视频在线| 欧美日韩一二三| 国产人妻互换一区二区| 高清毛片aaaaaaaaa片| 亚洲综合激情| 久久精品影视伊人网| 2018国产精品| 3d欧美精品动漫xxxx无尽| 成人免费在线播放视频| 韩国一区二区三区美女美女秀| 久久99国产综合精品免费| 97精品国产福利一区二区三区| 日韩精品一区二区三区四区视频 | 综合久久国产九一剧情麻豆| 国产99视频精品免费视频36| 中文在线资源天堂| 亚洲视频福利| 日韩在线视频观看| 丰满少妇一区二区三区| 国产中文欧美日韩在线| 91久久精品网| 亚洲色成人www永久在线观看 | 无码人妻丰满熟妇区bbbbxxxx| 一区二区三区在线观看免费| 亚洲欧美色图片| 韩国黄色一级片| 久久女人天堂| 精品久久久免费| 麻豆精品新av中文字幕| 自拍亚洲一区欧美另类| www.免费av| 亚洲国产视频二区| 欧美日韩和欧美的一区二区| 丝袜老师办公室里做好紧好爽| 欧美6一10sex性hd| 18成人在线观看| 日韩欧美在线观看强乱免费| 香蕉视频国产在线| 成人综合婷婷国产精品久久蜜臀 | 在线观看欧美日韩| 精品国产av色一区二区深夜久久 | 久久永久免费| 97在线日本国产| 久久久久亚洲av成人片| 亚洲成人精选| 俺去亚洲欧洲欧美日韩| 美女爆乳18禁www久久久久久| 老牛国内精品亚洲成av人片| 日韩精品中文字幕在线不卡尤物| 亚洲黄色片免费| 久久人体av| 欧美日韩视频一区二区| xx欧美撒尿嘘撒尿xx| 成人在线视频播放| 在线一区二区观看| 男女无套免费视频网站动漫| 精品国产第一福利网站| 色婷婷综合久色| 大j8黑人w巨大888a片| 阿v视频在线| 偷拍日韩校园综合在线| 国产免费观看高清视频| 校园春色亚洲| 欧洲日韩一区二区三区| 在线免费观看av的网站| 成人在线免费| 制服丝袜亚洲精品中文字幕| 国产欧美精品一二三| 欧美影院精品| 精品国产一区二区三区久久久蜜月| 国产精品99久久久精品无码| 交换做爰国语对白| 日本三级一区| 欧美在线不卡视频| 国产精品视频中文字幕| 国产午夜精品一区在线观看| 日韩一区二区三区免费看| 午夜福利三级理论电影| 国产精品成人自拍| 亚洲精品一区二区三区婷婷月| 美女爆乳18禁www久久久久久| 日韩欧美伦理| 久久99国产精品自在自在app| 国产乱码久久久久久| 美女久久一区| 国产日韩专区在线| 午夜精品久久久久久久第一页按摩 | 99视频精品全部免费在线| 免费国产在线精品一区二区三区| 国产一二三区在线视频| 国产精品美女久久久久久久久久久| 中文字幕一区二区三区乱码| av资源在线播放| 91久久精品一区二区| 超碰91在线播放| 亚洲香蕉视频| 欧美大奶子在线| 成人在线免费看视频| 蜜臀va亚洲va欧美va天堂| 999国产在线| 人人九九精品| 亚洲欧美欧美一区二区三区| 野外做受又硬又粗又大视频√| 校园春色亚洲色图| 日韩三级免费观看| 日韩一级av毛片| 精品91在线| 国产日韩综合一区二区性色av| 神马久久久久久久久久| 国产精品福利影院| 色偷偷偷亚洲综合网另类| 400部精品国偷自产在线观看| 日本不卡免费高清视频在线| 欧美美女喷水视频| 欧洲一级黄色片| 亚洲欧美综合久久久| 日韩av电影免费观看高清| 国产后入清纯学生妹| 国产色产综合色产在线视频| 精品国产av无码一区二区三区| 日韩美女在线| 亚洲片国产一区一级在线观看| 欧美片一区二区| 久久精品国产秦先生| 久久久久资源| 波多野结衣精品| 在线电影院国产精品| 久久精品国产亚洲av久| 极品少妇一区二区三区| 2014亚洲精品| 久久日韩视频| 欧美色老头old∨ideo| 韩国无码一区二区三区精品| 亚洲视频精品| 99久久国产免费免费| 久久久久久久久免费视频| 欧美亚洲愉拍一区二区| 少妇真人直播免费视频| 99成人在线| 国产精品香蕉视屏| 日本性爱视频在线观看| 欧美一区二区福利视频| 精品亚洲乱码一区二区| 美国毛片一区二区三区| 亚洲国产一区二区三区在线| se01亚洲视频| 一区二区国产精品视频| 不卡av电影在线| 天天射天天操天天干| 99精品国产一区二区青青牛奶| av在线亚洲男人的天堂| 91亚洲天堂| 日韩一区二区视频在线观看| 午夜爽爽爽男女免费观看| 久久99九九99精品| 亚洲人成77777| 色8久久久久| 久久久久99精品久久久久| 国产精品欧美亚洲| 亚洲色图一区二区三区| 波多野结衣在线免费观看| 欧美福利影院| 精品福利影视| 第84页国产精品| 国产一级揄自揄精品视频| 亚洲中文一区二区| 久久综合九色综合欧美就去吻 | 99re在线国产| ririsao久久精品一区| 亚洲国产精品一区二区三区| 久久国产黄色片| 国产日韩综合av| 欧美丝袜在线观看| 欧美黄色aaaa| 久久av一区二区三区亚洲| 欧美激情喷水| 精品国产视频在线| 成人毛片在线免费观看| 欧美日韩色婷婷| 精品日韩在线视频| 国产高清一区日本| 免费成人午夜视频| 日韩精品第一区| 亚洲综合视频1区| 亚洲欧美在线视频免费| 国产极品一区| xxx一区二区| 五月婷婷久久久| 欧美视频第二页| 日本一级二级视频| 91在线观看下载| 伊人影院综合在线| 激情欧美丁香| 日韩一区免费观看| baoyu135国产精品免费| 国产成人一区二| 日本中文字幕中出在线| 亚洲视频在线观看网站| 国产a级免费视频| 91福利精品视频| 黄色一级视频免费观看| 国产欧美视频在线观看| 欧洲成人午夜精品无码区久久| 久久综合九色| 人妻激情另类乱人伦人妻| 少妇一区二区视频| 国产精品二区在线观看| 99riav视频一区二区| 国模叶桐国产精品一区| 欧洲不卡视频| 亚洲美女久久久| 精品久久国产视频| 欧美日韩精品高清| 毛片视频网站在线观看| 一区二区三区精品在线观看| 美国一级黄色录像| 久久久午夜精品理论片中文字幕| 国产精品嫩草69影院| 狠狠色丁香久久婷婷综合_中 | 91精品蜜臀在线一区尤物| 久久免费激情视频| 一区二区三区加勒比av| 国产成人精品视频免费| 91网站视频在线观看| 国产农村妇女精品久久| 日韩三级小视频| 国产精品一区二区在线播放| 四季av一区二区| 亚洲欧美清纯在线制服| 国产亚洲黄色片| 在线成人超碰| 中文字幕一区二区三区精彩视频 | 无遮挡爽大片在线观看视频 | 秋霞电影一区二区| 日本精品免费在线观看| 国产日韩精品视频一区二区三区| 成人小视频在线观看免费| 亚洲最大av| 最新中文字幕久久| 99久久亚洲精品| 色999日韩自偷自拍美女| 天堂在线精品| 精品亚洲欧美日韩| 男人的天堂久久| 国产欧美一区二区三区不卡高清| 一区二区视频| 国产激情一区二区三区在线观看 | 川上优av中文字幕一区二区| 色综合久久精品亚洲国产| 国产欧美黑人| 欧美成年人在线观看| 最新日本在线观看| 欧美成人中文字幕| 欧美男男video| 久久久人成影片一区二区三区观看 | 色视频www在线播放国产成人| 国产裸舞福利在线视频合集| 亚洲欧美精品在线| 国产精品视频一区二区久久| 亚洲视频综合网| а√天堂中文在线资源bt在线| 在线日韩av观看| 九一精品在线观看| 黄色精品视频网站| 91在线免费视频| 美女国产精品久久久| 痴汉一区二区三区| 秋霞综合在线视频| 日韩久久在线| 欧美国产一区二区三区激情无套| 欧美日韩视频免费在线观看| 欧美一区二区三区免费看| 国产精品久久久久久久久电影网| 亚洲欧洲视频| 国产a级片免费观看| 奇米四色…亚洲| 日本美女久久久| 99久久久久免费精品国产| 精品国产av无码| 亚洲欧洲美洲综合色网| 久久精品www人人爽人人| 欧美日韩色婷婷| 一卡二卡三卡在线观看| 欧美成人精品福利| 国产在线电影| 久久的精品视频| 深夜av在线| 成人黄色激情网| 伦理一区二区三区| 亚洲一区二区三区精品动漫| 午夜国产精品视频免费体验区| 伊人成色综合网| 久久99精品视频| 国产精品福利导航| 国产精品成人免费在线| 激情五月色婷婷| 欧美日韩三级在线| 乱色精品无码一区二区国产盗| 国产午夜精品免费一区二区三区| 伊人福利在线| 国产精品成人aaaaa网站| 伊人精品久久| 亚洲欧美精品| 亚洲永久免费| 好吊操视频这里只有精品| 国产日韩欧美制服另类| 久久一二三四区| 欧美日韩国产成人在线91| 日韩一二三四| 欧美激情手机在线视频 | 久久亚洲二区三区| 成年人一级黄色片| 色先锋aa成人| 日本高清视频网站| 久久久精品视频成人| 视频在线日韩| 精品中文字幕人| 午夜久久美女| 国产三级精品三级在线| 久久精品水蜜桃av综合天堂| 久久久久久久伊人| 欧美一级黄色录像| 午夜激情视频在线| 日本欧美中文字幕| 激情av综合| 欧美做暖暖视频| 激情欧美一区二区三区在线观看| 特级西西www444人体聚色| 午夜久久久久久久久| 精品人妻无码一区二区色欲产成人 | 亚洲一二三四区| 国产熟女一区二区三区四区| 最好看的2019年中文视频| 午夜欧美巨大性欧美巨大| 久久艳妇乳肉豪妇荡乳av| 亚洲久色影视| 亚洲欧洲国产视频| 一区二区三区在线观看欧美| 99久久精品无免国产免费| 精品国产一区久久久| 国产一区二区三区四区五区3d| 久久综合九色综合久99| 亚洲欧美日韩国产一区| 玖草视频在线观看| 精品久久久久久久久久| 少妇高潮久久久| 91精品国产色综合久久不卡98| 久久动漫网址| 欧美视频在线播放一区| 91蜜桃网址入口| 日韩在线视频免费观看| av资源网在线播放| 好吊妞www.84com只有这里才有精品 | 永久看片925tv| 欧美精品一卡二卡| 国产精品剧情| 91久久精品一区二区别| 国产精品sm| 国产伦精品一区二区免费| 亚洲6080在线| 香蕉人妻av久久久久天天| 日韩av毛片网| 青青草国产成人a∨下载安卓| 男人添女人下面免费视频| 亚洲欧洲一区二区在线播放| 超碰免费在线97| 91国在线精品国内播放 | 一区二区在线高清视频| 久久99精品久久久久久动态图| 国产成人av免费在线观看| 欧美mv日韩mv国产网站| 美女露胸视频在线观看| 日韩一区国产在线观看| 国内精品久久久久影院薰衣草 | 亚洲欧洲美洲一区二区三区| 两女双腿交缠激烈磨豆腐| 亚洲第一综合色| 男女污视频在线观看| 国产欧美在线播放| 欧美日一区二区在线观看 | 日本黄网站免费| av亚洲精华国产精华| 永久免费无码av网站在线观看| 日韩中文字幕视频在线| 一区二区在线视频观看| 欧美成人免费高清视频| 一区二区中文视频| 亚洲欧洲精品视频| 国产美女扒开尿口久久久| 欧美日本一区| 在线观看日本中文字幕| 日韩三级视频在线观看| 高清av不卡| 大胆欧美熟妇xx| 日本一区二区综合亚洲| 成人av无码一区二区三区| 国产精品极品尤物在线观看|