微軟顛覆生產(chǎn)力:Copilot推自定義版,AI PC原生支持PyTorch,奧特曼預(yù)告新模型
AI 生產(chǎn)力的未來會(huì)是什么樣子?全世界都在等待微軟的答案。
5 月 22 日凌晨,微軟 Build 2024 開發(fā)者大會(huì)在美國(guó)西雅圖召開,今天的發(fā)布有關(guān) AI 技術(shù),更有關(guān) AI 帶來的新工具。

「三十多年來,微軟對(duì)于計(jì)算機(jī)一直有兩個(gè)夢(mèng)想 —— 首先是讓計(jì)算機(jī)理解我們,而不是我們?nèi)ダ斫庥?jì)算機(jī);其次,在信息不斷增加的世界中,讓計(jì)算機(jī)幫助我們根據(jù)信息有效地進(jìn)行推理、計(jì)劃和行動(dòng)。人工智能浪潮已經(jīng)為我們的夢(mèng)想找到了答案,」微軟 CEO 薩蒂亞?納德拉說道。
今天 Build 大會(huì)的內(nèi)容主要最新的 Copilot,適用于生成式 AI 的新形態(tài)硬件,以及使用新 AI 能力的工具堆棧。

當(dāng)然,除了大量應(yīng)用整合、與 AI 創(chuàng)業(yè)公司、硬件廠商的合作,還有微軟自研的全新 AI 大模型。
Copilot+PC,有專用端側(cè)模型
原生支持 PyTorch
首先是有關(guān) PC 新形態(tài) Copilot+PC 的內(nèi)容。微軟表示,將于 618 上市的首批機(jī)型會(huì)搭載高通 Snapdragon X 系列處理器,在今年晚些時(shí)候?qū)⑼瞥龈嗷谟⑻貭柡?AMD 處理器的此類設(shè)備。
目前已推出的版本因?yàn)?NPU 擁有 40+ TOPS 的 AI 算力,運(yùn)行 AI 工作負(fù)載的能力增強(qiáng)了 20 倍,效率提高了 100 倍。這樣的硬件基礎(chǔ),讓 AI PC 絕不是接入云端的 GPT-4o 那么簡(jiǎn)單,Windows 現(xiàn)在從三個(gè)層面提供 AI 體驗(yàn)。

Windows Copilot 堆棧現(xiàn)在通過 Windows Copilot Runtime 擴(kuò)展到了 Windows 上,人工智能對(duì)系統(tǒng)進(jìn)行了自內(nèi)而外的改造,使開發(fā)人員能夠加速 Windows 上的人工智能開發(fā)。

納德拉表示,Windows Copilot Runtime 包含一組 API,由 Windows 附帶的 40 多個(gè)端側(cè) AI 模型提供支持,包括一種名為 Phi-Silica 的小語言模型(SLM),專為 Copilot+ PC 中的 NPU 設(shè)計(jì)。他們會(huì)被用于智能搜索、實(shí)時(shí)翻譯、圖像生成和處理等任務(wù)。
微軟表示,Phi-Silica 完全使用 NPU 進(jìn)行推理,首個(gè) token 輸出速度為 650 token/s,僅消耗約 1.5 瓦的電量,可以讓 CPU 和 GPU 同時(shí)用于其他計(jì)算任務(wù)。持續(xù)運(yùn)行時(shí),文本生成重用 NPU 中的 KV 緩存并在 CPU 上運(yùn)行,每秒生成約 27 個(gè) token。

微軟提出了 Windows 語義索引,這是一種新的操作系統(tǒng)功能,重新定義了 Windows 上的搜索并支持 Recall 等新體驗(yàn)。稍后,微軟將向使用 Vector Embeddings API 的開發(fā)人員提供此功能,以便人們?cè)趹?yīng)用程序中基于數(shù)據(jù)構(gòu)建自己的矢量存儲(chǔ)和 RAG。
新的 Copilot+PC 還自帶原生的人工智能框架和工具鏈,方便開發(fā)人員將自己的端側(cè)模型引入 Windows。微軟正式宣布通過 DirectML,PyTorch 和 Web 神經(jīng)網(wǎng)絡(luò)現(xiàn)在將在 Windows 上本地運(yùn)行。這將為開發(fā)人員提供更多可用的工具,允許數(shù)千個(gè) Hugging Face 模型在 Windows 上運(yùn)行。NPU 也可以幫助這些工具比以往更快的速度完成任務(wù)。
就像 DirectX 之于圖形處理一樣,DirectML 是 Windows 中用于機(jī)器學(xué)習(xí)的高性能低級(jí) API。DirectML 對(duì)微軟的獨(dú)立硬件供應(yīng)商 (IHV)合作伙伴為 Windows 生態(tài)系統(tǒng)提供的不同硬件進(jìn)行抽象,并支持 GPU 和 NPU,CPU 集成也即將推出。它集成了 AI 領(lǐng)域的相關(guān)框架,例如 ONNX Runtime、PyTorch 和 WebNN。
此外,Windows Subsystem for Linux(WSL)可以同時(shí)運(yùn)行 Windows 和 Linux 工作負(fù)載,為 Windows 上的 AI 開發(fā)提供平臺(tái)。開發(fā)人員可以在不同環(huán)境之間輕松共享文件、GUI 應(yīng)用程序、GPU 等,無需額外的設(shè)置。
昨天,微軟向世界介紹了全新的 Windows 11 AI PC,再加上今天在 Build 開發(fā)者大會(huì)上宣布的強(qiáng)大功能,Windows 正在成為極具開放性的 AI 平臺(tái)和開發(fā)者平臺(tái)。
這些進(jìn)化,似乎會(huì)把開發(fā)者們瞬間從 Mac 上吸引過來。
Copilot 持續(xù)升級(jí)
開始卷團(tuán)隊(duì)協(xié)作
接下來是一系列面向個(gè)人和團(tuán)隊(duì)的 AI 生產(chǎn)力提升。
圍繞 AI 軟件開發(fā)能力,GitHub 推出首套由微軟和第三方合作伙伴開發(fā)的 GitHub Copilot 擴(kuò)展,現(xiàn)已開啟受邀預(yù)覽。新增功能允許開發(fā)者、企業(yè)通過其偏好的服務(wù)(如 Azure、Docker、Sentry 等)直接在 GitHub Copilot 智能副駕駛 Chat 中定制其 GitHub Copilot 智能副駕駛體驗(yàn)。
作為微軟推出的擴(kuò)展功能之一,GitHub Copilot 智能副駕駛 for Azure 展示了如何利用自然語言和更廣泛的功能來提高開發(fā)速度。通過 Copilot 智能副駕駛 Chat 使用該擴(kuò)展,開發(fā)者可以探索和管理 Azure 資源,同時(shí)排除故障、查找相關(guān)日志和代碼。
在本次大會(huì)上,微軟展示了 Copilot 如何提升組織的團(tuán)隊(duì)協(xié)作和業(yè)務(wù)效率。納德拉主要介紹了以下三個(gè)升級(jí):
- Team Copilot 將 Copilot 擴(kuò)展到個(gè)人助理之外,為團(tuán)隊(duì)工作,改善協(xié)作和項(xiàng)目管理。
- Agents:自定義 Copilot 使客戶能夠協(xié)調(diào)和自動(dòng)化業(yè)務(wù)流程。
- Copilot 擴(kuò)展(extensions)和 Copilot 連接器(connectors)使定制和擴(kuò)展 Copilot 變得更加容易,以滿足特殊的業(yè)務(wù)需求。
Team Copilot
Team Copilot 使 Copilot 不再只是個(gè)人助理,而成為有價(jià)值的團(tuán)隊(duì)成員,與其他成員一起參與并做出貢獻(xiàn)。當(dāng)然,你全程掌控,將任務(wù)或職責(zé)分配給 Copilot,使得整個(gè)團(tuán)隊(duì)共同提高效率、協(xié)作和創(chuàng)造力。
Team Copilot 可以在 Microsoft Teams、Microsoft Loop、Microsoft Planner 等協(xié)作應(yīng)用中使用。

具體而言,Team Copilot 可以扮演以下三種角色。
一是會(huì)議主持人。Copilot 通過管理議程和記錄會(huì)議中共同撰寫的筆記,使會(huì)議中的討論更加富有成效。
小組協(xié)作者:Copilot 幫助每個(gè)人從聊天中獲得更多收獲,展示最重要的信息,跟蹤行動(dòng)項(xiàng)目,并解決未解決的問題。

項(xiàng)目經(jīng)理:Copilot 通過創(chuàng)建和分配任務(wù)、跟蹤截止日期以及在需要團(tuán)隊(duì)成員輸入時(shí)通知他們,確保每個(gè)項(xiàng)目順利進(jìn)行。

這些功能將于 2024 年晚些時(shí)候,在預(yù)覽版中提供給擁有 Microsoft Copilot for Microsoft 365 許可證的客戶。
Agents

Agents 是可以實(shí)現(xiàn)業(yè)務(wù)流程自動(dòng)化的全新自定義 Copilot。每個(gè)業(yè)務(wù)流程都有待提高效率和釋放新價(jià)值,并且每個(gè)流程都各不相同。
因此,微軟宣布 Microsoft Copilot Studio 推出新功能,可以構(gòu)建自定義 Copilot,作為 Agents 在客戶的指導(dǎo)下獨(dú)立工作。Agents 的功能包括如下:
- 實(shí)現(xiàn)長(zhǎng)期運(yùn)行的業(yè)務(wù)流程自動(dòng)化
- 推理操作和用戶輸入
- 利用內(nèi)存引入上下文
- 根據(jù)用戶反饋進(jìn)行學(xué)習(xí)
- 記錄異常請(qǐng)求并尋求幫助
如下為創(chuàng)建自定義 Copilot(即 Agents)的演示。

這些 Agents 功能可供搶先體驗(yàn)計(jì)劃(Early Access Program)中的客戶使用。
此外,微軟通過 Copilot 擴(kuò)展和 Copilot 連接器進(jìn)一步豐富了 Copilot 的功能。
借助新的 Copilot 擴(kuò)展,任何人都可以輕松地自定義 Copilot 操作并將 Copilot 擴(kuò)展到他們的數(shù)據(jù)和業(yè)務(wù)線系統(tǒng)。開發(fā)人員可以使用 Copilot Studio 或 Teams Toolkit for Visual Studio 構(gòu)建這些擴(kuò)展。

微軟還在 Copilot Studio 中引入了 Copilot 連接器,讓開發(fā)人員可以更輕松、更快速地創(chuàng)建 Copilot 擴(kuò)展。

這一系列能力,可以讓開發(fā)者們更方便地把人工智能納入到自己的產(chǎn)品和服務(wù)體系中。
小模型 Phi-3 家族上新
多模態(tài) Phi-3-Vision 亮相
作為 OpenAI 最新發(fā)布的旗艦?zāi)P停珿PT-4o 現(xiàn)可在 Azure AI Studio 中使用,也可作為 API 使用。這一開創(chuàng)性的多模態(tài)模型集成了文本、圖像和音頻處理,為生成式和對(duì)話式 AI 體驗(yàn)設(shè)定了新標(biāo)準(zhǔn)。
微軟開發(fā)的 AI 小語言模型(SLMs)Phi-3 系列也發(fā)布了一款新的多模態(tài)模型 ——Phi-3-vision,并已可在 Azure 中使用。

開發(fā)者可在 Azure AI Playground 中體驗(yàn)這些最先進(jìn)的前沿模型,并能在 Azure AI Studio 中開始構(gòu)建和定制模型。
作為以創(chuàng)新智能手機(jī)和智能設(shè)備享譽(yù)全球的全球科技品牌,OPPO 正在將 Azure AI 語音轉(zhuǎn)文本(speech-to-text)、快速轉(zhuǎn)錄(Fast Transcription)和 Azure AI 文本轉(zhuǎn)語音(text-to-speech)技術(shù)在其新款智能手機(jī)上試點(diǎn),以期為客戶帶來全新體驗(yàn)。
Phi-3 模型家族現(xiàn)有四個(gè)模型,每個(gè)模型都根據(jù)微軟負(fù)責(zé)任的 AI、安全標(biāo)準(zhǔn)進(jìn)行指令調(diào)整和開發(fā),以確保可以直接使用。
- Phi-3-vision 是一個(gè)具有語言和視覺功能的 4.2B 參數(shù)多模態(tài)模型,支持 128K 上下文長(zhǎng)度。
- Phi-3-mini 是一個(gè)具有 3.8B 參數(shù)的語言模型,支持 128K 和 4K 兩種上下文長(zhǎng)度。
- Phi-3-small 是一個(gè)具有 7B 參數(shù)的語言模型,支持 128K 和 8K 兩種上下文長(zhǎng)度。
- Phi-3-medium 是一個(gè)具有 14B 參數(shù)的語言模型,支持 128K 和 4K 兩種上下文長(zhǎng)度。

其中,Phi-3-vision 是 Phi-3 家族中的第一個(gè)多模態(tài)模型,它將文本和圖像結(jié)合在一起,并能夠推理現(xiàn)實(shí)世界的圖像以及從圖像中提取和推理文本。該模型還針對(duì)圖表理解進(jìn)行了優(yōu)化,可用于生成見解和回答問題。
Phi-3-vision 以 Phi-3-mini 的語言功能為基礎(chǔ),繼續(xù)在小模型中整合強(qiáng)大的語言和圖像推理質(zhì)量。如下圖所示,Phi-3-vision 可以從圖表和圖解中生成見解。

Phi-3-small 和 Phi-3-medium 的表現(xiàn)優(yōu)于同等規(guī)模以及規(guī)模更大的語言模型。

7B 參數(shù)的 Phi-3-small 在各種語言、推理、編碼和數(shù)學(xué)基準(zhǔn)測(cè)試中擊敗了 GPT-3.5 Turbo。

14B 參數(shù)的 Phi-3-medium 延續(xù)了這一趨勢(shì),并且表現(xiàn)優(yōu)于 Gemini 1.0 Pro。

4.2B 參數(shù)的 Phi-3-vision 在一般視覺推理任務(wù)、OCR、表格和圖表理解任務(wù)中,表現(xiàn)優(yōu)于 Claude-3 Haiku 和 Gemini 1.0 Pro V 等更大的模型。

當(dāng)然,Phi-3-vision 模型是開源的。

Hugging Face 地址:https://huggingface.co/microsoft/Phi-3-vision-128k-instruct
這一模型的發(fā)布令研究者們興奮不已,有人已經(jīng)開始暢想其在機(jī)器人領(lǐng)域的應(yīng)用了。

從 Phi-3 到 Phi-Silica,我們可以看到微軟對(duì)大模型的探索聚焦于應(yīng)用,與自己支持的 OpenAI 區(qū)分了生態(tài)位。
最強(qiáng)氣氛組 ——OpenAI CEO 奧特曼
在微軟官宣了一系列更新后,OpenAI CEO 奧特曼也來到了活動(dòng)現(xiàn)場(chǎng)以示支持。他鼓勵(lì)開發(fā)者和初創(chuàng)公司利用當(dāng)前的人工智能熱潮,認(rèn)為這是自移動(dòng)設(shè)備繁榮甚至互聯(lián)網(wǎng)出現(xiàn)以來最令人興奮的時(shí)刻。

在模型方面,奧特曼透露,未來,GPT-4o 將變得更快,但更便宜。他還很高興地預(yù)告,下一個(gè)大模型即將問世。微軟為這項(xiàng)工作建造了一臺(tái)更大的超級(jí)計(jì)算機(jī)(如同虎鯨一樣規(guī)模的超算)。

奧特曼暗示,新的模態(tài)和整體智能將是 OpenAI 下一個(gè)模型的關(guān)鍵。「最重要的一點(diǎn),聽起來也是我能說的最無聊的一點(diǎn)...... 模型會(huì)變得越來越智能,總的來說是全面智能。」

不過,他也指出,新技術(shù)并不能讓開發(fā)人員擺脫艱苦的工作。這項(xiàng)工作還有待完成。開發(fā)者必須弄清楚如何讓這些技術(shù)對(duì)人們有用。他說,最好不要忘記,將這些新技術(shù)帶入生活并不容易。



























