推薦八個(gè)驚艷的 Github 開源項(xiàng)目
大家好,我是Echa。
小編利用五一這個(gè)小長假,陪家人的同時(shí)也是想著友友你們,想著給你們多找點(diǎn)優(yōu)秀資源、實(shí)用的工具、驚艷的開源項(xiàng)目。小編發(fā)的每天優(yōu)質(zhì)文章,希望能給友友們多學(xué)點(diǎn)知識(shí)點(diǎn),多學(xué)點(diǎn)新技能,多接私活多賺外快。不管是從技術(shù)深度到技術(shù)廣度這塊,都會(huì)讓大家受益匪淺。
今天小編繼續(xù)分享8個(gè)驚艷的 Github 開源項(xiàng)目,希望對大家有所幫助和收獲。下面就詳細(xì)介紹:
全文大綱
- Fay-是一個(gè)數(shù)字人開源項(xiàng)目
- bark-一個(gè)基于轉(zhuǎn)換器的文本到音頻模型
- ChatGLM-6B-支持中英雙語的對話語言模型
- law-cn-ai-這個(gè)開源項(xiàng)目被稱為你的 AI 法律助手的開源項(xiàng)目
- gpt4-pdf-chatbot-langchain 針對 PDF 文件構(gòu)建的 GPT 機(jī)器人
- MOSS-國內(nèi)首個(gè)對話式大語言模型開源
- SQL Chat 是一個(gè)基于聊天的 SQL 客戶端
- DeepFloyd IF-這是一種新穎的最先進(jìn)的開源文本到圖像模型
Fay
Github:https://github.com/TheRamU/Fay
Fay是一個(gè)完整的開源項(xiàng)目,包含F(xiàn)ay控制器及數(shù)字人模型,可靈活組合出不同的應(yīng)用場景:虛擬主播、現(xiàn)場推銷貨、商品導(dǎo)購、語音助理、遠(yuǎn)程語音助理、數(shù)字人互動(dòng)、數(shù)字人面試官及心理測評、賈維斯、Her。
開發(fā)人員可以利用該項(xiàng)目簡單地構(gòu)建各種類型的數(shù)字人或數(shù)字助理。該項(xiàng)目各模塊之間耦合度非常低,包括聲音來源、語音識(shí)別、情緒分析、NLP處理、情緒語音合成、語音輸出和表情動(dòng)作輸出等模塊。每個(gè)模塊都可以輕松地更換。

Fay控制器用途
Fay控制器核心邏輯

Fay控制器核心邏輯
使用說明
- 抖音虛擬主播:啟動(dòng)bin/Release_2.85/2.85.exe + fay控制器(抖音輸入源開啟、展板播放關(guān)閉)+ 數(shù)字人 + 抖音伴侶(測試時(shí)直接通過瀏覽器打開別人的直播間);
- 現(xiàn)場推銷貨:fay控制器(展板播放關(guān)閉、填寫商品信息)+ 數(shù)字人;
- 商品導(dǎo)購:fay控制器(麥克風(fēng)輸入源開啟、展板播放關(guān)閉、填寫商品信息、填寫商品Q&A)+ 數(shù)字人;
- 語音助理:fay控制器(麥克風(fēng)輸入源開啟、展板播放開啟);
- 遠(yuǎn)程語音助理:fay控制器(展板播放關(guān)閉)+ 遠(yuǎn)程設(shè)備接入;
- 數(shù)字人互動(dòng):fay控制器(麥克風(fēng)輸入源開啟、展板播放關(guān)閉、填寫性格Q&A)+ 數(shù)字人;
- 數(shù)字人面試官及心理測評:聯(lián)系免費(fèi)領(lǐng)??;
- 賈維斯、Her:加入我們一起完成。
語音指令
- 關(guān)閉核心 關(guān)閉 再見 你走吧
- 靜音 靜音 閉嘴 我想靜靜
- 取消靜音 取消靜音 你在哪呢? 你可以說話了
- 播放歌曲(網(wǎng)易音樂庫不可用,尋找替代中) 播放歌曲 播放音樂 唱首歌 放首歌 聽音樂 你會(huì)唱歌嗎?
- 暫停播放 暫停播放 別唱了 我不想聽了
圖形界面

bark
Github: https://github.com/suno-ai/bark
Bark是由Suno創(chuàng)建的一個(gè)基于轉(zhuǎn)換器的文本到音頻模型。Bark可以生成高度逼真的多語言語音以及其他音頻,包括音樂、背景噪音和簡單的音效。該模型還可以產(chǎn)生非語言交流,如大笑、嘆息和哭泣。為了支持研究社區(qū),我們正在提供對預(yù)先訓(xùn)練的模型檢查點(diǎn)的訪問,以便進(jìn)行推理。

ChatGLM-6B
Github: https://github.com/THUDM/ChatGLM-6B
ChatGLM-6B 是一個(gè)開源的、支持中英雙語的對話語言模型,基于 General Language Model (GLM) 架構(gòu),具有 62 億參數(shù)。結(jié)合模型量化技術(shù),用戶可以在消費(fèi)級的顯卡上進(jìn)行本地部署(INT4 量化級別下最低只需 6GB 顯存)。
ChatGLM-6B 使用了和 ChatGPT 相似的技術(shù),針對中文問答和對話進(jìn)行了優(yōu)化。經(jīng)過約 1T 標(biāo)識(shí)符的中英雙語訓(xùn)練,輔以監(jiān)督微調(diào)、反饋?zhàn)灾⑷祟惙答亸?qiáng)化學(xué)習(xí)等技術(shù)的加持,62 億參數(shù)的 ChatGLM-6B 已經(jīng)能生成相當(dāng)符合人類偏好的回答。
為了方便下游開發(fā)者針對自己的應(yīng)用場景定制模型,我們同時(shí)實(shí)現(xiàn)了基于 P-Tuning v2 的高效參數(shù)微調(diào)方法 (使用指南) ,INT4 量化級別下最低只需 7GB 顯存即刻啟動(dòng)微調(diào)。
不過,由于 ChatGLM-6B 的規(guī)模較小,目前已知其具有相當(dāng)多的局限性,如事實(shí)性/數(shù)學(xué)邏輯錯(cuò)誤,可能生成有害/有偏見內(nèi)容,較弱的上下文能力,自我認(rèn)知混亂,以及對英文指示生成與中文指示完全矛盾的內(nèi)容。請大家在使用前了解這些問題,以免產(chǎn)生誤解。更大的基于 1300 億參數(shù) GLM-130B 的 ChatGLM 正在內(nèi)測開發(fā)中。

ChatGLM-6B Github 主頁

law-cn-ai
官網(wǎng):https://law-cn-ai.vercel.app/
Github: https://github.com/lvwzhen/law-cn-ai
這個(gè)開源項(xiàng)目被稱為你的 AI 法律助手的開源項(xiàng)目,通過分析大量的法律文件,通過你的問題給出答案。
但該開源項(xiàng)目不是完全基于大模型去輸出結(jié)果,而是將法律知識(shí)庫進(jìn)行預(yù)處理,通過向量相似性搜索來去庫中匹配相似性更高的答案,將內(nèi)容輸入到 GPT 中進(jìn)行補(bǔ)全,最終將結(jié)果輸出到客戶端。
如下圖:



gpt4-pdf-chatbot-langchain
Github: https://github.com/mayooear/gpt4-pdf-chatbot-langchain
針對 PDF 文件構(gòu)建的 GPT 機(jī)器人,上傳你的 PDF 文件,使用的技術(shù)堆棧包括 LangChain、Pinecone、Typescript、Openai 和 Next.js。
基于 Open AI 和 LangChain,可以分析 PDF 文檔中的文字和內(nèi)容,通過 embedding API 生成向量,然后存儲(chǔ)到數(shù)據(jù)庫中。
最后做成類似于 ChatGPT 的機(jī)器人,通過機(jī)器人快速的進(jìn)行查詢、輸出答案。


MOSS
官網(wǎng):https://txsun1997.github.io/blogs/moss.html
Github: https://github.com/OpenLMLab/MOSS
國內(nèi)首個(gè)對話式大語言模型開源了!復(fù)旦大學(xué)發(fā)布的大模型 MOSS 正式開源,相關(guān)代碼、數(shù)據(jù)、模型參數(shù)已在 Github 平臺(tái)開放,供科研人員下載。
MOSS是一個(gè)支持中英雙語和多種插件的開源對話語言模型,moss-moon系列模型具有160億參數(shù),在FP16精度下可在單張A100/A800或兩張3090顯卡運(yùn)行,在INT4/8精度下可在單張3090顯卡運(yùn)行。MOSS基座語言模型在約七千億中英文以及代碼單詞上預(yù)訓(xùn)練得到,后續(xù)經(jīng)過對話指令微調(diào)、插件增強(qiáng)學(xué)習(xí)和人類偏好訓(xùn)練具備多輪對話能力及使用多種插件的能力。
局限性:由于模型參數(shù)量較小和自回歸生成范式,MOSS仍然可能生成包含事實(shí)性錯(cuò)誤的誤導(dǎo)性回復(fù)或包含偏見/歧視的有害內(nèi)容,請謹(jǐn)慎鑒別和使用MOSS生成的內(nèi)容,請勿將MOSS生成的有害內(nèi)容傳播至互聯(lián)網(wǎng)。若產(chǎn)生不良后果,由傳播者自負(fù)。


SQL Chat
官網(wǎng): https://sqlchat.ai/
Github: https://github.com/sqlchat/sqlchat
SQL Chat 是一個(gè)基于聊天的 SQL 客戶端,你可以像聊天一樣,問數(shù)據(jù)庫一些問題,讓機(jī)器人幫你查詢一些數(shù)據(jù)



DeepFloyd IF
Github: https://github.com/deep-floyd/IF
這個(gè)開源項(xiàng)目有什么稀奇的?AI 畫圖不是已經(jīng)有很多產(chǎn)品或者開源項(xiàng)目了嗎?還真不是,像我們使用的 Midjourney 等畫圖軟件,是沒辦法生成準(zhǔn)確的文字的。
但是文字是海報(bào)上不可或缺的元素,于是 Stability AI 旗下的獨(dú)立研發(fā)團(tuán)隊(duì) DeepFloyd AI Research 開源了這個(gè)開源項(xiàng)目,這個(gè)項(xiàng)目能準(zhǔn)確繪制文字,但目前不支持中文。
官方介紹了DeepFloyd IF,這是一種新穎的最先進(jìn)的開源文本到圖像模型,具有高度的照片真實(shí)性和語言理解能力。
DeepFloyd IF是一個(gè)由凍結(jié)文本編碼器和三個(gè)級聯(lián)像素?cái)U(kuò)散模塊組成的模塊:一個(gè)基于文本提示生成64x64像素圖像的基本模型和兩個(gè)超分辨率模型,每個(gè)模型都設(shè)計(jì)用于生成分辨率不斷提高的圖像:256x256像素和1024x1024像素。
模型的所有階段都使用基于T5轉(zhuǎn)換器的凍結(jié)文本編碼器來提取文本嵌入,然后將其輸入到通過交叉注意力和注意力池增強(qiáng)的UNet架構(gòu)中。結(jié)果是一個(gè)高效的模型,其性能優(yōu)于當(dāng)前最先進(jìn)的模型,在COCO數(shù)據(jù)集上實(shí)現(xiàn)了6.66的零樣本FID得分。我們的工作強(qiáng)調(diào)了更大的UNet架構(gòu)在級聯(lián)擴(kuò)散模型的第一階段的潛力,并描繪了文本到圖像合成的前景。

最后
一臺(tái)電腦,一個(gè)鍵盤,盡情揮灑智慧的人生;幾行數(shù)字,幾個(gè)字母,認(rèn)真編寫生活的美好;
一 個(gè)靈感,一段程序,推動(dòng)科技進(jìn)步,促進(jìn)社會(huì)發(fā)展。




































