精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

K2喬戈里,上交大團隊推出一個70億參數的地球科學大語言模型

人工智能 新聞
珠穆朗瑪峰固然高大雄偉,但是喬戈里峰的攀爬難度卻遠超珠穆朗瑪峰,在登山界享有盛名,即使是最簡單的登頂路線也需要穿越地形復雜的冰川,攀緣幾乎垂直的峭壁,經過許多很容易倒塌的冰柱。來自上海交通大學的科研團隊,將第一個地球科學的大模型就被命名為喬戈里峰,就源于此。

地球科學是一門古老的學科,不僅研究巖石、礦物和土地的性質,還探討地球的氣候、海洋、大氣、生態系統等多個方面現象和原理。地學與我們的日常生活息息相關,幫助我們預測天氣,了解地球的演化歷史,維護海洋生態系統平衡和海洋資源均衡等。同時火山活動、地震、恐龍化石、氣象現象等引人入勝的內容,也被一個個地學工作者闡述出來,帶給大家一個又一個令人驚奇和引人入勝的故事。

圖片圖片

圖:地學領域詞云圖;研究各個地學年代的地學論文數量的分布。

總的來說,地球科學是一門理論性、應用性都很強的自然科學。從理論性上來說,它承擔著揭示自然界奧秘與規律的使命。從應用性上來看,它為生活在地球上的人類如何適應、利用、保護自然提供了科學的方法論。但是一味的通過傳統的理論和實踐的方法并不能高效的發現新的地學理論,整合傳統的地球科學和利用計算機科學的處理大數據成了地球科學的新科研范式。

很長一段時間以來,計算機科學已經成為地球科學不可或缺的一部分。地球科學涉及大量的數據,包括文獻數據、地質數據、氣象數據、遙感數據等。計算機科學提供了處理、存儲和分析這些海量圖片、文本和數字等模態的數據的工具和技術。這兩個學科的交叉融合已經成為大勢所趨。

其中,文本數據挖掘是重要的但是最容易被忽視的一個重要組成部分。從大量的文本數據中提取有關地球科學的信息、模式和趨勢,可以加深對地球科學的理解,并為科學研究、決策制定和問題解決提供支持。與此同時,近年大火的語言模型又是文本數據挖掘重要的工具。因此,在這樣的一個屬于大語言模型的時代,推出一個地球科學這個垂直領域的基座語言模型勢在必行。

最近,來自上海交通大學的團隊推出一個 70 億參數的地球科學大語言模型名叫 K2。K2 是基于初代 LLaMA-7B 模型,并使用了 100 萬余篇地球科學文獻以及和地球科學相關的維基百科的文章進行更進一步的預訓練。同時設計了第一個地球科學領域的微調數據集 GeoSignal,包含文章內容、類別、參考文獻、提到的實體等,適用于解決回答地球科學方面的專業問題、完成命名實體提取、地學概念上下位關系判斷等任務。

圖:地球科學領域大語言模型 K2 的構建流程圖。

區別于大多數垂直領域的模型訓練的思路,該團隊通過獨特的數據重構技術生成指令微調的數據,而不僅僅是利用 self-instruct 等方法,利用 ChatGPT 生成的數據來進行指令數據的采集。

同時為了評估模型在地學知識的理解和應用方面的能力,他們還建立了第一個地球科學語言模型的基準 GeoBenchmark,它主要由中國的地理、地質學的考研題目和美國的地理、地質與環境科學的 AP 考試題目組成。有意思的是,ChatGPT 和 GPT4 在地學相關的 AP 考試上的分數并沒有隨著 GPT4 的技術報告一同給出,留給大家十足的想象空間。

在大模型紛爭的時代,大多數垂直領域的大模型訓練都有統一的范式,那就是先進行專業領域語料的預訓練,再進行指令微調。但是大多數的模型在預訓練階段使用的數據并不透明,指令微調的數據更多的是蒸餾 ChatGPT 來抑或進行高價的人工標注。但是 K2 針對地學這一個垂直領域給出了一套技術路線,從計算機角度通過數據的整合和提煉來進行學科交叉的知識工程和模型構建,這是 K2 之于數據挖掘和自然語言領域的貢獻之一。

針對預訓練數據,該團隊基于 Grobid,PyPDF2 和 DeepShovel  (https://deepshovel.deep-time.org/) 等工具開發了一套數據清洗工具包。

DeepShovel:是一款輔助地學科學家進行知識抽取的文獻標注平臺,也陸續推廣至所有的學術領域。目前 DeepShovel 以及輔助超過一百家地球科學的科研單位。

其中,每一篇地學開放獲取(Open Access)的論文都會被轉化成對于計算機來說可讀性極高的 Markdown 格式的文本,有著多級標題的區分、公式和引用的特殊詞元(Special Token)以及圖片和表格的注釋文本也被特殊詞元保存下來。經過一系列的操作,累計獲取了 5.5B 詞元(Tokens)的文本語料。目前他們正在構建更大的學術資源的語料,旨在進行更大規模的學術大模型的訓練。

針對指令微調數據,該團隊通過多個自主研發平臺上的數據融合,通過數據重構,將具備一定結構化的網頁進行了解構,并重組成一套 knowledge-intensive 的數據。在這個過程中,上海交通大學團隊集中團隊內部所有的平臺課題組的力量,進行數據的充分重組,從而構建了一套獨一無二的具有特定地學任務的知識性指令微調數據集。

據論文描述,上海交通大學團隊在過去的 3 年,相應 DDE 大科學計劃(https://deep-time.org/)的號召,完成研發的地學數據和功能平臺共 4 個。

  • Deep literature

    https://ddescholar.acemap.info/ 

    致力于打造地學領域的 DBLP,將所有的地學學術文獻進行整合并依托這個平臺進行一系列的數據挖掘和學者畫像的分析。

  • GAKG

    https://gakg.acemap.info/ 

    致力于打造地學領域的多模態學術知識圖譜,對所有的地學學術文獻進行數據的挖掘,抽取文獻之間的關聯關系、地學知識點之間的上下位等語義關系以及地學文獻內的知識挖掘。對外提供了語義查詢和文本搜索系統,也是 CIKM 歷史上第一篇地球科學相關的科研文章。GAKG 對外也提供了數據下載、語義查詢和文本搜索的平臺。同時,GAKG 的技術工作也發表在 CIKM 上,也是一篇計算機科學領域與地球科學交叉研究的科研文章。

  • GSO

    https://gso.acemap.info/ 

    是利用機器生成人工修正的地學知識樹系統,用上下位關系維護了地學知識點之間的關聯,這給大模型提供了很好的地學知識鏈接預測的監督信號。

  • DataExpo

    https://dataexpo.deep-time.org/

    通過關鍵詞檢索以及文本分類歸納了所有的地學數據集。

這些平臺承載著地學的知識元數據,如果通過人工整合平臺底層的數據邏輯,將可以很快的獲得地學知識之間關聯關系,以及一定的任務驅動的數據集。

基于 DDE Scholar 可以獲得地學相關的科研文獻,并且通過其中 OA 的文獻的下載鏈接,可以下載下來構建預訓練語料,通過 GAKG,可以構建實體抽取的數據集,語義上下位詞的知識判斷的數據集。通過 DeepShovel 一直以來的數據積累,可以構建特定任務的地學問答系統,以及文獻中表格抽取的數據集。通過 DataExpo,可以得到數據集相關的知識文本,也可以一定程度上類似科研文獻一般,提供地學知識的監督信號。

當然,一定程度上的蒸餾 ChatGPT 確實能輔助模型向 ChatGPT 靠攏,因此針對不同的地學領域,K2 還集成了一套基于 Self-instruct 的指令微調數據集,并且在 ChatGPT 生成之后也通過了專業地學同事的審核,進而得到高質量的監督效果。

最后上海交通大學團隊通過人工和機器相結合的方法,對這些指令進行清洗,并最后構成了一套 39k 大小的地學知識性指令微調數據集。在這個數據集中,蒸餾 ChatGPT 的占比并不高,因為在交大團隊看來這類數據僅僅只是 QA 任務的一種監督,并不能很好的泛化到其他更難的任務中。

最后,上海交通大學團隊聘請了專業的地學翻譯專家,將近幾年的地學的考研題進行了翻譯,并結合美國高中的 AP 考試中的地學相關的科目,構建了 GeoBenchmark,與同等大小的模型相比,K2 以較少的數據成本,最終得到了如下結果:

除此之外,該團隊還發現,在微調 K2 的過程中,也是比較有技巧的,如果只利用知識性的指令微調數據,模型并不能達到最好的效果,甚至也只比利用 alpaca 這類開源的和地球科學無關的指令微調數據達到的效果好一些。但是令人激動的是,如果先利用 alpaca 這類指令微調數據進行微調,再利用知識性指令微調數據進行更進一步的訓練,達到的效果則更優秀。

目前尚且不知道這個特性是不是只在地球科學領域存在,因為這種現象類似于,先讓一個小朋友學會說人話,再學會說行話。面對晦澀難懂的學科,多一條這樣的思路,不失為一種方法。

這個現象是否廣泛存在呢,答案是很有可能的,在一次由喬治亞大學的買庚辰教授組織的 GeoAI 的研討會上,來自喬治亞大學和哈佛大學的團隊也在訓練 radiology 領域的生成式模型的過程中也發現了這一現象。充分說明,要想成為專家,要先學會 “做人”。

在整個過程中,K2 的訓練和研發可謂是坎坷曲折,由于領域壁壘較高,因此很難直接獲得專家的標注,如果從需求出發,地學領域的需求也很難直接轉化為計算機領域的任務。最后,這款地學領域的大模型還是從成功地從計算機角度出發訓練完成了,給后續的地學領域的大模型一定的參考意義。

目前看來,在國際社區中,K2 的應用前景非常廣闊。例如,它可以用于自然語言理解、結合 GAKG 進行信息檢索增強的 QA 任務和文本生成等任務。此外,在未來 K2 還可以用于地球科學領域的知識圖譜構建和地球科學文獻的自動化分析等方面。在地學類資訊公司的社交圈子里,已經廣泛討論了該團隊這一令人激動的工作。例如:

1.https://paulhcleverley.com/2023/08/03/worlds-first-geoscience-large-language-model/

2.https://www.linkedin.com/posts/paulhcleverley_geosciences-largelanguagemodels-artificialintelligence-activity-7093001271632101376-jzAc 


經過本文的陳述,計算機賦予地學新的生命,地學賦予計算機新的使命。我們相信,會有越來越多的真正愿意奉獻地學的計算機學科專家投入時間,以及真正愿意沉下心來從地學角度給予支持和耐心的地學專家參與進來,地學的 AI 時代將很快到來。

  • Paper: https://arxiv.org/abs/2306.05064
  • Code: https://github.com/davendw49/k2

關于 DDE 國際大科學計劃

K2 是響應深時數字地球(DDE)國際大科學計劃號召,由計算機領域的科研工作者深入地學領域進行數據采集分析,打開了一條計算機科學與地球科學交叉研究的新思路。DDE 國際大科學計劃是全國唯一一個國際大科學計劃,由中國地質大學王成善院士,中國科學院地理科學與資源研究所周成虎院士等中國地球科學的科學家領導的,致力于建設一個為應對全球科技挑戰、支撐全球或者區域命運共同體提供社會所需知識的國際平臺來實現聚合全球地學大數據,構建數據驅動的地球科學發現的目的。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-02-25 16:14:36

AIMeta語言模型

2025-10-30 09:23:58

2024-02-02 21:42:41

2012-11-01 12:59:04

浪潮清華計算地球科學

2015-05-05 15:42:02

2023-04-21 10:37:40

語言模型

2023-05-26 00:43:08

2024-06-12 11:48:55

2024-09-03 17:43:54

2023-12-13 11:16:34

微軟Phi-2大型語言模型

2023-06-05 10:01:18

模型測評

2015-09-16 15:06:44

2022-07-22 14:49:37

語言模型DeepMindAlphaFold2

2014-05-21 09:38:40

2025-10-28 08:58:00

2023-08-03 19:11:45

2025-07-17 08:14:22

2025-11-19 09:23:44

2021-01-25 13:45:14

模型人工智能深度學習

2024-07-03 12:12:33

訓練模型
點贊
收藏

51CTO技術棧公眾號

亚洲精品视频久久久| 亚洲精品无码国产| 国产一区二区女内射| 综合亚洲视频| 亚洲福利视频久久| 日韩免费高清在线| 在线网址91| 99久久婷婷国产综合精品电影| 国产suv精品一区二区三区88区| 青青青视频在线播放| 综合中文字幕| 精品视频1区2区| 日本一级黄视频| 国产三级电影在线| 国产91色综合久久免费分享| 日韩暖暖在线视频| 麻豆成人在线视频| 五月天婷婷激情| 国产精品国产av| 伊人久久亚洲美女图片| 中文欧美日本在线资源| 成人做爰69片免费| 中韩乱幕日产无线码一区| 亚洲一区二区三区美女| 亚洲欧洲一二三| 日韩一级片免费观看| 日韩电影免费在线| 国外视频精品毛片| 久久久久久国产免费a片| 波多野结衣欧美| 欧美日本在线看| 97国产精东麻豆人妻电影| a视频在线观看免费| 久久久噜噜噜久久中文字幕色伊伊 | 日本欧美国产在线| 久久av高潮av无码av喷吹| 日韩啪啪电影网| 亚洲欧美激情视频| 999精品免费视频| 亚洲不卡在线| 欧美一区午夜精品| 激情综合网俺也去| 午夜伦理福利在线| 亚洲国产精品人人做人人爽| 国产成人免费高清视频| 在线观看免费黄视频| 国产亚洲短视频| 精品一区二区三区视频日产| 亚洲黄色a级片| 国产精品自拍一区| 91免费看国产| 在线观看免费视频a| 老司机精品久久| 日韩av手机在线观看| 日韩欧美大片在线观看| 精品成人免费| 午夜精品一区二区三区av| 波多野结衣亚洲色图| 欧美激情第10页| 欧美区二区三区| 青青草激情视频| 欧美私人啪啪vps| 欧美俄罗斯性视频| 国产亚洲自拍av| 一区二区视频欧美| 97免费在线视频| 国产香蕉视频在线| 亚洲欧美卡通另类91av| 日本精品久久电影| 九九热最新视频| 秋霞av亚洲一区二区三| 国产欧美亚洲视频| 国产美女永久免费| 国产91精品在线观看| 国产美女99p| 青青青草原在线| 欧美激情在线看| 一区二区三区av在线| 成人ww免费完整版在线观看| 一区二区三区加勒比av| 激情五月宗合网| 三级成人黄色影院| 欧美浪妇xxxx高跟鞋交| 国产sm在线观看| 私拍精品福利视频在线一区| 91麻豆精品一二三区在线| 富二代精品短视频| 久草综合在线观看| 天天综合在线观看| 欧美videos大乳护士334| 国产精品无码一区二区三区免费 | 久久综合九色| 成人av色在线观看| 丰满肉嫩西川结衣av| 久久久久一区二区三区四区| 综合一区中文字幕| 色综合亚洲图丝熟| 欧美日韩精品一区二区在线播放| www.色.com| 西野翔中文久久精品国产| www.久久久久久.com| 亚洲精品www久久久久久| 七七婷婷婷婷精品国产| 高清不卡一区二区三区| 久草在线网址| 亚洲精品乱码久久久久久黑人| 精品少妇一区二区三区在线| 日韩福利在线观看| 日韩av在线导航| 日本 欧美 国产| 国产亚洲福利| 91天堂在线观看| 青青草av免费在线观看| 亚洲欧美一区二区三区孕妇| 国产肥臀一区二区福利视频| 日韩一区二区三区色| 亚洲色图校园春色| 91精品国产高潮对白| 久色婷婷小香蕉久久| 精品久久久久久一区二区里番| 日本在线看片免费人成视1000| 亚洲成人你懂的| 91小视频在线播放| 国产一区二区三区四区大秀| 欧美精品福利视频| 国产一区二区小视频| 久久精品这里都是精品| 无码中文字幕色专区| 91国产精品| 中文字幕不卡在线视频极品| 在线观看精品国产| 成人18视频日本| 成人在线免费观看网址| 精品123区| 亚洲精品日韩欧美| 国产一级视频在线观看| 国产一区二区日韩精品| 亚洲乱码一区二区三区| 日韩三级影视| 亚洲欧美国内爽妇网| 免费日韩一级片| hitomi一区二区三区精品| 黄色片免费在线观看视频| 国产精品成人3p一区二区三区| 国产亚洲成av人片在线观看桃| 一级片中文字幕| av中文字幕在线不卡| 人人妻人人做人人爽| 9l视频自拍九色9l视频成人| 久久夜色撩人精品| 国产乱码精品一区二三区蜜臂| 国产精品乱码一区二三区小蝌蚪| 日韩中文字幕免费在线| 激情五月综合| 国产精品日本精品| 免费av在线网址| 宅男在线国产精品| 国产探花在线免费观看| 国产精品主播直播| 韩剧1988免费观看全集| 午夜av中文字幕| 性欧美lx╳lx╳| 国产91ⅴ在线精品免费观看| 四虎成人免费在线| 色网站国产精品| 亚洲自拍偷拍图| 免费在线欧美视频| 中文字幕在线亚洲三区| 台湾天天综合人成在线| 欧美福利视频在线观看| 成人免费视频国产| 精品久久久久久久久久久久| 成年人网站免费在线观看| 久久久一二三| 艳色歌舞团一区二区三区| 精品176极品一区| 久久综合88中文色鬼| 亚洲国产中文字幕在线| 福利一区视频在线观看| 中国美女黄色一级片| 国产综合久久久久久久久久久久| 六月婷婷激情综合| 丝袜连裤袜欧美激情日韩| 国产精品久久久久久久久久| 九色porny丨首页在线| 精品国产99国产精品| 伊人中文字幕在线观看| 国产精品传媒视频| 久久久久久婷婷| 日本欧美在线看| 妞干网这里只有精品| 欧美成人专区| 成人激情视频在线播放| 国产美女高潮在线观看| 这里只有精品在线播放| 精品国产无码AV| 一本色道久久综合亚洲aⅴ蜜桃| 色www亚洲国产阿娇yao| 成人一区二区视频| 中文字幕一区二区三区四区在线视频| 91精品啪在线观看国产81旧版| 国产日本一区二区三区| 欧美成人福利| 欧美孕妇毛茸茸xxxx| 国产精品va在线观看视色 | 永久av免费在线观看| 亚洲精品资源| 日韩第一页在线观看| 亚洲精品亚洲人成在线观看| 成人久久一区二区三区| 桃色av一区二区| 久久精品视频免费播放| 神马电影在线观看| 日韩午夜激情免费电影| 波多野结衣高清视频| 亚洲午夜私人影院| 刘亦菲国产毛片bd| 久久久美女艺术照精彩视频福利播放| 日本r级电影在线观看| 美女在线观看视频一区二区| 国产精品va无码一区二区| 欧美一区亚洲| 一区二区三视频| 国产一区二区亚洲| 精品产品国产在线不卡| 国产精品视频一区视频二区| 国产精品福利无圣光在线一区| 成人国产电影在线观看| 精品中文字幕视频| 麻豆视频在线播放| 自拍偷拍亚洲在线| av在线女优影院| 国产一区二区日韩| 牛牛热在线视频| 日韩国产欧美区| 天天干天天插天天操| 精品剧情在线观看| 精品人妻一区二区三区换脸明星| 欧美日韩精品专区| 亚洲图片欧美在线| 欧美日韩一区小说| 欧美成人一区二区视频| 日本高清不卡aⅴ免费网站| 午夜精品久久久久久久久久久久久蜜桃 | 精品免费国产| 国内精品免费| 国产精品视频免费观看| 亚洲三区欧美一区国产二区| 亚洲影院色在线观看免费| 在线欧美激情| 91久久久久久久久久久久久| 欧美亚洲二区| 亚洲va久久久噜噜噜久久天堂| 日韩一区中文| 亚洲最大成人免费视频| 午夜日韩影院| 国产精品一区二区欧美| 国产精伦一区二区三区| 国产亚洲精品自在久久| 鲁大师精品99久久久| 国产精品久久久久免费| 乱亲女h秽乱长久久久| 久久亚裔精品欧美| 精品午夜久久| 中文字幕人成一区| 欧美1区视频| 人妻av无码专区| 夜夜精品视频| 国产成人av影视| 麻豆精品一区二区| 日本中文字幕在线不卡| caoporm超碰国产精品| 国产ts丝袜人妖系列视频| 久久视频一区二区| 黄色一级片一级片| 亚洲精品视频免费看| 国产网友自拍视频| 色哟哟欧美精品| 91美女精品网站| 精品久久久久久久久久久院品网 | 91九色成人| 99国精产品一二二线| 午夜先锋成人动漫在线| 亚洲v欧美v另类v综合v日韩v| 在线观看免费一区二区| 日日橹狠狠爱欧美超碰| 美国三级日本三级久久99 | 久久久www成人免费毛片麻豆| 欧美一区二区三区粗大| 亚洲一区在线观看免费观看电影高清| 国产精品美女久久久久av爽| 欧美日韩国产中文| 欧美 日韩 国产 在线| 亚洲天堂一区二区三区| 成a人片在线观看| 欧洲亚洲免费视频| 国产精品一区二区精品视频观看| 国产美女精品久久久| 欧美色图激情小说| 女人被男人躁得好爽免费视频| 丝袜亚洲精品中文字幕一区| 中文字幕第10页| 国产亚洲欧美中文| 久久国产精品波多野结衣av| 欧美日韩一区二区三区视频| 亚洲av无码国产精品永久一区 | 亚洲欧美日韩国产一区二区| 在线免费看污网站| www激情久久| 欧美成人精品欧美一级| 欧美性受xxxx| 天天摸夜夜添狠狠添婷婷| 美女视频久久黄| av成人在线播放| 久久精品日产第一区二区三区精品版 | 久99久精品视频免费观看| 久久久午夜精品福利内容| 1区2区3区精品视频| 亚洲欧美另类在线视频| 欧美tickling挠脚心丨vk| 男人的天堂在线视频免费观看| 欧美最近摘花xxxx摘花| 一区二区三区视频播放| 一区二区在线观看网站| 久久成人免费| 日本五十肥熟交尾| 伊人一区二区三区| 在线免费观看av片| 亚洲人成电影网站色www| 国产蜜臀av在线播放| 91中文在线观看| 久久综合成人| 看欧美ab黄色大片视频免费| 91亚洲国产成人精品一区二三| 免费一级肉体全黄毛片| 正在播放亚洲一区| 久操免费在线| 成人美女免费网站视频| 日韩国产一区| 日韩一级理论片| 国产欧美一区二区在线| youjizz在线视频| 日韩高清人体午夜| 天堂av在线| 久久久免费看| 久久成人亚洲| 国产成人av一区二区三区不卡| 天天色综合成人网| 亚洲日本在线播放| 欧美一级淫片播放口| 美女毛片一区二区三区四区最新中文字幕亚洲 | 日韩免费高清一区二区| 一区二区三区在线视频播放| 99er热精品视频| 欧美成人免费全部| 亚洲一区二区三区日本久久九| 337p亚洲精品色噜噜狠狠p| 国产精品99久久久久久似苏梦涵| 免费一级肉体全黄毛片| 亚洲第一网中文字幕| 波多野结衣在线高清| 精品一区国产| 久久综合九色| 五月婷婷综合激情网| 制服丝袜一区二区三区| 麻豆传媒视频在线观看免费| 亚洲精品日产aⅴ| 亚洲精品人人| 亚洲精品午夜视频| 欧美日韩国产精品成人| 2021国产在线| 久久超碰亚洲| 日韩不卡在线观看日韩不卡视频| 色噜噜噜噜噜噜| 欧美一区二区三区免费在线看| 久久不射影院| 久久久久一区二区| 久久91精品国产91久久小草| 精品无码久久久久久久| 日韩久久精品成人| 久久91视频| 久久久久99精品成人片| 久久免费午夜影院| 91在线精品入口| 97精品欧美一区二区三区| 精品理论电影在线| 极品人妻一区二区| 一本大道久久a久久综合婷婷| 在线播放麻豆| 国产亚洲第一区| 奇米精品一区二区三区在线观看一| 国产成人无码aa精品一区| 亚洲欧美日韩在线高清直播| 性欧美video另类hd尤物| 毛片在线播放视频| 国产精品福利一区二区| 手机看片1024国产| 国产在线观看精品| 国产欧美大片| 欧美日韩国产精品综合|