亚洲国产精品人人做人人爽,91精品啪在线观看国产91九色,9久久9久久精品

城市金融報手機網(wǎng) APP下載

首頁
圖片新聞
視頻新聞
- 每日熱點
- 行長有話說
財經(jīng)要聞
- 國內
- 國際
- 熱點
- 評論
銀行前沿
- 要聞
- 資訊
- 政策
- 理財
- 觀察
金融·投資
- 股市
- 基金
- 保險
- 期貨
- 理財
- 公司
絲路·金融
- 政策
- 項目
- 商情
- 人文
人文智庫
- 視野
- 洞見
- 熱議
- 文化
陜西金融
- 西安
- 咸陽
- 寶雞
- 渭南
- 銅川
- 榆林
- 延安
- 漢中
- 安康
- 商洛
- 楊凌
- 西咸

首頁

一帶一路 > 專題聚焦

多語言語料庫“萬卷·絲路”發(fā)布，AI賦能共建“一帶一路”

2025-01-10 12:06:05

隨著共建“一帶一路”進入高質量發(fā)展新階段，科技創(chuàng)新與合作將在其中發(fā)揮更關鍵的作用。上海人工智能實驗室（上海AI實驗室）通過研發(fā)先進數(shù)據(jù)智能技術，提供多語言語料庫等舉措，探索以人工智能賦能高質量共建“一帶一路”。

1月9日，上海AI實驗室聯(lián)合大模型語料數(shù)據(jù)聯(lián)盟成員發(fā)布了“萬卷·絲路”多語言預訓練語料庫，為多語言大模型訓練提供高質量數(shù)據(jù)支撐。

“萬卷·絲路”首期開源了包含泰、俄、阿、韓、越等五個語種的語料，總規(guī)模超1.2TB（單語種均超過150GB），Token總數(shù)超過300B，涵蓋使用上述語種國家地區(qū)的生活、百科、文化、新聞等七大領域數(shù)據(jù)。

開源鏈接：<a https:="" opendatalab.com"="" target="_blank" style="box-sizing: border-box; background: 0px 0px; transition: all 0.3s ease-in-out 0s; text-decoration-line: none; color: rgb(58, 90, 122); word-break: break-all;">https://opendatalab.com/applyMultilingualCorpus" target="_blank" style="word-break: break-all;">https://opendatalab.com/applyMultilingualCorpus

海量數(shù)據(jù)+細分領域，適應多樣化研究需求

數(shù)據(jù)是人工智能重要的基礎設施，數(shù)據(jù)質量是決定人工智能應用能力的關鍵因素之一。針對多語言語料庫發(fā)展不平衡、高質量語料短缺的研究現(xiàn)狀，上海AI實驗室開源了“萬卷·絲路”多語言語料庫。作為綜合性文本語料庫，“萬卷·絲路”采集了多個國家地區(qū)的網(wǎng)絡公開信息、文獻、專利等資料，數(shù)據(jù)總規(guī)模超1.2TB，Token總數(shù)超過300B（300 billion），處于國際領先水平。首期開源的語料庫主要由泰語、俄語、阿拉伯語、韓語和越南語5個子集構成，每個子集的數(shù)據(jù)規(guī)模均超過150GB。

基于“書生·浦語”智能標簽分類體系，上海AI實驗室研究團隊將每個語料子集細分為7個大類和32個小類，覆蓋歷史、政治、文化、房產(chǎn)、購物、天氣、餐飲、百科、專業(yè)知識等多類具有語言所在地特征內容，便于研究者根據(jù)具體需求檢索數(shù)據(jù)，并可適應不同研究領域多樣化需求。

“萬卷·絲路”語料庫子集分類（共計7大類、32小類，圖表中僅展示了部分標簽）

專家標注+數(shù)據(jù)智能，兼顧安全與質量

“萬卷·絲路”語料庫通過專家人工標注，確立了包含七個維度的文本數(shù)據(jù)質量評估體系，從完整性、有效性、可理解性、流暢性、相關性、相似性和安全性等方面保障數(shù)據(jù)的高標準與高質量。

通過使用基于大語言模型的數(shù)據(jù)質量評估開源工具——Dingo（https://github.com/DataEval/dingo），研究團隊從多維度對“萬卷·絲路”的數(shù)據(jù)質量進行了全面評估。結果表明，其五個子集均獲得優(yōu)異的綜合評分，顯著優(yōu)于同類語言語料庫。

為充分體現(xiàn)多語言特色、全面提升數(shù)據(jù)質量與適用性，發(fā)揮實驗室領先的數(shù)據(jù)處理能力優(yōu)勢，研究團隊為“萬卷·絲路”設計一套精準化數(shù)據(jù)處理流程：

1.對網(wǎng)頁及非網(wǎng)頁數(shù)據(jù)進行標準化處理，統(tǒng)一數(shù)據(jù)格式，然后運用局部敏感哈希算法高效去重，降低冗余；

2.在安全性處理上，建立域名黑名單篩除不良網(wǎng)頁數(shù)據(jù)，構建多語言特色敏感詞表并結合語境評估，精準過濾有害內容，同時訓練語言安全模型，進行多維度不良內容檢測和篩選；

3.利用主題分類器對數(shù)據(jù)進行分類，優(yōu)化知識域分布；

4.通過PPL初篩快速剔除低質量數(shù)據(jù)，再借助基于BERT的質量分類模型精準篩選高質量內容。

該流程有效融合多語言特點與行業(yè)通識技術，為多語言模型訓練提供了高質量、安全可靠的數(shù)據(jù)基礎。

萬卷·絲路數(shù)據(jù)處理流程

為評估“萬卷·絲路”數(shù)據(jù)集質量，研究團隊使用“萬卷·絲路”數(shù)據(jù)在開源基座上進行繼續(xù)預訓練，實驗結果顯示，使用“萬卷·絲路”后，模型在多語言內容理解及推理能力上的表現(xiàn)均獲得了提升。

中國大模型語料數(shù)據(jù)聯(lián)盟

由上海人工智能實驗室聯(lián)合中央廣播電視總臺、人民網(wǎng)、國家氣象中心、中國科學技術信息研究所、上海報業(yè)集團、上海文廣集團等10家單位聯(lián)合發(fā)起。為應對大模型發(fā)展對高質量、大規(guī)模、安全可信語料數(shù)據(jù)資源的需求，保障大模型科研攻關及相關產(chǎn)業(yè)生態(tài)發(fā)展，大模型語料數(shù)據(jù)聯(lián)盟于2023年7月6日世界人工智能大會開幕式上宣布成立，旨在通過鏈接模型訓練、數(shù)據(jù)供給、學術研究、第三方服務等多方面機構，聯(lián)合打造多知識、多模態(tài)、標準化的高質量語料數(shù)據(jù)，探索形成基于貢獻、可持續(xù)運行的激勵機制，打造國際化、開放型的大模型語料數(shù)據(jù)生態(tài)圈。

來源：上海人工智能實驗室

責任編輯：樊銳祥

掃一掃分享本頁

關注我們