久久久久亚洲精品中文字幕,久久毛,中文字幕人妻无码专区,亚洲久久久免费视频一区二区三区,国产亚洲精品美女在线

您的位置:首頁 >資訊 > 快訊 >

上海數據交易所總經理湯奇峰:構建大模型時代語料庫數據生態(tài) 推動數據要素市場創(chuàng)新

7月8日,由上海數據交易所、大數據流通與交易技術國家工程實驗室承辦的“大模型時代下的數據要素流通”主題論壇在上海世博中心舉行。上海數交所總經理湯奇峰作題為“大模型時代下的語料庫”的主旨演講,帶來關于國內語料庫建設挑戰(zhàn)的觀察,并從語料庫質量和開放程度兩個維度給出建設建議。

湯奇峰認為,大模型時代下的語料庫建設存在語料庫供給不足、語料庫質量不高、語料庫多樣性匱乏、語料庫標準欠缺等問題。

“語料庫建設不是單一企業(yè)的責任,需要多方共同推進,如果每個企業(yè)都單獨建設維護語料庫,會拉低效率,也會增加企業(yè)成本,數交所希望通過自己的努力加強數據要素建設提升語料庫建設效率?!睖娣逭f。


(相關資料圖)

當天活動上,上海數交所正式啟動語料數據生態(tài)創(chuàng)新合作伙伴計劃,攜手首批合作伙伴豐富語料庫,推動數據要素市場建設。

關于語料庫建設的挑戰(zhàn),湯奇峰認為,這主要集中于開放程度和數據質量兩方面:能否有大模型企業(yè)所需的高質量語料,目標對象愿不愿意開放數據。他認為,可以根據開放程度強弱和數據質量高低將語料數據生態(tài)機構分出四類供方。

據悉,上海數據交易所語料庫為這四類供方制定差異化工作策略。湯奇峰建議,從政府引導市場主導、豐富種類提高質量、統一標準規(guī)范建設、加強監(jiān)管保障安全、加強監(jiān)管保障安全四個方向建設大模型時代下的語料庫。

湯奇峰說,針對數據質量高但開放程度低的供方,可以通過數據交易鏈有效破解語料數據流通的信任問題,“核心之一在于產權和參與大模型后的收益分配問題”。

此外,上海數據交易所語料庫還將提供特色標簽服務體系、挖掘應用場景價值、驅動稀缺數據開放流通以提高該類供方開放數據積極性。

針對開放程度高但數據質量低的機構,上海數交所語料庫則通過搭建專業(yè)化數商服務渠道提高數據質量。

湯奇峰介紹,上海數交所在建設語料庫時考慮的兩個維度與數交所對企業(yè)數據發(fā)展進程四個階段的觀察密切相關。對于這四個階段,湯奇峰解釋,第一個階段是企業(yè)數據自產自用階段。隨著企業(yè)數據的內部供給有限時,企業(yè)數據需求逐步轉向外部,進入到第二階段,在該階段,大平臺和大企業(yè)通過資本紐帶在體系內部形成數據流通。到了第三個階段,企業(yè)累積的數據將開放給整個行業(yè),產業(yè)內形成標準。第四個階段,數據使用在資產化過程中會產生新的更高階業(yè)態(tài)。

湯奇峰說:“語料庫采購已經在不少大模型企業(yè)成本中占據重要比重,上海數交所希望以市場配置的方式組織數據要素推動語料庫建設?!?/p>

據悉,上海數交所官網已經于7月7日正式上線語料庫,累計掛牌近30個語料數據產品,包含文本、音頻、圖像等多模態(tài),覆蓋金融、交通運輸和醫(yī)療等領域。

(文章來源:上海證券報·中國證券網)

關鍵詞:

熱門資訊