7月8日,由上海數據交易所、大數據流通與交易技術國家工程實驗室承辦的“大模型時代下的數據要素流通”主題論壇在上海世博中心舉行。上海數交所總經理湯奇峰作題為“大模型時代下的語料庫”的主旨演講,帶來關于國內語料庫建設挑戰(zhàn)的觀察,并從語料庫質量和開放程度兩個維度給出建設建議。
湯奇峰認為,大模型時代下的語料庫建設存在語料庫供給不足、語料庫質量不高、語料庫多樣性匱乏、語料庫標準欠缺等問題。
“語料庫建設不是單一企業(yè)的責任,需要多方共同推進,如果每個企業(yè)都單獨建設維護語料庫,會拉低效率,也會增加企業(yè)成本,數交所希望通過自己的努力加強數據要素建設提升語料庫建設效率?!睖娣逭f。
(相關資料圖)
當天活動上,上海數交所正式啟動語料數據生態(tài)創(chuàng)新合作伙伴計劃,攜手首批合作伙伴豐富語料庫,推動數據要素市場建設。
關于語料庫建設的挑戰(zhàn),湯奇峰認為,這主要集中于開放程度和數據質量兩方面:能否有大模型企業(yè)所需的高質量語料,目標對象愿不愿意開放數據。他認為,可以根據開放程度強弱和數據質量高低將語料數據生態(tài)機構分出四類供方。
據悉,上海數據交易所語料庫為這四類供方制定差異化工作策略。湯奇峰建議,從政府引導市場主導、豐富種類提高質量、統一標準規(guī)范建設、加強監(jiān)管保障安全、加強監(jiān)管保障安全四個方向建設大模型時代下的語料庫。
湯奇峰說,針對數據質量高但開放程度低的供方,可以通過數據交易鏈有效破解語料數據流通的信任問題,“核心之一在于產權和參與大模型后的收益分配問題”。
此外,上海數據交易所語料庫還將提供特色標簽服務體系、挖掘應用場景價值、驅動稀缺數據開放流通以提高該類供方開放數據積極性。
針對開放程度高但數據質量低的機構,上海數交所語料庫則通過搭建專業(yè)化數商服務渠道提高數據質量。
湯奇峰介紹,上海數交所在建設語料庫時考慮的兩個維度與數交所對企業(yè)數據發(fā)展進程四個階段的觀察密切相關。對于這四個階段,湯奇峰解釋,第一個階段是企業(yè)數據自產自用階段。隨著企業(yè)數據的內部供給有限時,企業(yè)數據需求逐步轉向外部,進入到第二階段,在該階段,大平臺和大企業(yè)通過資本紐帶在體系內部形成數據流通。到了第三個階段,企業(yè)累積的數據將開放給整個行業(yè),產業(yè)內形成標準。第四個階段,數據使用在資產化過程中會產生新的更高階業(yè)態(tài)。
湯奇峰說:“語料庫采購已經在不少大模型企業(yè)成本中占據重要比重,上海數交所希望以市場配置的方式組織數據要素推動語料庫建設?!?/p>
據悉,上海數交所官網已經于7月7日正式上線語料庫,累計掛牌近30個語料數據產品,包含文本、音頻、圖像等多模態(tài),覆蓋金融、交通運輸和醫(yī)療等領域。
(文章來源:上海證券報·中國證券網)
關鍵詞: