(資料圖片僅供參考)
每經AI快訊,有投資者在投資者互動平臺提問:請問中文語料和貴公司的AI訓練數(shù)據(jù)集是一種東西嗎? 如果不是的話,可以給我們科普下中文語料和訓練數(shù)據(jù)分別是什么?分別用在訓練大模型的那個階段?
海天瑞聲(688787.SH)4月3日在投資者互動平臺表示,按照我們理解,您提到的“中文語料”可能指的是大模型預訓練階段使用的未經標注的原始中文文本數(shù)據(jù),大模型通過對大量的原始文本數(shù)據(jù)的學習來完成預訓練階段的基礎能力訓練,該類數(shù)據(jù)服務本就是公司業(yè)務類型范疇內的一種;此外,公司現(xiàn)階段更主要的業(yè)務內容是進行更高質量、更具規(guī)?;挠柧殧?shù)據(jù)生產,即在前述原始數(shù)據(jù)基礎上進行一系列的工程化、結構化人類加工反饋(包括但不限于清洗、標注等),使其成為更高濃度、更容易被算法理解的結構化訓練數(shù)據(jù),廣義上的訓練數(shù)據(jù)可應用于大模型訓練的各類環(huán)節(jié),尤其是在對于大模型更為重要的強化學習以及垂向拓展等環(huán)節(jié)。 未來,公司也將緊密跟隨大模型等新技術的發(fā)展,及時更新公司數(shù)據(jù)服務能力、及相關業(yè)務形態(tài),更好助力相關領域客戶的發(fā)展。
(文章來源:每日經濟新聞)
關鍵詞: