詳細(xì)信息 |
中國三個(gè)大語言模型數(shù)據(jù)集構(gòu)建 |
編輯: 來源:華泰證券 時(shí)間:2023/5/19 |
類似海外大語言模型,大語言模型的預(yù)訓(xùn)練數(shù) 據(jù)集也主要來自互聯(lián)網(wǎng)抓取數(shù)據(jù)(如 Common Crawl、中文公共社交媒體抓取等)、網(wǎng)絡(luò)百 科全書(如百度百科、搜狗百科)、書籍等等;充分借助已有的G質(zhì)量開源數(shù)據(jù)集,例 如對 Common Crawl 等進(jìn)行二次處理。 百度 Plato-XL 大模型:百度于 2021 年發(fā)布 PLATO-XL,包括中英文 2 個(gè)對話模型,預(yù)訓(xùn) 練語料規(guī)模達(dá)千億J token,模型規(guī)模G達(dá) 110 億參數(shù)。預(yù)訓(xùn)練語料庫分為:1)英語:會話 樣本從 Reddit 評論中提取,這些評論由第三方收集,并在 pushshift.io 上公開發(fā)布,遵循 了 PLATO-2 的精心清洗過程;2)中文:預(yù)訓(xùn)練數(shù)據(jù)來自公共L域的社交媒體,過濾后訓(xùn) 練集中有 1.2 億個(gè)樣本。 華為盤古大模型:華為于 2021 年發(fā)布盤古,是業(yè)界個(gè) 2000 億參數(shù)以中文為核心的預(yù)訓(xùn) 練生成語言模型,目前開源了盤古α和盤古α增強(qiáng)版兩個(gè)版本,并支持 NPU 和 GPU 兩個(gè) 版本,支持豐富的場景應(yīng)用,在知識問答、知識檢索、知識推理、閱讀理解等文本生成L 域表現(xiàn)突出,具備較強(qiáng)的少樣本學(xué)習(xí)的能力。 騰訊 WeLM 大模型:騰訊于 2022 年發(fā)布 WeLM,數(shù)據(jù)來源主要分為三部分:1)Common Crawl:Common Crawl 于 2020.08 至 2022.01 期間的文本內(nèi)容,使用 langdetect 工具過 濾掉非中文的文本;2)特定L域語料庫:混合了來自各種來源的數(shù)據(jù),包括新聞、書籍、 流行在線論壇以及學(xué)術(shù)著作,僅中文數(shù)據(jù)。3)英文數(shù)據(jù):添加了從上述來源收集到的約 750GB 的英語數(shù)據(jù)。數(shù)據(jù)中有大量的噪音如胡言亂語或模板文本、冒犯性語言、占位符文 本和源代碼等,先應(yīng)用一組基于規(guī)則的過濾器,再在剩余的數(shù)據(jù)上手動(dòng)構(gòu)建好壞數(shù)據(jù)分 類器提升數(shù)據(jù)清理泛化能力。
|
【聲明:轉(zhuǎn)載此文出于傳遞更多信息之目的,并不意味著贊同其觀點(diǎn)或證實(shí)其描述,文章內(nèi)容僅供參考,如有侵權(quán),請聯(lián)系刪除。】 |
推薦信息 |
國內(nèi)優(yōu)質(zhì)中文數(shù)據(jù)集的重要來源 垂直內(nèi)容平臺
知乎作為問答知識平臺,擁有超過4300萬創(chuàng)作者產(chǎn)生的超過3.5億條優(yōu)質(zhì)中文問答內(nèi)容;垂類內(nèi)容平臺的數(shù)據(jù)可以作為細(xì)分領(lǐng)域大模 型精確訓(xùn)練的基礎(chǔ)
國內(nèi)科技互聯(lián)網(wǎng)廠商訓(xùn)練大模型基于的數(shù)據(jù)基礎(chǔ)
百度文心大模型訓(xùn)練特有數(shù)據(jù)主要包括萬億級的網(wǎng)頁數(shù)據(jù);阿里通義大模型的訓(xùn)練數(shù)據(jù)主要來自阿里達(dá)摩院;騰訊混元大模型特有的訓(xùn)練數(shù)據(jù)主要來自微信公眾號
國內(nèi)缺乏高質(zhì)量數(shù)據(jù)集的主要原因
高質(zhì)量數(shù)據(jù)集需要巨大資金投入,當(dāng)前國內(nèi)數(shù)據(jù)挖掘和數(shù)據(jù)治理的力度不足;國內(nèi)相關(guān)公司成立較晚,數(shù)據(jù)積累相對國外公司更少
中國AI大模型數(shù)據(jù)集從哪里來
從數(shù)據(jù)來源看,國內(nèi)各行業(yè)數(shù)據(jù)差異化發(fā)展,2021年政府,傳媒,專業(yè)服務(wù),零售等行業(yè)數(shù)據(jù)量占比較高,接近90%的數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù)
語音標(biāo)注質(zhì)量評估算法優(yōu)缺點(diǎn)
WER算法可以分?jǐn)?shù)字,英文,中文等情況分別來看;當(dāng)數(shù)據(jù)量大時(shí),性能會特別差;SER算法對句子的整體性評估要優(yōu),句錯(cuò)誤率較高
文本標(biāo)注質(zhì)量評估算法優(yōu)缺點(diǎn)
ROUGE算法參考標(biāo)注越多待評估數(shù)據(jù)的相關(guān)性就越高;METEOR算法評估時(shí)考慮了同義詞匹配,提高了評估的準(zhǔn)確率;SPICE算法對圖像標(biāo)注進(jìn)行評估
圖像標(biāo)注質(zhì)量評估算法優(yōu)缺點(diǎn)
MV算法簡單易用,常用作其他眾包質(zhì)量控制算法的基準(zhǔn)算法;EM算法可以收斂到局部最大化;RY算法將分類器與 Ground-truth 結(jié)合起來進(jìn)行學(xué)習(xí)
數(shù)據(jù)清洗缺失數(shù)據(jù)的處理方法
數(shù)據(jù)清洗作為數(shù)據(jù)預(yù)處理中至關(guān)重要的環(huán)節(jié),清洗后數(shù)據(jù)的質(zhì)量很大程度上決定了 AI算法的有效性,數(shù)據(jù)可能存在缺失值,噪聲數(shù)據(jù),重復(fù)數(shù)據(jù)等質(zhì)量問題 |
智能運(yùn)輸機(jī)器人 |
AGV無人運(yùn)輸機(jī)器人-料箱版 |
AGV無人運(yùn)輸機(jī)器人-標(biāo)準(zhǔn)版 |
AGV無人運(yùn)輸機(jī)器人-料箱版(鈑金材質(zhì)) |
AGV無人運(yùn)輸機(jī)器人-貨架版(鈑金材質(zhì)) |
AGV無人運(yùn)輸機(jī)器人-貨架版(亮面不銹鋼材質(zhì)) |
AGV無人運(yùn)輸機(jī)器人-開放版 |
行業(yè)動(dòng)態(tài) |
咨詢熱線:4006-935-088 / 4006-937-088
客服熱線:
4008-128-728
版權(quán)所有 @ 創(chuàng)澤智能機(jī)器人集團(tuán)股份有限公司 魯ICP備18039973號-2 運(yùn)營中心 / 北京·清華科技園九號樓 生產(chǎn)中心 / 山東省日照市開發(fā)區(qū)太原路71號 |