詳細(xì)信息 |
中國(guó)開(kāi)源大語(yǔ)言模型數(shù)據(jù)集 WuDaoCorpora數(shù)據(jù)集 |
編輯: 來(lái)源:華泰證券 時(shí)間:2023/5/19 |
WuDaoCorpora 數(shù)據(jù)集:于 2021 年由北京人工智能研究院、清華大學(xué)和循環(huán)智能聯(lián)合發(fā) 布。WuDaoCorpora 是北京智源研究院新構(gòu)建的G質(zhì)量數(shù)據(jù)集,悟道文本數(shù)據(jù)集采用 20 多種規(guī)則從 100TB 原始網(wǎng)頁(yè)數(shù)據(jù)中清洗得出終數(shù)據(jù)集,注重隱私數(shù)據(jù)信息的去除,從源 頭上避免 GPT-3 存在的隱私泄露風(fēng)險(xiǎn);包含教育、科技等 50+個(gè)行業(yè)數(shù)據(jù)標(biāo)簽,可以支持多L域預(yù)訓(xùn)練模型的訓(xùn)練。
|
【聲明:轉(zhuǎn)載此文出于傳遞更多信息之目的,并不意味著贊同其觀點(diǎn)或證實(shí)其描述,文章內(nèi)容僅供參考,如有侵權(quán),請(qǐng)聯(lián)系刪除。】 |
推薦信息 |
中國(guó)開(kāi)源大語(yǔ)言模型數(shù)據(jù)集 DuReader數(shù)據(jù)集
DuReader是一個(gè)大規(guī)模的開(kāi)放域中文機(jī)器閱讀理解數(shù)據(jù)集,問(wèn)題和文檔基于百度搜索和百度知道,答案是手動(dòng)生成的,由200K問(wèn)題,420K答案和1M文檔組成
中國(guó)多模態(tài)大模型數(shù)據(jù)集構(gòu)建
阿里M6大模型參數(shù)規(guī)模達(dá)到 1000 億,構(gòu)建了最大的中文多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)集 M6-Corpus;百度ERNIE-ViLG大模型參數(shù)規(guī)模達(dá)到 100 億
中國(guó)三個(gè)大語(yǔ)言模型數(shù)據(jù)集構(gòu)建
百度Plato-XL大模型預(yù)訓(xùn)練語(yǔ)料規(guī)模達(dá)千億級(jí) token,模型規(guī)模高達(dá) 110 億參數(shù);華為盤(pán)古大模型開(kāi)源了盤(pán)古α和盤(pán)古α增強(qiáng)版兩個(gè)版本
國(guó)內(nèi)優(yōu)質(zhì)中文數(shù)據(jù)集的重要來(lái)源 垂直內(nèi)容平臺(tái)
知乎作為問(wèn)答知識(shí)平臺(tái),擁有超過(guò)4300萬(wàn)創(chuàng)作者產(chǎn)生的超過(guò)3.5億條優(yōu)質(zhì)中文問(wèn)答內(nèi)容;垂類內(nèi)容平臺(tái)的數(shù)據(jù)可以作為細(xì)分領(lǐng)域大模 型精確訓(xùn)練的基礎(chǔ)
國(guó)內(nèi)科技互聯(lián)網(wǎng)廠商訓(xùn)練大模型基于的數(shù)據(jù)基礎(chǔ)
百度文心大模型訓(xùn)練特有數(shù)據(jù)主要包括萬(wàn)億級(jí)的網(wǎng)頁(yè)數(shù)據(jù);阿里通義大模型的訓(xùn)練數(shù)據(jù)主要來(lái)自阿里達(dá)摩院;騰訊混元大模型特有的訓(xùn)練數(shù)據(jù)主要來(lái)自微信公眾號(hào)
國(guó)內(nèi)缺乏高質(zhì)量數(shù)據(jù)集的主要原因
高質(zhì)量數(shù)據(jù)集需要巨大資金投入,當(dāng)前國(guó)內(nèi)數(shù)據(jù)挖掘和數(shù)據(jù)治理的力度不足;國(guó)內(nèi)相關(guān)公司成立較晚,數(shù)據(jù)積累相對(duì)國(guó)外公司更少
中國(guó)AI大模型數(shù)據(jù)集從哪里來(lái)
從數(shù)據(jù)來(lái)源看,國(guó)內(nèi)各行業(yè)數(shù)據(jù)差異化發(fā)展,2021年政府,傳媒,專業(yè)服務(wù),零售等行業(yè)數(shù)據(jù)量占比較高,接近90%的數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù)
語(yǔ)音標(biāo)注質(zhì)量評(píng)估算法優(yōu)缺點(diǎn)
WER算法可以分?jǐn)?shù)字,英文,中文等情況分別來(lái)看;當(dāng)數(shù)據(jù)量大時(shí),性能會(huì)特別差;SER算法對(duì)句子的整體性評(píng)估要優(yōu),句錯(cuò)誤率較高 |
智能運(yùn)輸機(jī)器人 |
AGV無(wú)人運(yùn)輸機(jī)器人-料箱版 |
AGV無(wú)人運(yùn)輸機(jī)器人-標(biāo)準(zhǔn)版 |
AGV無(wú)人運(yùn)輸機(jī)器人-料箱版(鈑金材質(zhì)) |
AGV無(wú)人運(yùn)輸機(jī)器人-貨架版(鈑金材質(zhì)) |
AGV無(wú)人運(yùn)輸機(jī)器人-貨架版(亮面不銹鋼材質(zhì)) |
AGV無(wú)人運(yùn)輸機(jī)器人-開(kāi)放版 |
行業(yè)動(dòng)態(tài) |
咨詢熱線:4006-935-088 / 4006-937-088
客服熱線:
4008-128-728
版權(quán)所有 @ 創(chuàng)澤智能機(jī)器人集團(tuán)股份有限公司 魯ICP備18039973號(hào)-2 運(yùn)營(yíng)中心 / 北京·清華科技園九號(hào)樓 生產(chǎn)中心 / 山東省日照市開(kāi)發(fā)區(qū)太原路71號(hào) |