詳細(xì)信息 |
國內(nèi)科技互聯(lián)網(wǎng)廠商訓(xùn)練大模型基于的數(shù)據(jù)基礎(chǔ) |
編輯: 來源:華泰證券 時間:2023/5/19 |
目前國內(nèi)科技互聯(lián)網(wǎng)頭部企業(yè)主要基于公開數(shù)據(jù)及自身特有數(shù)據(jù)差異化訓(xùn)練大模型。具體 而言,百度“文心”大模型訓(xùn)練特有數(shù)據(jù)主要包括萬億J的網(wǎng)頁數(shù)據(jù),數(shù)十億的搜索數(shù)據(jù) 和圖片數(shù)據(jù)等。阿里“通義”大模型的訓(xùn)練數(shù)據(jù)主要來自阿里達(dá)摩院。騰訊“混元”大模 型特有的訓(xùn)練數(shù)據(jù)主要來自微信公眾號,微信搜索等出色數(shù)據(jù)。華為“盤古”大模型的訓(xùn) 練數(shù)據(jù)出公開數(shù)據(jù)外,還有 B 端行業(yè)數(shù)據(jù)加持,包括氣象,礦山,鐵路等行業(yè)數(shù)據(jù)。商湯 “日日新”模型的訓(xùn)練數(shù)據(jù)中包括了自行生成的 Omni Objects 3D 多模態(tài)數(shù)據(jù)集。
|
【聲明:轉(zhuǎn)載此文出于傳遞更多信息之目的,并不意味著贊同其觀點或證實其描述,文章內(nèi)容僅供參考,如有侵權(quán),請聯(lián)系刪除。】 |
推薦信息 |
國內(nèi)缺乏高質(zhì)量數(shù)據(jù)集的主要原因
高質(zhì)量數(shù)據(jù)集需要巨大資金投入,當(dāng)前國內(nèi)數(shù)據(jù)挖掘和數(shù)據(jù)治理的力度不足;國內(nèi)相關(guān)公司成立較晚,數(shù)據(jù)積累相對國外公司更少
中國AI大模型數(shù)據(jù)集從哪里來
從數(shù)據(jù)來源看,國內(nèi)各行業(yè)數(shù)據(jù)差異化發(fā)展,2021年政府,傳媒,專業(yè)服務(wù),零售等行業(yè)數(shù)據(jù)量占比較高,接近90%的數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù)
語音標(biāo)注質(zhì)量評估算法優(yōu)缺點
WER算法可以分?jǐn)?shù)字,英文,中文等情況分別來看;當(dāng)數(shù)據(jù)量大時,性能會特別差;SER算法對句子的整體性評估要優(yōu),句錯誤率較高
文本標(biāo)注質(zhì)量評估算法優(yōu)缺點
ROUGE算法參考標(biāo)注越多待評估數(shù)據(jù)的相關(guān)性就越高;METEOR算法評估時考慮了同義詞匹配,提高了評估的準(zhǔn)確率;SPICE算法對圖像標(biāo)注進行評估
圖像標(biāo)注質(zhì)量評估算法優(yōu)缺點
MV算法簡單易用,常用作其他眾包質(zhì)量控制算法的基準(zhǔn)算法;EM算法可以收斂到局部最大化;RY算法將分類器與 Ground-truth 結(jié)合起來進行學(xué)習(xí)
數(shù)據(jù)清洗缺失數(shù)據(jù)的處理方法
數(shù)據(jù)清洗作為數(shù)據(jù)預(yù)處理中至關(guān)重要的環(huán)節(jié),清洗后數(shù)據(jù)的質(zhì)量很大程度上決定了 AI算法的有效性,數(shù)據(jù)可能存在缺失值,噪聲數(shù)據(jù),重復(fù)數(shù)據(jù)等質(zhì)量問題
數(shù)據(jù)采集三種常見方式
實時的在線分析系統(tǒng)和分布式并發(fā)的離線分析系統(tǒng);通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API方式獲取大數(shù)據(jù)信息;采集的對象包括視頻,圖片,音頻和文本等多種類型
建立數(shù)據(jù)集的流程 數(shù)據(jù)集產(chǎn)生
數(shù)據(jù)清洗,由于采集到的數(shù)據(jù)可能存在缺失值,噪聲數(shù)據(jù),重復(fù)數(shù)據(jù)等質(zhì)量問題; 模型訓(xùn)練人員會利用標(biāo)注好的數(shù)據(jù)訓(xùn)練出需要的算法模型 |
智能運輸機器人 |
AGV無人運輸機器人-料箱版 |
AGV無人運輸機器人-標(biāo)準(zhǔn)版 |
AGV無人運輸機器人-料箱版(鈑金材質(zhì)) |
AGV無人運輸機器人-貨架版(鈑金材質(zhì)) |
AGV無人運輸機器人-貨架版(亮面不銹鋼材質(zhì)) |
AGV無人運輸機器人-開放版 |
行業(yè)動態(tài) |
咨詢熱線:4006-935-088 / 4006-937-088
客服熱線:
4008-128-728
版權(quán)所有 @ 創(chuàng)澤智能機器人集團股份有限公司 魯ICP備18039973號-2 運營中心 / 北京·清華科技園九號樓 生產(chǎn)中心 / 山東省日照市開發(fā)區(qū)太原路71號 |