羞羞小视频在线观看_羞羞视频免费入口网站_羞羞视频下载APP_男女羞羞视频软件

 
    詳細信息
 

中國多模態(tài)大模型數據集構建

編輯:      來源:華泰證券      時間:2023/5/19
 

網頁抓取、自有數據和開源數據集是多模態(tài)大模型數據集的重要來源:

1)網頁抓取圖文對:例如阿里 M6 大模型、百度 ERNIE-ViLG 大模型都從 網頁中抓取文本-圖片對,然后經過一定過濾,形成終數據集的一部分;

2)自有數據:例 如阿里 M6 大模型有來自電商的圖文數據,百度 ERNIE-ViLG 大模型從內部圖像搜索引擎 中收集查詢文本和對應的用戶點擊圖像;

3)開源數據集:例如百度 ERNIE-ViLG 大模型的 部分圖文對數據來自開源的 CC 和 CC12M,并通過百度翻譯 API 翻譯。

阿里 M6 大模型:于 2021 年發(fā)布,參數規(guī)模達到 1000 億。阿里構建了大的中文多模態(tài) 預訓練數據集 M6-Corpus,包含超過 1.9 TB 圖像和 292GB 文本,涵蓋了百科全書、問答、 論壇討論、產品說明等類型的數據集。研究人員設計了完善的清潔程序:1)文本數據:刪 除 HTML 標記和重復的標點符號,只保留中文和英文的字符和標點符號。刪除短于 5 個字 符的標題和短于 15 個字符的文本內容。使用“內部垃圾郵件檢測器”篩選包含某些政治問 題、色情或臟話等不合適的句子。建立一個語言模型進行評估文本的困惑程度,去掉困惑 程度G的句子;2)圖片數據:只有超過 5000 像素的圖像才有資格被保留用于預訓練。

百度 ERNIE-ViLG 大模型:于 2021 年發(fā)布,參數規(guī)模達到 100 億。百度構建了一個由超 過 1.45 億對G質量中文圖像-文本對組成的大規(guī)模圖像-文本數據集,數據來源如下: 1)中 文網頁。從各種中文網頁中抓取了 8 億對原始的中文替代文字描述和圖片,進行了幾個步 驟的過濾,總共收獲了 7000 萬對文本-圖片,過濾規(guī)則主要包括文本長度、文本內容和圖 像-文本相似度;2)圖片搜索引擎:從內部圖像搜索引擎中收集了大約 6000 萬個查詢文本 和相應的用戶點擊圖像;3)開源圖像-文本數據集:從 CC 和 CC12M 收集了 1500 萬 文本圖像對,這些數據集中的字幕通過百度翻譯 API 翻譯成中文。

InternVideo 大模型:由上海人工智能實驗室等、南大、港大、復旦、中科院深圳先進技術 研究院等于 2022 年發(fā)布,使用了 6 個來自各個L域的開源數據集和自采視頻片段。


 
【聲明:轉載此文出于傳遞更多信息之目的,并不意味著贊同其觀點或證實其描述,文章內容僅供參考,如有侵權,請聯系刪除!
 
推薦信息
中國三個大語言模型數據集構建
百度Plato-XL大模型預訓練語料規(guī)模達千億級 token,模型規(guī)模高達 110 億參數;華為盤古大模型開源了盤古α和盤古α增強版兩個版本
國內優(yōu)質中文數據集的重要來源 垂直內容平臺
知乎作為問答知識平臺,擁有超過4300萬創(chuàng)作者產生的超過3.5億條優(yōu)質中文問答內容;垂類內容平臺的數據可以作為細分領域大模 型精確訓練的基礎
國內科技互聯網廠商訓練大模型基于的數據基礎
百度文心大模型訓練特有數據主要包括萬億級的網頁數據;阿里通義大模型的訓練數據主要來自阿里達摩院;騰訊混元大模型特有的訓練數據主要來自微信公眾號
國內缺乏高質量數據集的主要原因
高質量數據集需要巨大資金投入,當前國內數據挖掘和數據治理的力度不足;國內相關公司成立較晚,數據積累相對國外公司更少
中國AI大模型數據集從哪里來
從數據來源看,國內各行業(yè)數據差異化發(fā)展,2021年政府,傳媒,專業(yè)服務,零售等行業(yè)數據量占比較高,接近90%的數據為非結構化數據
語音標注質量評估算法優(yōu)缺點
WER算法可以分數字,英文,中文等情況分別來看;當數據量大時,性能會特別差;SER算法對句子的整體性評估要優(yōu),句錯誤率較高
文本標注質量評估算法優(yōu)缺點
ROUGE算法參考標注越多待評估數據的相關性就越高;METEOR算法評估時考慮了同義詞匹配,提高了評估的準確率;SPICE算法對圖像標注進行評估
圖像標注質量評估算法優(yōu)缺點
MV算法簡單易用,常用作其他眾包質量控制算法的基準算法;EM算法可以收斂到局部最大化;RY算法將分類器與 Ground-truth 結合起來進行學習
智能運輸機器人
AGV無人運輸機器人-料箱版
AGV無人運輸機器人-標準版
AGV無人運輸機器人-料箱版(鈑金材質)
AGV無人運輸機器人-貨架版(鈑金材質)
AGV無人運輸機器人-貨架版(亮面不銹鋼材質)
AGV無人運輸機器人-開放版
行業(yè)動態(tài)
» AMR企業(yè)未來發(fā)展的建議:加強產學研合作 拓展應用領域與場景 突破關鍵技術
» 智能無人運輸車AMR選型建議:安全性 穩(wěn)定性 兼容性 成本和可維護性
» 物流企業(yè)自動化搬運項目:117臺XPL搬運機器人用于快運件轉運+物料暫存
» 工具制造業(yè)5G智慧工廠:10+臺潛伏AGV+托盤式叉車用于線邊倉轉運
» 輪胎行業(yè)項目:2臺室內平衡重式無人叉車LXP15-B用于半成品、成品自動化出入庫
» 汽車零部件園區(qū)無人化物流項目:室外無人駕駛重載AGV用于車間到車間之間的物流運輸
» 汽車行業(yè)智能搬運項目:30臺XPL搬運機器人用于產線送料和成品轉運
» 汽車新能源產線智慧物流項目-31臺潛伏AGV應用環(huán)汽車總裝車間轉運
» 汽車行業(yè)多品類AGV整合項目:叉車AGV、潛伏牽引AGV、舉升AGV、承載式雙車聯動AGV、功能型A
» 乘用車動力總成車間零部件集配項目-9臺承載輥道式AMR,用于動力總成線邊供給
 
首頁    產品    方案    底盤    參數    關于
咨詢熱線:4006-935-088 / 4006-937-088     客服熱線: 4008-128-728
版權所有 @ 創(chuàng)澤智能機器人集團股份有限公司    魯ICP備18039973號-2    運營中心 / 北京·清華科技園九號樓    生產中心 / 山東省日照市開發(fā)區(qū)太原路71號