詳細(xì)信息 |
AI大模型需要什么樣的數(shù)據(jù)集 |
編輯: 來(lái)源:華泰證券 時(shí)間:2023/5/17 |
人工智能發(fā)展的突破得益于G質(zhì)量數(shù)據(jù)的發(fā)展。例如,大型語(yǔ)言模型的新進(jìn)展依賴于更 G質(zhì)量、更豐富的訓(xùn)練數(shù)據(jù)集:與 GPT-2 相比,GPT-3 對(duì)模型架構(gòu)只進(jìn)行了微小的修改, 但花費(fèi)精力收集更大的G質(zhì)量數(shù)據(jù)集進(jìn)行訓(xùn)練。ChatGPT 與 GPT-3 的模型架構(gòu)類似,并使 用 RLHF(來(lái)自人工反饋過(guò)程的強(qiáng)化學(xué)習(xí))來(lái)生成用于微調(diào)的G質(zhì)量標(biāo)記數(shù)據(jù)。 基于此,人工智能L域的權(quán)威學(xué)者吳承恩發(fā)起了“以數(shù)據(jù)為中心的 AI”運(yùn)動(dòng),即在模型相 對(duì)固定的前提下,通過(guò)提升數(shù)據(jù)的質(zhì)量和數(shù)量來(lái)提升整個(gè)模型的訓(xùn)練效果。提升數(shù)據(jù)集質(zhì) 量的方法主要有:添加數(shù)據(jù)標(biāo)記、清洗和轉(zhuǎn)換數(shù)據(jù)、數(shù)據(jù)縮減、增加數(shù)據(jù)多樣性、持續(xù)監(jiān) 測(cè)和維護(hù)數(shù)據(jù)等。因此,我們認(rèn)為未來(lái)數(shù)據(jù)成本在大模型開(kāi)發(fā)中的成本占比或?qū)⑻嵘,? 要包括數(shù)據(jù)采集,清洗,標(biāo)注等成本。
我們認(rèn)為 AI 大模型需要G質(zhì)量、大規(guī)模、多樣性的數(shù)據(jù)集。 1)G質(zhì)量:G質(zhì)量數(shù)據(jù)集能夠提G模型精度與可解釋性,并且減少收斂到優(yōu)解的時(shí)間, 即減少訓(xùn)練時(shí)長(zhǎng)。 2)大規(guī)模:OpenAI 在《Scaling Laws for Neural Language Models》中提出 LLM 模型所 遵循的“伸縮法則”(scaling law),即d立增加訓(xùn)練數(shù)據(jù)量、模型參數(shù)規(guī);蛘哐娱L(zhǎng)模型訓(xùn) 練時(shí)間,預(yù)訓(xùn)練模型的效果會(huì)越來(lái)越好。 3)豐富性:數(shù)據(jù)豐富性能夠提G模型泛化能力,過(guò)于單一的數(shù)據(jù)會(huì)非常容易讓模型過(guò)于擬 合訓(xùn)練數(shù)據(jù)。
|
【聲明:轉(zhuǎn)載此文出于傳遞更多信息之目的,并不意味著贊同其觀點(diǎn)或證實(shí)其描述,文章內(nèi)容僅供參考,如有侵權(quán),請(qǐng)聯(lián)系刪除! |
推薦信息 |
TidyBot家庭服務(wù)機(jī)器人完成房間整理
機(jī)器人在基準(zhǔn)數(shù)據(jù)集中對(duì)看不見(jiàn)的物體實(shí)現(xiàn) 91.2% 的準(zhǔn)確率,TidyBot的真實(shí)移動(dòng)操作器演示了該方法,該操縱器在真實(shí)世界的測(cè)試場(chǎng)景中成功地收起了85.0%的對(duì)象
AI大模型算法輔助程序員編程 動(dòng)嘴就能編程
AI指導(dǎo)編程服務(wù),包括代碼解釋,找Bug等功能,插件上線僅幾天就有數(shù)萬(wàn)次下載,允許開(kāi)發(fā)人員用自然語(yǔ)言詢問(wèn)如何完成特定的編碼功能
GPT-4接入到Office工具,AI幫做PPT、制表格
Word中AI能秒出草稿,并根據(jù)用戶要求增刪文字信息和配圖;AI將數(shù)據(jù)分析變得輕松高效,能快速提煉出關(guān)鍵趨勢(shì),協(xié)同辦公時(shí),AI能總結(jié)規(guī)劃成員的工作進(jìn)展
AI模型可分為決策式AI與生成式AI
生成式AI指學(xué)習(xí)數(shù)據(jù)中的聯(lián)合概率分布生成了全新的內(nèi)容,也能解決判別問(wèn)題,中國(guó)生成式AI商業(yè)應(yīng)用規(guī)模迎來(lái)快速增長(zhǎng),預(yù)計(jì)2025年破兩千億
ChatGPT革命性的突破之處:通用人工智能
Transformer統(tǒng)一NLP研究范式;完形填空vs文本生成;千億參數(shù)量催生涌現(xiàn)效應(yīng);ChatGPT 橫空出世,技術(shù)路徑再統(tǒng)一,先進(jìn)性得到充分驗(yàn)證
AI顯性化的三個(gè)階段:技術(shù)奇點(diǎn) 產(chǎn)品破圈 大模型生態(tài)
技術(shù)奇點(diǎn)支持圖片內(nèi)容的輸入多模態(tài)識(shí)別能力顯著增強(qiáng);C端產(chǎn)品破圈允許第三方開(kāi)發(fā) ChatGPT Plugin 插件;國(guó)內(nèi)大廠跟進(jìn)大模型生態(tài)起步
文本生成:Transformer架構(gòu)實(shí)現(xiàn)并行處理,提升模型訓(xùn)練效率
Transformer模型通過(guò)采用Self-Attention 自注意力機(jī)制,在垂直方向上傳播,不斷疊加Self-Attention層,每一層的計(jì)算都可以并行進(jìn)行
以ChatGPT為代表的AIGC行業(yè)產(chǎn)業(yè)鏈逐步形成
上游主要包括數(shù)據(jù)供給方,算法/模型機(jī)構(gòu),創(chuàng)作者生態(tài)以及底層配合工具等;中游主要包括文字,圖像,音頻,視頻等數(shù)字內(nèi)容的處理加工方;下游主要是各類數(shù)字內(nèi)容分發(fā)平臺(tái) |
智能運(yùn)輸機(jī)器人 |
AGV無(wú)人運(yùn)輸機(jī)器人-料箱版 |
AGV無(wú)人運(yùn)輸機(jī)器人-標(biāo)準(zhǔn)版 |
AGV無(wú)人運(yùn)輸機(jī)器人-料箱版(鈑金材質(zhì)) |
AGV無(wú)人運(yùn)輸機(jī)器人-貨架版(鈑金材質(zhì)) |
AGV無(wú)人運(yùn)輸機(jī)器人-貨架版(亮面不銹鋼材質(zhì)) |
AGV無(wú)人運(yùn)輸機(jī)器人-開(kāi)放版 |
行業(yè)動(dòng)態(tài) |
咨詢熱線:4006-935-088 / 4006-937-088
客服熱線:
4008-128-728
版權(quán)所有 @ 創(chuàng)澤智能機(jī)器人集團(tuán)股份有限公司 魯ICP備18039973號(hào)-2 運(yùn)營(yíng)中心 / 北京·清華科技園九號(hào)樓 生產(chǎn)中心 / 山東省日照市開(kāi)發(fā)區(qū)太原路71號(hào) |