詳細(xì)信息 |
文本預(yù)訓(xùn)練數(shù)據(jù)集:The Pile是英文數(shù)據(jù)集825GB |
編輯: 來源:哈爾濱工業(yè)大學(xué)自然語言處理研究所 時(shí)間:2023/4/4 |
The Pile[54]是專為預(yù)訓(xùn)練大規(guī)模練語言模型設(shè)計(jì)的英文數(shù)據(jù)集, 數(shù)據(jù)規(guī)模為 825GB,整合了 22 個(gè)來源的數(shù)據(jù),包括:PubMed Central、 ArXiv、GitHub、the FreeLaw Project、Stack Exchange、the US Patent and Trademark Office、PubMed、Ubuntu IRC、HackerNews、YouTube、PhilPapers 和 NIH ExPorter。該數(shù)據(jù)集已被用于訓(xùn)練包括 GPT-J、GPT-NeoX-20B 在 內(nèi)的多種模型。數(shù)據(jù)下載地址為https://pile.eleuther.ai/。
|
【聲明:轉(zhuǎn)載此文出于傳遞更多信息之目的,并不意味著贊同其觀點(diǎn)或證實(shí)其描述,文章內(nèi)容僅供參考,如有侵權(quán),請(qǐng)聯(lián)系刪除。】 |
推薦信息 |
文本預(yù)訓(xùn)練數(shù)據(jù)集:悟道數(shù)據(jù)集3TB中文語料庫
悟道數(shù)據(jù)集3TB中文語料庫是目前最大的中文預(yù)訓(xùn)練數(shù)據(jù)集,數(shù)據(jù)下載地址為https://data.baai.ac.cn/details/WuDaoCorporaText
基于人類反饋的強(qiáng)化學(xué)習(xí)Reinforcement Learning with Human Feed
獎(jiǎng)勵(lì)模型訓(xùn)練階段旨在獲取擬合人類偏好的獎(jiǎng)勵(lì)模型以提示和回復(fù)作為輸入,計(jì)算標(biāo)量獎(jiǎng)勵(lì)值作為輸出,生成策略優(yōu)化階段給定習(xí)得的獎(jiǎng)勵(lì)模型
編碼預(yù)訓(xùn)練語言模型(Encoder-only Pre-trained Models)
BERT BERT模型是經(jīng)典的編碼預(yù)訓(xùn)練語言模型;ALBERT ALBERT是一個(gè)輕量化的BERT模型;RoBERTa在預(yù)訓(xùn)練階段采用了更多的 語料以及動(dòng)態(tài)掩碼機(jī)制
夫妻二人相見甚歡效果如何?ChatGPT示例
前提信息不足以判斷哪個(gè)選擇更合適,相見甚歡并不能夠明確地指出他們的行為選擇,他們必須自行決定自己的行為,每個(gè)人都有自己的價(jià)值觀和標(biāo)準(zhǔn)
我覺得他們兩個(gè)(魯迅和周樹人)是同一個(gè)人?ChatGPT示例
魯迅和周樹人是兩個(gè)不同的人,他們的生平,思想,文學(xué)作品都有明顯的區(qū)別,兩人的名字雖然發(fā)音相同,但是字形不同,這是一個(gè)非常明顯的區(qū)別
魯迅和周樹人是同一個(gè)人嗎? ChatGPT示例
魯迅和周樹人都是20世紀(jì)中國著名的文學(xué)家,但他們是兩個(gè)不同的人,盡管兩位作家的名字中都有周這個(gè)字,但他們的姓名和筆名是不同的是兩個(gè)不同的人
專業(yè)的鎖匠是如何挑鎖的?ChatGPT示例
專業(yè)的鎖匠通常使用一種稱為挑鎖的技術(shù)來打開鎖,這種技術(shù)是在沒有鑰匙的情況下打開鎖的方法,挑鎖需要一定的技巧和經(jīng)驗(yàn),對(duì)不同類型的鎖和鎖芯了解
如果圓周率等于5.3,半徑1厘米的圓的面積是多少?ChatGPT示例
由于圓周率的精確值約為 3.1415926...,而不是 5.3,因此使用圓周率等于5.3 計(jì)算圓的面積將導(dǎo)致錯(cuò)誤的結(jié)果,在實(shí)際計(jì)算中,通常采用適當(dāng)?shù)慕浦祦碛?jì)算圓的面積 |
智能運(yùn)輸機(jī)器人 |
AGV無人運(yùn)輸機(jī)器人-料箱版 |
AGV無人運(yùn)輸機(jī)器人-標(biāo)準(zhǔn)版 |
AGV無人運(yùn)輸機(jī)器人-料箱版(鈑金材質(zhì)) |
AGV無人運(yùn)輸機(jī)器人-貨架版(鈑金材質(zhì)) |
AGV無人運(yùn)輸機(jī)器人-貨架版(亮面不銹鋼材質(zhì)) |
AGV無人運(yùn)輸機(jī)器人-開放版 |
行業(yè)動(dòng)態(tài) |
咨詢熱線:4006-935-088 / 4006-937-088
客服熱線:
4008-128-728
版權(quán)所有 @ 創(chuàng)澤智能機(jī)器人集團(tuán)股份有限公司 魯ICP備18039973號(hào)-2 運(yùn)營中心 / 北京·清華科技園九號(hào)樓 生產(chǎn)中心 / 山東省日照市開發(fā)區(qū)太原路71號(hào) |