詳細(xì)信息

GPT-4仍存在幻覺和推理錯(cuò)誤與校準(zhǔn)下降等問題

編輯：來(lái)源：華泰證券時(shí)間：2023/5/10

GPT-4 仍存在“幻覺”和推理錯(cuò)誤�；糜X指的是產(chǎn)生與某些來(lái)源有關(guān)的無(wú)意義或不真實(shí)的內(nèi)容。但是，與 GPT-3.5 模型相比，GPT-4 顯著減少了幻覺，并在內(nèi)部的對(duì)抗性事實(shí)性評(píng) 估中，在所有項(xiàng)的準(zhǔn)確率均分比新的 GPT-3.5 G出 19pct。

與 ChatGPT 類似，GPT-4 寫的訓(xùn)練數(shù)據(jù)均是 2021 年 9 月之前的，因此缺乏對(duì)該日期之后的知識(shí)的掌握，會(huì)犯一些簡(jiǎn)單的推理錯(cuò)誤，接受用戶的明顯錯(cuò)誤陳述，或在在生成的代碼中存在安全漏洞。

RLHF顯著提G了 GPT-4在 TruthfulQA公共基準(zhǔn)測(cè)試上的表現(xiàn)，但程度仍欠佳。TruthfulQA 基準(zhǔn)測(cè)試了模型從對(duì)抗選擇的一組不正確的語(yǔ)句中分離事實(shí)的能力。GPT-4 基本模型在 TruthfulQA基準(zhǔn)上的表現(xiàn)略好于GPT-3.5。經(jīng)過RLHF訓(xùn)練后，GPT-4相比于同樣經(jīng)過RHLF 的 GPT-3.5-turbo 在準(zhǔn)確率上超 10pct。但是，即使經(jīng)過 RLHF 訓(xùn)練，GPT-4 在 TruthfulQA 上的準(zhǔn)確率也只有 60%，未達(dá)到更G水平。

【聲明：轉(zhuǎn)載此文出于傳遞更多信息之目的，并不意味著贊同其觀點(diǎn)或證實(shí)其描述，文章內(nèi)容僅供參考，如有侵權(quán)，請(qǐng)聯(lián)系刪除�！�

推薦信息

訓(xùn)練方法：在 InstructGPT 方法基礎(chǔ)上增加新的獎(jiǎng)勵(lì)模型
利用收集到的人工標(biāo)注演示數(shù)據(jù);使用收集到的排名數(shù)據(jù)來(lái)訓(xùn)練獎(jiǎng)勵(lì)模型,該模型預(yù)測(cè)標(biāo)注員對(duì)給定輸出的平均偏好;使用獎(jiǎng)勵(lì)模型和強(qiáng)化學(xué)習(xí)

GPT-4的一大重點(diǎn)是構(gòu)建大范圍可預(yù)測(cè)的深度學(xué)習(xí)堆棧
大范圍可預(yù)測(cè)的深度學(xué)習(xí)堆棧,能夠通過計(jì)算比 GPT-4 計(jì)算量少1000x-10000x（x 代表倍）的模型性能, 預(yù)測(cè)出“完全體”GPT-4 的性能

文本生成：NLP重要任務(wù)標(biāo)之一神經(jīng)網(wǎng)絡(luò)生成法為主流趨勢(shì)
Transformer架構(gòu)引入Self-attention自注意力機(jī)制可取代RNN,從非語(yǔ)言的表示生成人類可以理解的文本,拋棄了傳統(tǒng)RNN在水平方向的傳播

ChatGPT發(fā)展展望：縱向加深A(yù)I能力橫向拓展能力邊界
hatGPT模型基于RLHF的預(yù)訓(xùn)練機(jī)制將進(jìn)一步提升模型反饋的準(zhǔn)確性和時(shí)效性,證明了AIGC應(yīng)用落地的可行性與先進(jìn)性,或?qū)⒋呱嗟膽?yīng)用需求

ChatGPT基于算力支撐實(shí)現(xiàn)交互革命有不少先進(jìn)性
1 模型訓(xùn)練效率提高;2 訓(xùn)練模式更具通用性,經(jīng)濟(jì)效益增強(qiáng);3 反饋準(zhǔn)確性提升;4 可以拒絕用戶的不適當(dāng)請(qǐng)求;5 能夠承認(rèn)錯(cuò)誤,挑戰(zhàn)不正確的前提

基于RLHF的算法優(yōu)化,助力GPT模型革新
通過獎(jiǎng)勵(lì)模型產(chǎn)生最優(yōu)的輸出結(jié)果后,將該結(jié)果對(duì)模型參數(shù)進(jìn)行迭代與優(yōu)化,到高質(zhì)量的ChatGPT模型,構(gòu)建的Codex模型上引入了推理能力

從AlphaGo到ChatGPT，AI技術(shù)發(fā)展叩響AGI之門
ChatGPT在文字創(chuàng)作與語(yǔ)言交互等方面的能力令人驚喜,一定程度上實(shí)現(xiàn)了人類同等能力,提升讀寫效率,實(shí)現(xiàn)AGI具有可能性,重塑AI發(fā)展前景

商業(yè)智能通過集成 GPT-4 能力增強(qiáng)分析
自動(dòng)將用戶輸入的自然語(yǔ)言轉(zhuǎn)化為查詢 SQL;支持根據(jù)用戶意圖自動(dòng)生成自定義的可視化結(jié)果;結(jié)合可視化的圖表進(jìn)行合理布局自動(dòng)生成可交付使用的書面報(bào)告

智能運(yùn)輸機(jī)器人

AGV無(wú)人運(yùn)輸機(jī)器人-料箱版

AGV無(wú)人運(yùn)輸機(jī)器人-標(biāo)準(zhǔn)版

AGV無(wú)人運(yùn)輸機(jī)器人-料箱版（鈑金材質(zhì)）

AGV無(wú)人運(yùn)輸機(jī)器人-貨架版（鈑金材質(zhì)）

AGV無(wú)人運(yùn)輸機(jī)器人-貨架版（亮面不銹鋼材質(zhì)）

AGV無(wú)人運(yùn)輸機(jī)器人-開放版

行業(yè)動(dòng)態(tài)

» AMR企業(yè)未來(lái)發(fā)展的建議:加強(qiáng)產(chǎn)學(xué)研合作拓展應(yīng)用領(lǐng)域與場(chǎng)景突破關(guān)鍵技術(shù)

» 智能無(wú)人運(yùn)輸車AMR選型建議:安全性穩(wěn)定性兼容性成本和可維護(hù)性

» 物流企業(yè)自動(dòng)化搬運(yùn)項(xiàng)目:117臺(tái)XPL搬運(yùn)機(jī)器人用于快運(yùn)件轉(zhuǎn)運(yùn)+物料暫存

» 工具制造業(yè)5G智慧工廠:10+臺(tái)潛伏AGV+托盤式叉車用于線邊倉(cāng)轉(zhuǎn)運(yùn)