倢愷 Oscar
Jun 4, 2024

這應該分4個層面

1. 語言模型有沒有災難性遺忘?實際上是有的,你可以拉hf上大量的微調模型,除了少數調的好以外,大多數都有很嚴重的災難性遺忘。國內的各種中文版模型也是,

2. 大部分專門做微調模型的公司或團隊,會藉由混大量 General data,同時監控主流的 evaluation 指標(MMLU, GSM8k, ...),來保證"數字上"看起來沒有遺忘,所以如果只看 benchmark 數字很難檢測

3. 使用 lora,如果只為調個幾千筆資料,確實不會出現嚴重的遺忘現象,不過這跟你的 data 品質跟性質也有關,如果 data 大幅偏離正常對話,那就也會出現一定程度的遺忘情況。(因為要學的越多、越複雜)

4. 像是openAI或是Meta, Mistral這種公司,怎麼樣在 SFT 跟 RLHF 的階段調整模型,但是不讓 LLM 能力忘光,這部分筆者確實也沒有足夠深入的研究,但我猜測讓模型 self distill 的話其實本身不會有嚴重的遺忘現象(畢竟都是原本會的能力,只是調整偏好),所以RLHF 如果 offline 更新太多次,模型就會比較差(因為 Behavior 早就變了)

Sign up to discover human stories that deepen your understanding of the world.

Free

Distraction-free reading. No ads.

Organize your knowledge with lists and highlights.

Tell your story. Find your audience.

Membership

Read member-only stories

Support writers you read most

Earn money for your writing

Listen to audio narrations

Read offline with the Medium app

倢愷 Oscar
倢愷 Oscar

Written by 倢愷 Oscar

我是倢愷,CTO at TeraThinker an AI Adaptive Learning System Company。AI/HCI研究者,超過100場的ML、DL演講、workshop經驗。主要學習如何將AI落地於業界。 有家教、演講合作,可以email跟我聯絡:axk51013@gmail.com

Responses (1)

Write a response

謝謝答覆, 這樣看來問題可能蠻嚴重的, 特別是系統性分析有難度

--