倢愷 Oscar
Jun 4, 2024

--

這應該分4個層面

1. 語言模型有沒有災難性遺忘?實際上是有的,你可以拉hf上大量的微調模型,除了少數調的好以外,大多數都有很嚴重的災難性遺忘。國內的各種中文版模型也是,

2. 大部分專門做微調模型的公司或團隊,會藉由混大量 General data,同時監控主流的 evaluation 指標(MMLU, GSM8k, ...),來保證"數字上"看起來沒有遺忘,所以如果只看 benchmark 數字很難檢測

3. 使用 lora,如果只為調個幾千筆資料,確實不會出現嚴重的遺忘現象,不過這跟你的 data 品質跟性質也有關,如果 data 大幅偏離正常對話,那就也會出現一定程度的遺忘情況。(因為要學的越多、越複雜)

4. 像是openAI或是Meta, Mistral這種公司,怎麼樣在 SFT 跟 RLHF 的階段調整模型,但是不讓 LLM 能力忘光,這部分筆者確實也沒有足夠深入的研究,但我猜測讓模型 self distill 的話其實本身不會有嚴重的遺忘現象(畢竟都是原本會的能力,只是調整偏好),所以RLHF 如果 offline 更新太多次,模型就會比較差(因為 Behavior 早就變了)

Sign up to discover human stories that deepen your understanding of the world.

Free

Distraction-free reading. No ads.

Organize your knowledge with lists and highlights.

Tell your story. Find your audience.

Membership

Read member-only stories

Support writers you read most

Earn money for your writing

Listen to audio narrations

Read offline with the Medium app

--

--

倢愷 Oscar
倢愷 Oscar

Written by 倢愷 Oscar

我是倢愷,CTO at TeraThinker an AI Adaptive Learning System Company。AI/HCI研究者,超過100場的ML、DL演講、workshop經驗。主要學習如何將AI落地於業界。 有家教、演講合作,可以email跟我聯絡:axk51013@gmail.com

Responses (1)

Write a response