【LLM專欄】All about Lora
先來工商一下,最近筆者把寫作主力慢慢轉往Facebook的粉專,粉專會比Medium提前2~3個月分享各種有用的知識,目前已經討論大量agent、evaluation、RAG、Long context LLM、VLM…等重要知識,推薦有興趣的朋友可以點擊追蹤,每天跟著學習最新的論文、知識。
接著進入正題。
最近10大觀念系列又卡關...,evaluation、RAG、Agent都太多東西實時再更新,實在慚愧...,先來寫一個最近筆者被問很多次的主題,那就是"Lora: Low rank Adaptation"。Lora作為現在LLM最主流的instruction tuning方法,筆者訓練了少說也有100個不一樣的Lora(當然真正能投入到服務中的最終可能只有10個)。
今天筆者就希望用一篇文章,從簡單到深入談清楚Lora,從基礎知識到最新的研究進展,希望不論今天是研究者、相關產業從業者都能更清晰現在相關的技術發展。
這篇文章會用四個部分來詳解Lora
1. Lora 101:什麼是Lora,Lora rank adaptation
2. Lora有什麼好處?
3. Lora 能夠多接近Full finetuning(全參數微調),我們真的可以使用Lora解決所有問題嗎?
4. 2023~2024年有哪些Lora的改進方案
一、Lora 101:什麼是Lora,Lora rank adaptation
要搞清楚Lora的基礎概念,其實不外乎就是吃透原論文[1]中一張圖與一個公式。我們深入淺出,先來講「難」的,Lora 的公式。
Lora的公式講的是一個很簡單的概念,假設我們原本有一個隱藏層(hidden layer),他的公式大概會是 h = Wx,W是這個隱藏層的 weight matrix,而h是輸出。
當我們要訓練這個隱藏層時,我們大多是直接去「改變W」本身,也就是說用 Gradient descent 去更新 W 的值。但這個 W 可能是一個 1000 * 500 這種非常大的矩陣,更新起來對GPU Memory的要求極高(後續會詳談這塊)。
因此 Lora 把 h = Wx 變成了上面等式的第一個等號 h = W_0 * x + ∆W * x(直接看圖比較清楚),讓原本的W變成W_0跟∆W兩個矩陣,W_0代表訓練初期時的初始weight,而∆W代表是我們要「更新」的矩陣,而我們一般希望∆W的參數量要遠遠小於原本的W,因為這樣才有辦法解決我們說的 GPU Memory 的問題。
很多如果有學過線性代數的同學可能馬上就困惑了,h的維度是固定的,x的維度也是固定的,理論上不論是W_0還是∆W的參數量應該都嚴格被侷限住啊?如果參數量變少,那維度不就無法吻合了?
這確實是一個容易犯錯的思考陷阱,關鍵就是,從來沒有人說過∆W要是「一個矩陣」。如果我們把∆W拆成兩個矩陣的相乘,A矩陣與B矩陣,並讓A矩陣跟B矩陣做「降維再重建」的過程,我們就可以大幅減少∆W的參數量。
舉例而言,假設原本W是1000*1000的參數矩陣,我們讓∆W是一個2*1000的A矩陣跟一個1000*2的B矩陣,我們B跟A相乘後就能重建出1000*1000的矩陣,因此參數量就嚴格降低了,只需要原本的0.4%。
而這個「降維再重建」動作,就稱為 Low rank projection(低秩投影)。
這時候我們就能看懂原論文這張圖了,論文中很形象的把降維後重建的過程畫成 Deep Learning 從業者習慣看的Auto-encoder的形式。
把Lora的基礎概念建立清楚,即便前面的敘述內容全部忘記也需要記得三個重要的階段性結論:
- Lora的目的是減低訓練的參數量。
- 藉由把原本的W拆解成W_0跟∆W兩個矩陣,其中W_0是原始的weight,∆W是對這個weight進行更新,我們希望∆W的總參數量要嚴格小於原始W。
- 為了節省參數量,對∆W進行Low rank Projection,變成一個「降維矩陣A」跟一個「重建矩陣B」,藉由讓中間的 rank 極低(<< 1/2 h dim),我們可以節省參數量。
二、Lora有什麼好處?
大部分人對於Lora的理解就停止在上面,但其實忽略了兩個非常大的根本性問題:
- 降低參數量具體到底有什麼好處?
- 降低參數量的方法很多,Lora為什麼突出?
1. 先來講第一個問題,降低參數量具體到底有什麼好處?
筆者其實曾經也很直覺的想,降低參數量空間的需求就變少啊?有甚麼好討論的?但是如果真的認真思考這件事,會發現其實沒有這麼單純。
首先先講 Lora 沒有辦法減少的 GPU Memory 需求:
- Model還是要整個放到 GPU Memory 中,沒有辦法節省。
- 前向傳導(Forward Pass)的各種 State,因為我們還是要算出∆W的Gradient,所以其實沒有辦法節省(如果不存就沒有辦法Back Prop)。
- Batch Data 我們沒有辦法節省,還是都要放入 GPU Memory 中(或是說最少不會因為Lora而節省)。
- 各種運算的暫存,都沒有辦法節省。
聽起來很多東西都不能節省啊,尤其整個模型都要放進去,這往往是LLM大家心中最大的一個問題,動輒就是幾十GB佔在GPU Memory裡面。
而這也確實是如此,所以當我們看 Llama Factory [2] 的 GPU memory 需求分析表時,我們會發現 Lora 所需要的 GPU Memory 一定是超過模型大小的,也就是說 7B LLM,我們需要14GB的空間放模型,那Lora就永遠沒辦法用比14GB更少的空間。
但我們看Llama 2 7B的全參數微調(full-tuning)跟Lora需要的GPU memory,全參數需要38.72 GB的GPU Memory,而Lora只需要16.32 GB的GPU Memory,我們減掉粗估的 14GB 模型大小,就會發現全參數微調實際上在模型以外還需要24GB多的空間,而Lora只需要2GB左右。(同樣token batch)
所以Lora具體節省了什麼空間?為甚麼同樣Batch size以下需要的空間可以少這麼多?
答案:關鍵是 Optimizer state(優化器狀態)
Optimizer 指的就是 Adam、AdamW、SGD、Momentum … 等這些,因為過去學期 Deep Learning我們習慣用SGD來推導所有公式,因此大多數人都很容易忽略不同優化器需要的GPU memory。
舉Adam為例,我們需要儲存Gradient的一階與二階動量,當作我們的優化器狀態(Optimizer state),有這些狀態後我們就可以找出更好的更新方向。但如果每一個優化器狀態(Optimizer state)參數都存,那就是2倍的模型參數的記憶體。
而這些 Optimizer state 只需要紀錄那些 「需要更新的參數」,也就是說以Lora而言,我們只需要∆W的optimizer state,因此我們就可以大幅節省GPU Memory。
所以總結來講就是兩點:
- Optimizer state 在 Adam 這種複雜的 Optimizer 下,其實是隱藏的 GPU memory 殺手,需要的 GPU memory 可能甚至比模型參數本身還要更多
- Lora 因為「需要更新的參數變少了」,所以我們需要紀錄的 Optimizer state 也大幅下降,因此降低 GPU Memory,進而讓我們 batch size 可以開更大...等。
看懂上面這段分析後就會發現兩個直覺的 improve 方向,因為我們已知優化器狀態的空間需求=需要更新的參數量 * 每一個參數需要多少空間儲存優化器狀態。
Lora直接改善第一點(各種 PEFT Parameter efficient finetuning 都是針對第二點)。
而LOMO [3] 改善第二點,使用類似SGD的更新方式,大幅降低每個參數需要的優化器狀態,LOMO具體怎麼做筆者留到未來再說明,但關鍵是作者們發現 LLM 也不需要太多優化器狀態,因為以前Adam那些優化器狀態都是為了穩定訓練用的,但LLM經過超大量的 pretraining,其實finetune的穩定性原本就非常高了,所以我們把優化器狀態丟掉,也不會影響多少。
第二個直覺的改善方法,就是往Lora沒辦法減少的 模型占用的GPU memory下手,典型就是Qlora [12],一樣省略具體細節,但可以理解成,當我們大部分的參數跟前向傳導的各種state(Ex: Activation)只是為了少數的參數更新做準備,這種時候犧牲一點點精度就沒差,所以Qlora把大部分可以量化的東西全部都量化,只保留參數更新那邊的運算是完整精度的,藉此進一步打破GPU Memory 的Lower bound,變成可以比模型大小還小。
2. 接著來講第二個問題,Lora跟其他節省參數量的訓練方法具體有什麼優勢?
這邊筆者要給一個相對不負責任的答案XD,Lora的好處就是4個方向
- 效果好
- 所需空間小
- 使用容易(開源解法多)
- 宣傳好
為甚麼說是不負責任,因為確實在筆者的經驗與閱讀文獻中,沒有文獻給出證明 Lora 100% 比其他方法更好,反而像是IA3就展現出使用更小空間得到更好結果的能力。
但即便從 IA3 提供的比較圖中,我們也可以發現 Lora 確實展現出了很強悍的競爭力,除了 IA3 以外,Lora 在同參數規模勝過所有其他 PEFT (Parameter efficient Finetuning)方法,同時得到的最終效果又很強。而可訓練參數規模從0.1%變成0.01%其實有些時候並沒有非常大的幫助,因為很多時候我們經過 ablation studu 後會發現 token batch 不是越大越好,因此我們也沒必要無止盡的節省可訓練參數。
因此我們可以這樣理解,首先,Lora 確實展現出了好的效果,並且節省了大量的參數,但真正讓 Lora 普及的恐怕是筆者說的3與4點,目前幾乎所有PEFT(Parameter efficient Finetuning)的 package 都一定會包含 Lora,而且大概還是優化的很好的 Lora,因此 Lora 幾乎是最好用的 PEFT 方法。
同時幾乎所有 finetuning 的專案都預設使用了 Lora,不論是各種SFT的模型,還是各種 domain 模型,幾乎開源的 code 都是使用 Lora。
同時,Lora 又在大量場合被大幅宣傳,最最最經典的就是 Azure CTO Mark Russinovich 在介紹 Azure 的 infrastructure 時,就曾講過如果我們要 customized 我們自己的LLM,其實在 Azure 上是使用 Lora 來微調他們提供的大模型,像是 gpt3 系列的finetuning。
綜上所述,筆者確實認為 Lora 的普及,可能並不是基於大量研究者證明他最好、最有效,而是一些其他的因素,像是使用上的方便性跟宣傳的力度(畢竟應該沒有哪一個實驗室可以做到 Microsoft 這種宣傳力度XD)
但 Lora 還是不失是一個好方法,畢竟在很多 benchmark、很多論文中都看出 Lora 的穩定性跟有效性。
三、Lora 能夠多接近 Full finetuning(全參數微調),我們真的可以使用Lora解決所有問題嗎?
前面兩個段落我們分別講了Lora的核心思想,就是減少「更新參數量」訓練,並且提出具體帶來的優點是可以大幅節省優化器狀態(Optimizer state)占用的 GPU Memory,同時也比較了 Lora 跟其他節省參數量的方法(PEFT,Parameter efficient Finetuning)有甚麼優劣?推測了 Lora 現在這麼紅的理由,很可能是一些研究以外的理由XD,但 Lora 仍然是一個好方法。
這段要來討論幾乎所有人最在乎的問題,就是Lora到底能夠多接近Full finetuning(全參數微調),也就是問說「節省了參數後,我們付出多大的代價」。
理想上如果 Lora 可以跟 Full finetuning(全參數微調)在所有任務上表現都一模一樣,那我們就可以把 Lora 當成一個 free lunch,每次要微調時就直接使用 Lora,沒有必要考慮更多的參數量。
但實際上這種理想狀況不符合我們經驗,因為大多時候 Lora 跟 Full finetuning(全參數微調)還是有較為明顯的差距,這種時候去「理解」這種差距就變得尤為關鍵。
要理解這種差距,其實不外乎就是從理論層面或是從經驗層面討論。
雖然已經有很多理論層面討論的很好的論文,像是 <The expressive power of low-rank adaptation> [5] 就從理論層面討論了,各種架構如果使用Lora後,最少最少要設定多少 rank,才能得到一樣的表示能力。但一來理論相關論文很不適合寫在Medium XD(更適合開一個workshop大家一起共用一個白板討論),同時最少在Lora這邊,筆者認為理論層面的分析還是相較落後於經驗層面我們得到的知識。(這邊說的落後是說在實踐層面上落後,但理論的建立對於我們全方面理解一個問題還是很重要,筆者並沒有要貶低理論的意思)
因此這個段落筆者打算列出3篇筆者認為最值得參考的分析 Lora 的論文,讓大家參考,並且詳解其中一篇。
這三篇論文分別是:
1. When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method. [6]
DeepMind出品,用超大量的實驗說明 Lora、Prompt tuning 跟 Full parameter tuning 在各種 setting 的優劣,像是在 Data 不同量級、Model 不同量級、不同的 Pretraining 規模底下,分別的優劣。
這篇論文筆者認為是必讀,甚至要盡量把大多數的實驗結果「背起來」,因為確實是當下最完整的分析論文,但就是因為太完整了,如果我要寫成文章可能要獨立寫一篇,才有可能說清楚,因此今天先跳過這篇。
但最少希望大家知道這篇論文中一個重要的結論:LLM finetuning,幾乎不論哪個方法,放大模型帶來的效果都比加入更多的訓練資料來的更好。(如下圖)
2. LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report. [7]
那目前主流的模型跟訓練資料,分析不同模型經過Lora後的最佳設置應該是什麼?這篇的價值更多在他們提供了很多組已經實驗出的Hyperparameter組合,但論文中較沒有完整分析說這些組合是如何被找出或是具體的實驗細節,所以具體數據。
但其中一個值得參考的是在 Llama 3 出來之前,7B 這個範疇最好進行finetuning 的模型是 Mistral 7B、Zephyr 7B。
不過有 Llama3 8B 之後這個寶座就易主了。
3. Lora learns less and forgets less. [8]
筆者今天想介紹的就是這篇,由 Columbia University 跟 Databricks Mosaic AI 團隊提出,比起前面兩篇的大量實驗,這篇論文更專注解釋一個問題,就是 Lora 的學習效率到底如何。
一個簡單的直覺就是:Lora 因為參數變動的少,所以學的少、忘的也少。
在這個基礎假設下,論文又深度提出了幾個很重要的結論:
1. Lora的學習效率相較於全參數微調較差:在同樣的訓練tokens下,全參數都比 Lora 學到更多新的知識,得到更好的 new domain testing accuracy。且在這篇論文的實驗中,其實 <2B tokens 的時候,Lora 幾乎在 new domain 都沒有學到。
Lora 的遺忘情況相較於全參數微調也較還好,不會遺忘太多:在同樣的訓練tokens 下,全參數都比 Lora ”遺忘”更多原有的知識,維持更好的 old domain testing accuracy。且在這篇論文的實驗中,其實 Lora 幾乎都只有定量的遺忘情況,從 0.25B 到 20B 的訓練 tokens 都沒有嚴重惡化,意思是如果我們能夠容忍這種固定的遺忘情況,我們可以藉由 Lora 來注入更多知識,並且對照前一個實驗來看,2B 以上到 20B 這個範圍是Lora沒有更嚴重的遺忘,但是顯著有學到新的知識。
Lora 學習新知識的天花板較低,但是一樣的學習情況下,Lora 可以遺忘較少:這其實也是前兩個實驗的綜合,只是論文把學習跟遺忘的軸畫成一張二維的圖,可以更清晰看到這個結果。
其他結論推薦去看原論文,或是可以看筆者的粉專XD
不過光是這三點我們就可以確定我們最一開始直覺是正確的,也就是說犧牲了參數後也直接順便犧牲了學習效率。
而學習效率的降低,代表了「同樣data下學習的速度較慢,以及學習的天花板較低」,同時也造成了「遺忘效率較低」。
因此使用 Lora 的一個很核心的關鍵,就是要分析我們當下到底是 GPU memory bound 還是 data bound,假設我們今天使用 10k data 訓練 lora 發現效果差我們目標 5%,這種時候我們有 3 個主要的方向可以考慮
- 切換更大的模型來進行Lora:犧牲inference效率
- 使用更多資料進行訓練:把資源投入在data collection
- 把 Lora 切換成全參數微調(也可以藉由把 rank 調非常大來逼近全參數):犧牲GPU memory。
這三個方向筆者分別把他們主要的缺點都寫出來了,理論上如果是成熟的工程團隊,可以藉由很小規模的實踐畫出 scaling law,並結合商業視角,做出最正確的決策。
因此在筆者心中,使用 Lora 的關鍵並不是「技術上多好」,實際上 Lora 可以調整的東西不多,所以能使用的煉丹技術比較少,使用 Lora 的關鍵是背後精準的經驗式決策,也就是基於小樣本實驗推測未來主要資源投入方向。
這邊還是推薦大家去讀 DeepMind 的 When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method,以及筆者過去的 scaling law 的文章。到了2024年,還不會使用 scaling law 做決策的公司,勢必沒有辦法最有效的利用計算資源。
四、2023~2024年有哪些Lora的改進方案
最後來提一下,過去這一年研究者們提出了哪些知名的Lora改進方案,推薦給各位一些值得嘗試的Lora變體,同時也能加深各位對Lora認識。
這部分筆者把主流方法分為兩個部分:1. 修正 Lora 原有的 bug, limitation 跟 2. 用更多的 Lora 解決問題XD
1. 修正Lora原有的bug, limitation
第一個 Lora 直覺的 limitation 或是 bug 就是「rank太小」,我們正常使用Lora 時習慣使用 rank = 16, 32 這種很小的數字,進而會造成 lora 的表示能力不足。
ReLora [9]提出藉由「定期把 Lora 的∆W結合進去原本的W中」,並且重新建立一個新的 ∆W 來學習新的階段任務,來提升 Lora 的 rank。
也就是說我們會重複性的一直創造出新的 Lora ∆W,藉此我們可以得到遠大於原本 ∆W 的表示能力。
ReLora 的 finetuning 能力其實並沒有很好(甚至可能比Lora差),但是在 language modeling 上的學習效率遠大於 Lora,甚至逼近全參數微調。
而 Mora [10] 則是藉由重新設計Lora讓參數矩陣的rank最大化。
原本降維跟重建的過程是分別做在 A 跟 B Matrix 中,Mora 重新設計這兩個過程,讓降維跟重建不需要使用任何 weight,這樣我們就可以把我們的weight 全部留給中間的 M matrix,用來學習各種我們想要的 Linear function。
可以注意上圖 A+B 的總參數量跟 M 是一樣的,但是 M 可以拿到遠遠大於 A+B 的 rank。
與 Relora相同,Mora 調高 rank 後,直接 finetuning 的效果並不見得有提升,但是在 language model 的效率上大幅上升。
兩篇論文提出相同的結論其實讓筆者有點好奇,是不是目前主流的 finetuning benchmark 都還是很依賴原本 LLM 的能力,所以學習效率低反而是好事。(希望兩篇論文以及未來論文更多的 ablation 這點)
第二個沒有很直覺,但是大多研究者都知道的問題,就是 Lora 的A B matrix的非對稱性(Asymmetry)。
這個非對稱性其實在我們 code 裡面就看的出來了,大多時候我們習慣一個用 zero initialize,另一個使用非零的 initialization。其中一個要用 zero initialize 的目的是讓初始時候B*A的結果=0,因此初始不會影響到模型輸出。
但是不同的 initialization,造就了不同的學習過程,同時研究者也進而發現其他更多的非對稱性(Asymmetry)。
AsyLora [11] 發現 A matrix 幾乎學習不到任務相關的知識,更多保留了 initialization 的資訊,而B matrix則是相反,主要學習了任務資訊,而忘記了 initialization 的資訊。
因此 AsyLora 提出,A只要是某一個隨機的對角矩陣,可以不用訓練 A,只訓練 B,可以保留更好的 Generalizability。(如下圖,Arand的時候代表A就是某一個 random 的 orthogonal matrix ,不訓練A)
而 Lora+ 發現一個更簡單的方法,我們只要調整 A 跟 B 的 learning rate ,讓B學得比A快的多,就可以得到很好的結果。
這些方法都是很典型基於 Lora 原本的 bug 或是 limitation 在進行改進,並且確實得到了某個方面的提升。都是很值得一試的方法。
而使用更多Lora的方法,因為已經有點塞不下這篇了,一樣改天再寫(可能寫在粉專,每個方法單獨列出來講會更好?)
結語
Lora 是 LLM 時代最基礎、最常用的技術之一,但是筆者過去發現很多基於Lora 的討論其實都很流於表面,可能代表業界對於 Lora 的認識還有一定的缺口,因此筆者特別寫這篇文章詳解我看到的 Lora 是怎麼樣的。
推薦讀者最少最少要先把Lora的基礎概念搞清楚(公式與圖),並且進一步理解 Lora 具體為甚麼可以節省 GPU Memory,深度的理解後會發現很多其他連帶的提升方案,其實都不難想出。
同時也推薦讀者建立更全面對於 Lora 與全參數微調的認識,更清晰了解企業內任意一個問題,到底要用 Lora 還是要用全參數,如果 Lora 表現不好有哪些選擇。
公告
鑒於筆者寫這種長篇幅的文章的耗時過久,經過思考後,決定開設一個粉專,放平常的研究筆記、論文筆記,這些筆記可能還沒有完整到可以整理成長篇幅的文章,但肯定也包含筆者對某個研究議題的思考或整理。
目前主要focus方向在LLM training跟agent這兩個大主題,近期會分享筆者過去一年對agent的各種思考、研究與實驗。同時也找了在VLM這塊比較熟悉的同事來協助撰寫相關內容。同時也會分享每天、每週最新的LLM發展。
如果有興趣的朋友,可以把這個粉專當成一個身邊的pair researcher,常常能看到一些最新的research發展與思考,歡迎各位追蹤。
如果只想看長文章的朋友可以等Medium更新即可,只要內容完整到我認為可以變成長文章,我就會開始整理到Medium,但可能有3個月左右的延遲。
Reference
- Hu, Edward J., et al. “Lora: Low-rank adaptation of large language models.” arXiv preprint arXiv:2106.09685 (2021).
- Zheng, Yaowei, et al. “Llamafactory: Unified efficient fine-tuning of 100+ language models.” arXiv preprint arXiv:2403.13372 (2024).
- Lv, Kai, et al. “Full parameter fine-tuning for large language models with limited resources.” arXiv preprint arXiv:2306.09782 (2023).
- Liu, Haokun, et al. “Few-shot parameter-efficient fine-tuning is better and cheaper than in-context learning.” Advances in Neural Information Processing Systems 35 (2022): 1950–1965.
- Zeng, Yuchen, and Kangwook Lee. “The expressive power of low-rank adaptation.” arXiv preprint arXiv:2310.17513 (2023).
- Zhang, Biao, et al. “When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method.” arXiv preprint arXiv:2402.17193 (2024).
- Zhao, Justin, et al. “LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report.” arXiv preprint arXiv:2405.00732 (2024).
- Biderman, Dan, et al. “Lora learns less and forgets less.” arXiv preprint arXiv:2405.09673 (2024).
- Lialin, Vladislav, et al. “ReLoRA: High-Rank Training Through Low-Rank Updates.” Workshop on Advancing Neural Network Training: Computational Efficiency, Scalability, and Resource Optimization (WANT@ NeurIPS 2023). 2023.
- Jiang, Ting, et al. “MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning.” arXiv preprint arXiv:2405.12130 (2024).
- Zhu, Jiacheng, et al. “Asymmetry in Low-Rank Adapters of Foundation Models.” arXiv preprint arXiv:2402.16842 (2024).
- Dettmers, Tim, et al. “Qlora: Efficient finetuning of quantized llms.” Advances in Neural Information Processing Systems 36 (2024).