【LLM週報0715~0721】LLama2開源商業可用、ChatGPT退步被證實、MetaAI研究者與眾研究者發表LLM的發展與挑戰

Jul 21, 2023

因為LLM發展實在太快，等到有整理思考脈絡再發文章會太慢，所以改成以週報的形式來分享一些我認為每週重要的LLM新資訊，每週也不求多，3~5個要點就好。

重大發展

1. Llama 2 推出，70B，GPT3.5能力，開源且商業可用

Meta推出Llama2，提供3種參數量（7B, 13B, 70B），及兩種版本（原ㄅㄢ跟chat版），原版就是做unsupervised language modeling（預測下一個字），而chat版則有經過supervised finetuning跟RLHF（Reinforcement Learning with Human Feedback），以下是幾件你必須要知道的事情。

目前開源第一，閉源還有成長空間：能力比較圖如下，可以當作comparable to chatGPT，因此穩坐現在開源模型第一寶座，但是跟GPT4相比還有進步空間。

Llama 2能力比較圖，取自Llama 2 technical report https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

開源、商業可用，但是也不是完全開源：Llama 2 走開源路線，weight都可以載下來，也可以提供商業使用，但是仔細看Llama 2，其中有一個條款是當你利用Llama 2打造的產品MAU（Monthly active users）超過7億人時，你就不再擁有使用許可，請重新跟Meta申請。

擷取自Llama 2 License https://github.com/facebookresearch/llama/blob/main/LICENSE

類似的事情其實Meta早在前幾年就對React做過，雖然對大部份公司影響不大，但是這跟官方一直推的"開源"一詞還是有所出入，就是典型的排除掉所有跟他有競爭關係的公司。

Llama 2還沒收斂：目前開放的Llama 2都是訓練1個epoch的版本，而過去經驗上大型LLM（像是GPT）大約是4個epoch會收斂，因此目前
Llama 2是尚未收斂的版本，使用上可以考慮是否要先讓模型收斂。

Llama 2 learning curve from Llama 2 technical report https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

Llama 2還有一些alignment的障礙，實際上可能還比不上chatGPT：有很多人提到Llama 2會「拒絕回復」，至於整個chat的體驗其實比不上chatGPT。

在最新的evaluation上也顯示Llama 2恐怕跟GPT3.5, Bard, Claude等模型有一定差距。

image from paper <FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets> https://arxiv.org/abs/2307.10928

LLaMA 2 — Every Resource you need：深入了解Llama2可以參考這篇，我應該不會針對Llama2再寫文章。
Llava也緊跟著推出支援Llama 2：Llava是一個增加LLM看懂圖片能力的框架，由Microsoft跟Columbia的研究員推出，是市面上最早可以做到Multimodal LLM的框架之一，而Llava也緊跟著Llama 2的推出提供支援Llama 2。細節可以看Llava的github。

2. ChatGPT退步被證實

過去幾個月有超大量的網友不斷在twitter跟openAI forum上提到他們使用的chatGPT變爛了，而這件事也被stanford的學者證實。

論文中主要檢驗chatGPT的4個能力，解決數學問題、回答敏感問題、程式碼生成、視覺理解。而GPT4在其中3個問題呈現巨幅退步。

為甚麼會變差？chatGPT會持續基於User的互動進行tuning（可能是SFT也可能是RLHF），而openAI肯定是希望chatGPT能夠越變越好，因此最有可能的問題就是mis-align objective，也就是chatGPT developer觀測的指標跟這篇論文討論的指標不一致。
GPT3.5變成內建chain of thought。研究也顯出GPT3.5平均回復長度變長，正確性也大幅度變高，其中可以觀測出GPT3.5現在大多都基於chain of thought的形式回復。

論文衡量方法不一定公平，論文中衡量程式碼生成的標準是「是否可以直接運行」，而6月的版本不論是GPT3.5跟GPT4的「直接運行比例都明顯降低」，但是其中可以看出，程式碼「不能直接運行」的原因是「從程式的格式變成markdown格式」，也就是前後加上了```python ```的標示，這其實只是表示出不同的使用場景，不代表能力真的降低。

但是以產品角度，如果推出的服務到一半因為這種小問題而變成都不能運行，依舊是非常嚴重的問題，因此也有大量研究者、工程師要求openAI保持模型穩定。

3. openAI推出custom instruction

openAI推出了custom instruction的功能，提供用戶「指定chatGPT怎麼服務自己」，包含兩個資訊「你希望chatGPT知道的關於你的資訊」、「你希望chatGPT怎麼回復」。

https://openai.com/blog/custom-instructions-for-chatgpt

這其實直覺上很像openAI GPT chat API的system prompt，也就是在初期指定agent要怎麼做，很多人推測就是把system prompt做成GUI而已，但是我個人猜測custom intruction是基於system prompt做instruction tuning優化的版本，加強chatGPT依照system prompt的指示表現。
具體做法目前有公開的方法是Llama2的Ghost Attention，可以參考Llama2的Technicle report。

custom instruction的出現其實更代表openAI看到了一件事，客製化的chatGPT未來一定登場，並且對chatbot類型產品會進行再進一步的顛覆。試想目前chatbot都是不論對象，一視同仁的回答，只要給的prompt給的一樣，不同人都會得到類似的回覆。但是每個人對個人助手的需求是不同的，有些人喜歡AI助手直接精準解決問題，有些人喜歡自己有可控性，這些資訊就像是推薦系統中對每個user的meta data跟各種embedding，未來AI助手也很有機會針對每個人客製化服務模式。

4. OpenAI、Alphabet、Meta等公司聲明要對LLM的生成內容加上Watermark（浮水印）

根據路透社報導OpenAI、Alphabet（Google）、Meta對白宮承諾會藉由對AI生成內容加上浮水印來加強安全性。
文本浮水印的定義：能夠從文本內容偵測出文本是被哪個模型生成出來的。
商業價值，文本浮水印最大的商業價值就是各種內容的版權保護。
社會價值，文本浮水印也讓「偵測是否有特定組織在使用LLM大範圍製造特定立場文本」有幫助，很有可能是當下最迫切的問題之一。
技術上，以往習慣用DetectGPT之類的方法進行偵測文本是否由AI生成，其實邏輯核心都是「AI生成的文本perplexity會比人類寫的文本更低」，因為人類在寫文章時，每個用詞其實都有多個選項，但是AI的模型從data中學出一個更硬性的規律，因此利用AI模型去計算AI生成的文本perplexity可以達到非常低的值。
但是上述方法不一定能分辨不同模型，只能區分人與模型。同時這種類型的方法false positive比率非常高。
浮水印方法（Watermark）目前最值得參考的論文是A Watermark for Large Language Models，邏輯上是讓LLM在decoding（生成token）的時候進行限制，像是限制只能從詞表的某部分選詞，進而讓LLM的輸出在人眼中品質還是一致，但是有某種隱形的模式可以判斷。
目前Watermark方法還沒辦法保證生成品質不被影響，尤其在以事實為主的生成問題上，有可能因為關鍵詞被限制住不能生成，而造成嚴重的影響。

5. 必讀技術論文：Challenges and Applications of Large Language Models

其實這週我最想分享的就是這個XD，由很多個機構的科學家、工程師共同撰寫的針對LLM的困境與應用梳理。

全文50多頁，cite接近700篇論文，同時包含研究、工程跟產品的視角，思考的非常完整，最少我認為目前我看到的主流研究、工程脈絡都可以在這邊中找到。

非常推薦大家閱讀，我後續也會寫文章挑選一些重點的知識出來進行梳理。

其他（也很重要的）發展

Flash Attention 2.0：加速attention 2~4倍
FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets：對既有LLM evaluation分析每個evaluation分別考驗哪種能力，並綜觀評估各個模型的強項。
Towards A Unified Agent with Foundation Models：利用language來當作RL agent內部的理解單元，並拓展一系列RL問題。

這週就提供這5個重要發展跟幾個其他相關發展給各位，後續如果有很重要的事情我會再發新文章補充。