【LLM週報0715~0721】LLama2開源商業可用、ChatGPT退步被證實、MetaAI研究者與眾研究者發表LLM的發展與挑戰

倢愷 Oscar
Jul 21, 2023

--

因為LLM發展實在太快,等到有整理思考脈絡再發文章會太慢,所以改成以週報的形式來分享一些我認為每週重要的LLM新資訊,每週也不求多,3~5個要點就好。

重大發展

1. Llama 2 推出,70B,GPT3.5能力,開源且商業可用

Meta推出Llama2,提供3種參數量(7B, 13B, 70B),及兩種版本(原ㄅㄢ跟chat版),原版就是做unsupervised language modeling(預測下一個字),而chat版則有經過supervised finetuning跟RLHF(Reinforcement Learning with Human Feedback),以下是幾件你必須要知道的事情。

  • 目前開源第一,閉源還有成長空間:能力比較圖如下,可以當作comparable to chatGPT,因此穩坐現在開源模型第一寶座,但是跟GPT4相比還有進步空間。
Llama 2能力比較圖,取自Llama 2 technical report https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/
  • 開源、商業可用,但是也不是完全開源:Llama 2 走開源路線,weight都可以載下來,也可以提供商業使用,但是仔細看Llama 2,其中有一個條款是當你利用Llama 2打造的產品MAU(Monthly active users)超過7億人時,你就不再擁有使用許可,請重新跟Meta申請。
擷取自Llama 2 License https://github.com/facebookresearch/llama/blob/main/LICENSE

類似的事情其實Meta早在前幾年就對React做過,雖然對大部份公司影響不大,但是這跟官方一直推的"開源"一詞還是有所出入,就是典型的排除掉所有跟他有競爭關係的公司。

  • Llama 2還沒收斂:目前開放的Llama 2都是訓練1個epoch的版本,而過去經驗上大型LLM(像是GPT)大約是4個epoch會收斂,因此目前
    Llama 2是尚未收斂的版本,使用上可以考慮是否要先讓模型收斂。
Llama 2 learning curve from Llama 2 technical report https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/
  • Llama 2還有一些alignment的障礙,實際上可能還比不上chatGPT:有很多人提到Llama 2會「拒絕回復」,至於整個chat的體驗其實比不上chatGPT。
  • 在最新的evaluation上也顯示Llama 2恐怕跟GPT3.5, Bard, Claude等模型有一定差距。
image from paper <FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets> https://arxiv.org/abs/2307.10928
  • LLaMA 2 — Every Resource you need:深入了解Llama2可以參考這篇,我應該不會針對Llama2再寫文章。
  • Llava也緊跟著推出支援Llama 2:Llava是一個增加LLM看懂圖片能力的框架,由Microsoft跟Columbia的研究員推出,是市面上最早可以做到Multimodal LLM的框架之一,而Llava也緊跟著Llama 2的推出提供支援Llama 2。細節可以看Llava的github

2. ChatGPT退步被證實

過去幾個月有超大量的網友不斷在twitter跟openAI forum上提到他們使用的chatGPT變爛了,而這件事也被stanford的學者證實

論文封面 https://arxiv.org/abs/2307.09009
  • 論文中主要檢驗chatGPT的4個能力,解決數學問題、回答敏感問題、程式碼生成、視覺理解而GPT4在其中3個問題呈現巨幅退步
  • 為甚麼會變差?chatGPT會持續基於User的互動進行tuning(可能是SFT也可能是RLHF),而openAI肯定是希望chatGPT能夠越變越好,因此最有可能的問題就是mis-align objective,也就是chatGPT developer觀測的指標跟這篇論文討論的指標不一致。
  • GPT3.5變成內建chain of thought。研究也顯出GPT3.5平均回復長度變長,正確性也大幅度變高,其中可以觀測出GPT3.5現在大多都基於chain of thought的形式回復。
GPT 3.5變得很"多話",並且內建Chain of Thought
  • 論文衡量方法不一定公平,論文中衡量程式碼生成的標準是「是否可以直接運行」,而6月的版本不論是GPT3.5跟GPT4的「直接運行比例都明顯降低」,但是其中可以看出,程式碼「不能直接運行」的原因是「從程式的格式變成markdown格式」,也就是前後加上了```python ```的標示,這其實只是表示出不同的使用場景,不代表能力真的降低。

但是以產品角度,如果推出的服務到一半因為這種小問題而變成都不能運行,依舊是非常嚴重的問題,因此也有大量研究者、工程師要求openAI保持模型穩定。

3. openAI推出custom instruction

openAI推出了custom instruction的功能,提供用戶「指定chatGPT怎麼服務自己」,包含兩個資訊「你希望chatGPT知道的關於你的資訊」、「你希望chatGPT怎麼回復」。

https://openai.com/blog/custom-instructions-for-chatgpt
  • 這其實直覺上很像openAI GPT chat API的system prompt,也就是在初期指定agent要怎麼做,很多人推測就是把system prompt做成GUI而已,但是我個人猜測custom intruction是基於system prompt做instruction tuning優化的版本,加強chatGPT依照system prompt的指示表現
  • 具體做法目前有公開的方法是Llama2的Ghost Attention,可以參考Llama2的Technicle report
  • custom instruction的出現其實更代表openAI看到了一件事,客製化的chatGPT未來一定登場,並且對chatbot類型產品會進行再進一步的顛覆。試想目前chatbot都是不論對象,一視同仁的回答,只要給的prompt給的一樣,不同人都會得到類似的回覆。但是每個人對個人助手的需求是不同的,有些人喜歡AI助手直接精準解決問題,有些人喜歡自己有可控性,這些資訊就像是推薦系統中對每個user的meta data跟各種embedding,未來AI助手也很有機會針對每個人客製化服務模式。

4. OpenAI、Alphabet、Meta等公司聲明要對LLM的生成內容加上Watermark(浮水印)

  • 根據路透社報導OpenAI、Alphabet(Google)、Meta對白宮承諾會藉由對AI生成內容加上浮水印來加強安全性。
  • 文本浮水印的定義:能夠從文本內容偵測出文本是被哪個模型生成出來的。
  • 商業價值,文本浮水印最大的商業價值就是各種內容的版權保護。
  • 社會價值,文本浮水印也讓「偵測是否有特定組織在使用LLM大範圍製造特定立場文本」有幫助,很有可能是當下最迫切的問題之一。
  • 技術上,以往習慣用DetectGPT之類的方法進行偵測文本是否由AI生成,其實邏輯核心都是「AI生成的文本perplexity會比人類寫的文本更低」,因為人類在寫文章時,每個用詞其實都有多個選項,但是AI的模型從data中學出一個更硬性的規律,因此利用AI模型去計算AI生成的文本perplexity可以達到非常低的值。
  • 但是上述方法不一定能分辨不同模型,只能區分人與模型。同時這種類型的方法false positive比率非常高。
  • 浮水印方法(Watermark)目前最值得參考的論文是A Watermark for Large Language Models,邏輯上是讓LLM在decoding(生成token)的時候進行限制,像是限制只能從詞表的某部分選詞,進而讓LLM的輸出在人眼中品質還是一致,但是有某種隱形的模式可以判斷。
  • 目前Watermark方法還沒辦法保證生成品質不被影響,尤其在以事實為主的生成問題上,有可能因為關鍵詞被限制住不能生成,而造成嚴重的影響。

5. 必讀技術論文:Challenges and Applications of Large Language Models

其實這週我最想分享的就是這個XD,由很多個機構的科學家、工程師共同撰寫的針對LLM的困境與應用梳理。

全文50多頁,cite接近700篇論文,同時包含研究、工程跟產品的視角,思考的非常完整,最少我認為目前我看到的主流研究、工程脈絡都可以在這邊中找到。

非常推薦大家閱讀,我後續也會寫文章挑選一些重點的知識出來進行梳理。

其他(也很重要的)發展

這週就提供這5個重要發展跟幾個其他相關發展給各位,後續如果有很重要的事情我會再發新文章補充。

--

--

倢愷 Oscar

我是倢愷,CTO at TeraThinker an AI Adaptive Learning System Company。AI/HCI研究者,超過100場的ML、DL演講、workshop經驗。主要學習如何將AI落地於業界。 有家教、演講合作,可以email跟我聯絡:axk51013@gmail.com