【LLM週報0715~0721】LLama2開源商業可用、ChatGPT退步被證實、MetaAI研究者與眾研究者發表LLM的發展與挑戰

倢愷 Oscar
Jul 21, 2023

因為LLM發展實在太快,等到有整理思考脈絡再發文章會太慢,所以改成以週報的形式來分享一些我認為每週重要的LLM新資訊,每週也不求多,3~5個要點就好。

重大發展

1. Llama 2 推出,70B,GPT3.5能力,開源且商業可用

Meta推出Llama2,提供3種參數量(7B, 13B, 70B),及兩種版本(原ㄅㄢ跟chat版),原版就是做unsupervised language modeling(預測下一個字),而chat版則有經過supervised finetuning跟RLHF(Reinforcement Learning with Human Feedback),以下是幾件你必須要知道的事情。

  • 目前開源第一,閉源還有成長空間:能力比較圖如下,可以當作comparable to chatGPT,因此穩坐現在開源模型第一寶座,但是跟GPT4相比還有進步空間。
Llama 2能力比較圖,取自Llama 2 technical report https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/
  • 開源、商業可用,但是也不是完全開源:Llama 2 走開源路線,weight都可以載下來,也可以提供商業使用,但是仔細看Llama 2,其中有一個條款是當你利用Llama 2打造的產品MAU(Monthly active users)超過7億人時,你就不再擁有使用許可,請重新跟Meta申請。
擷取自Llama 2 License https://github.com/facebookresearch/llama/blob/main/LICENSE

類似的事情其實Meta早在前幾年就對React做過,雖然對大部份公司影響不大,但是這跟官方一直推的"開源"一詞還是有所出入,就是典型的排除掉所有跟他有競爭關係的公司。

  • Llama 2還沒收斂:目前開放的Llama 2都是訓練1個epoch的版本,而過去經驗上大型LLM(像是GPT)大約是4個epoch會收斂,因此目前
    Llama 2是尚未收斂的版本,使用上可以考慮是否要先讓模型收斂。
Llama 2 learning curve from Llama 2 technical report https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/
  • Llama 2還有一些alignment的障礙,實際上可能還比不上chatGPT:有很多人提到Llama 2會「拒絕回復」,至於整個chat的體驗其實比不上chatGPT。
  • 在最新的evaluation上也顯示Llama 2恐怕跟GPT3.5, Bard, Claude等模型有一定差距。
image from paper <FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets> https://arxiv.org/abs/2307.10928
  • LLaMA 2 — Every Resource you need:深入了解Llama2可以參考這篇,我應該不會針對Llama2再寫文章。
  • Llava也緊跟著推出支援Llama 2:Llava是一個增加LLM看懂圖片能力的框架,由Microsoft跟Columbia的研究員推出,是市面上最早可以做到Multimodal LLM的框架之一,而Llava也緊跟著Llama 2的推出提供支援Llama 2。細節可以看Llava的github

2. ChatGPT退步被證實

過去幾個月有超大量的網友不斷在twitter跟openAI forum上提到他們使用的chatGPT變爛了,而這件事也被stanford的學者證實

論文封面 https://arxiv.org/abs/2307.09009
  • 論文中主要檢驗chatGPT的4個能力,解決數學問題、回答敏感問題、程式碼生成、視覺理解而GPT4在其中3個問題呈現巨幅退步
  • 為甚麼會變差?chatGPT會持續基於User的互動進行tuning(可能是SFT也可能是RLHF),而openAI肯定是希望chatGPT能夠越變越好,因此最有可能的問題就是mis-align objective,也就是chatGPT developer觀測的指標跟這篇論文討論的指標不一致。
  • GPT3.5變成內建chain of thought。研究也顯出GPT3.5平均回復長度變長,正確性也大幅度變高,其中可以觀測出GPT3.5現在大多都基於chain of thought的形式回復。
GPT 3.5變得很"多話",並且內建Chain of Thought
  • 論文衡量方法不一定公平,論文中衡量程式碼生成的標準是「是否可以直接運行」,而6月的版本不論是GPT3.5跟GPT4的「直接運行比例都明顯降低」,但是其中可以看出,程式碼「不能直接運行」的原因是「從程式的格式變成markdown格式」,也就是前後加上了```python ```的標示,這其實只是表示出不同的使用場景,不代表能力真的降低。

但是以產品角度,如果推出的服務到一半因為這種小問題而變成都不能運行,依舊是非常嚴重的問題,因此也有大量研究者、工程師要求openAI保持模型穩定。

3. openAI推出custom instruction

openAI推出了custom instruction的功能,提供用戶「指定chatGPT怎麼服務自己」,包含兩個資訊「你希望chatGPT知道的關於你的資訊」、「你希望chatGPT怎麼回復」。

https://openai.com/blog/custom-instructions-for-chatgpt
  • 這其實直覺上很像openAI GPT chat API的system prompt,也就是在初期指定agent要怎麼做,很多人推測就是把system prompt做成GUI而已,但是我個人猜測custom intruction是基於system prompt做instruction tuning優化的版本,加強chatGPT依照system prompt的指示表現
  • 具體做法目前有公開的方法是Llama2的Ghost Attention,可以參考Llama2的Technicle report
  • custom instruction的出現其實更代表openAI看到了一件事,客製化的chatGPT未來一定登場,並且對chatbot類型產品會進行再進一步的顛覆。試想目前chatbot都是不論對象,一視同仁的回答,只要給的prompt給的一樣,不同人都會得到類似的回覆。但是每個人對個人助手的需求是不同的,有些人喜歡AI助手直接精準解決問題,有些人喜歡自己有可控性,這些資訊就像是推薦系統中對每個user的meta data跟各種embedding,未來AI助手也很有機會針對每個人客製化服務模式。

4. OpenAI、Alphabet、Meta等公司聲明要對LLM的生成內容加上Watermark(浮水印)

  • 根據路透社報導OpenAI、Alphabet(Google)、Meta對白宮承諾會藉由對AI生成內容加上浮水印來加強安全性。
  • 文本浮水印的定義:能夠從文本內容偵測出文本是被哪個模型生成出來的。
  • 商業價值,文本浮水印最大的商業價值就是各種內容的版權保護。
  • 社會價值,文本浮水印也讓「偵測是否有特定組織在使用LLM大範圍製造特定立場文本」有幫助,很有可能是當下最迫切的問題之一。
  • 技術上,以往習慣用DetectGPT之類的方法進行偵測文本是否由AI生成,其實邏輯核心都是「AI生成的文本perplexity會比人類寫的文本更低」,因為人類在寫文章時,每個用詞其實都有多個選項,但是AI的模型從data中學出一個更硬性的規律,因此利用AI模型去計算AI生成的文本perplexity可以達到非常低的值。
  • 但是上述方法不一定能分辨不同模型,只能區分人與模型。同時這種類型的方法false positive比率非常高。
  • 浮水印方法(Watermark)目前最值得參考的論文是A Watermark for Large Language Models,邏輯上是讓LLM在decoding(生成token)的時候進行限制,像是限制只能從詞表的某部分選詞,進而讓LLM的輸出在人眼中品質還是一致,但是有某種隱形的模式可以判斷。
  • 目前Watermark方法還沒辦法保證生成品質不被影響,尤其在以事實為主的生成問題上,有可能因為關鍵詞被限制住不能生成,而造成嚴重的影響。

5. 必讀技術論文:Challenges and Applications of Large Language Models

其實這週我最想分享的就是這個XD,由很多個機構的科學家、工程師共同撰寫的針對LLM的困境與應用梳理。

全文50多頁,cite接近700篇論文,同時包含研究、工程跟產品的視角,思考的非常完整,最少我認為目前我看到的主流研究、工程脈絡都可以在這邊中找到。

非常推薦大家閱讀,我後續也會寫文章挑選一些重點的知識出來進行梳理。

其他(也很重要的)發展

這週就提供這5個重要發展跟幾個其他相關發展給各位,後續如果有很重要的事情我會再發新文章補充。

Sign up to discover human stories that deepen your understanding of the world.

Free

Distraction-free reading. No ads.

Organize your knowledge with lists and highlights.

Tell your story. Find your audience.

Membership

Read member-only stories

Support writers you read most

Earn money for your writing

Listen to audio narrations

Read offline with the Medium app

倢愷 Oscar
倢愷 Oscar

Written by 倢愷 Oscar

我是倢愷,CTO at TeraThinker an AI Adaptive Learning System Company。AI/HCI研究者,超過100場的ML、DL演講、workshop經驗。主要學習如何將AI落地於業界。 有家教、演講合作,可以email跟我聯絡:axk51013@gmail.com

No responses yet

Write a response