Meta公司致力於開放科學,為了協助研究人員在人工智慧領域的子領域有更進一步的研究,今天Meta公開發布了LLaMA(Large Language Model Meta AI),這是一個最先進的基礎大型語言模型。像LLaMA這樣的小型、高效模型能夠使研究社區中沒有大量基礎設施的人研究這些模型,進一步推動這個重要且快速變化的領域的民主化進程。
在大型語言模型領域中,訓練像LLaMA這樣的基礎模型是可取的,因為它需要更少的計算能力和資源來測試新的方法、驗證他人的工作以及探索新的用例。基礎模型在大量未標記的數據上進行訓練,這使它們非常適合進行各種任務的微調。Meta提供了幾種不同尺寸的LLaMA(7B、13B、33B和65B參數),並分享了LLaMA模型卡,詳細介紹了Meta如何建構這個模型,這符合Meta負責任的AI實踐方法。
在過去的一年裡,被稱為大型語言模型的自然語言處理 (NLP) 系統已經顯示出新的能力來執行諸如生成創意文本、解決數學問題、預測蛋白質結構和回答閱讀理解問題等任務。 這些模型具有數十億個參數,在大規模使用時具有造福數十億人的巨大潛力。
儘管大型語言模型最近取得了進展,但由於訓練和運行這些模型需要大量資源,研究人員對它們的訪問有限。 這種有限的訪問權限阻礙了研究人員理解這些模型如何以及為何起作用的能力,從而難以提高它們的穩健性和解決諸如偏見、毒性和錯誤信息的產生等問題。
為了緩解這個問題,研究人員正在轉向更小的模型,這些模型在更多的單詞片段or標記上進行訓練。 這些較小的模型可以更容易地針對特定產品用例進行再培訓和微調。 例如,LLaMA 65B 和 LLaMA 33B 模型已經在 1.4 萬億個令牌上進行了訓練,而最小的模型 LLaMA 7B 已經在 1 萬億個令牌上進行了訓練。 通過使用這些較小的模型,研究人員可以提高他們對大型語言模型工作原理的理解,並致力於創建更強大且不易出現偏見和毒性等問題的模型。
與其他大型語言模型一樣,LLaMA 的運作方式是將一系列單詞作為輸入,然後預測下一個單詞以遞歸地生成文本。 在Meta訓練模型的過程中,Meta從 20 種最常用的語言中選擇了文本,重點是那些使用拉丁字母和西里爾字母的語言。
儘管像 LLaMA 這樣的大型語言模型取得了重大進步,但仍需要做更多的研究來解決偏見、有毒評論和幻覺的風險。 這些挑戰並非 LLaMA 所獨有,它們也會影響其他模型。 作為一個基礎模型,LLaMA 被設計為具有適應性,可以應用於許多不同的用例,而不是為特定任務量身定制的微調模型。
通過共享 LLaMA 的代碼,Meta希望其他研究人員能夠更輕鬆地測試限製or消除大型語言模型中這些問題的新方法。 此外,在論文中包含了一組評估模型偏差和毒性的評估,強調了模型的局限性並支援在這一關鍵領域進行進一步研究。
為確保正確使用 LLaMA 並防止任何潛在的濫用,Meta決定在專注於基於研究的使用的非商業許可下發布該模型。 將根據具體情況向學術研究人員、隸屬於政府、民間社會和學術界組織的個人以及全球行業研究實驗室提供對該模型的訪問權限。 對於那些有興趣申請訪問的人,可以在Meta的研究論文中找到申請鏈接。
Meta堅信,整個人工智慧社區,包括學術研究人員、政策制定者、民間社會和行業,必須合作並製定明確的方針,尤其是負責任的人工智慧,尤其是負責任的大型語言模型。 Meta很高興看到社區將從 LLaMA 中學到什麼,以及使用該模型可以取得的潛在進步。 此舉也被外界認為,是為了在網路行銷領域的數位廣告及AI技術層面,與Google和chatGPT形成三強鼎立的競爭態勢。