논문/Large Language Model1 LLaMA: Open and Efficient Foundation Language Models_논문정리 Abstract 저자들은 LLaMA라는 7B ~ 65B 파라미타 범위의 기초언어모델들을 소개합니다. 저자들은 수조개의 token들로 모델을 훈련시켰으며 공개데이터셋만을 사용하여 sota모델을 학습시켰다는것을 보여주었습니다. LLaMA-13B는 GP3-175B보다 대부분의 benchmark에서 성능을 능가했으며 LLaMA-65B는 best모델인 Chinchilla-70B와 PaLM-540B만큼의 모델들과도 경쟁력있었습니다. Introduction 대량의 텍스트 코퍼스에서 학습된 대규모 언어 모델들(Large Languages Models, LLMs)은 텍스트 지시나 몇 가지 예시를 통해 새로운 작업을 수행하는 능력을 보여주었습니다. 이러한 소수의 사례들은 모델을 충분한 크기로 확장할 때 처음으로 나타났으며.. 2023. 11. 6. 이전 1 다음