LLaMA: Open and Efficient Foundation Language Models

Abstract

저자들은 LLaMA라는 7B ~ 65B 파라미타 범위의 기초언어모델들을 소개합니다.

저자들은 수조개의 token들로 모델을 훈련시켰으며 공개데이터셋만을 사용하여 sota모델을 학습시켰다는것을 보여주었습니다.

LLaMA-13B는 GP3-175B보다 대부분의 benchmark에서 성능을 능가했으며 LLaMA-65B는 best모델인 Chinchilla-70B와 PaLM-540B만큼의 모델들과도 경쟁력있었습니다.

Introduction

대량의 텍스트 코퍼스에서 학습된 대규모 언어 모델들(Large Languages Models, LLMs)은 텍스트 지시나 몇 가지 예시를 통해 새로운 작업을 수행하는 능력을 보여주었습니다.

이러한 소수의 사례들은 모델을 충분한 크기로 확장할 때 처음으로 나타났으며, 이로 인해 이러한 모델들을 더욱 확장하는 연구가 진행되었습니다.
이런 노력들은 더 많은 매개변수가 더 나은 성능을 이끌어낼 것이라는 가정에 기반하고 있습니다.

하지만 최근의 연구에서는 주어진 컴퓨팅 예산 내에서 가장 큰 모델이 아니라 더 많은 데이터로 학습된 더 작은 모델이 최상의 성능을 보여준다는 것을 보여주었습니다.

LLaMA-13B는 gpt-3보다 대부분의 bench-marks에서 탁월함을 보였으며 또 10배 더 작습니다.

Architecture

저자들의 network는 transformer 아키텍쳐를 기초로했습니다.

Pre-normalization [GPT3]

저자들은 각각의 transformer의 sub-layer를 normalize했으며 RMSNorm normalizing function을 사용함으로써 유연하게 학습이되도록 했습니다.

SwiGLU activation function [PaLM]

ReLU를 SwiGLU로 activation function을 바꿨습니다.

Rotary Embeddings [GPTNeo]

저자들은 absolute positional embedding을 제거하고 대신에 rotary positional embedding을 추가했습니다.

rotary positional embedding : GPT-J에서 공개되어 유명해진 position embedding. rotary method를 사용해 매 레이어마다 포지션 값을 주입한다.

Optimize

adamw 사용

token수에 따른 LLaMA loss비교 표입니다.

Efficient implementation

몇개의 optimization으로 학습과 모델성능의 증가가 있었다고합니다.

먼저 저자들은 multi-head attention으로 memory사용량과 runtime에서 성능향상이 있었다고합니다.
attention weights를 저장하지 않고 언어 모델링 task의 특성때문에 마스킹된 key/query scores를 계산하지 않음으로써 성능증가를 성취했습니다.

게다가 저자들은 checkpoint에서 backward를 통과하는동안 재 계산된 activation의 양을 줄였습니다.

Zero-shot task에서 성능증가 비교표 입니다.

NaturalQuestion데이터셋에서 성능비교표입니다.

코드 생성 작업에 대한 모델의 성능 비교 표 입니다.

다양한 데이터셋에서 LLaMA 파라미타별 성능비교표 입니다.

Conclusion

LLaMA-13B가 GPT-3를 능가하면서 크기는 10배 이상 작다는 것이며, LLaMA-65B는 Chinchilla-70B와 PaLM-540B와 경쟁력이 있습니다.

저자들은 독점적인 데이터셋에 의존하지 않고 공개적으로 이용 가능한 데이터만을 사용하여 훈련시켜 최첨단 성능을 달성할 수 있다는 것을 보여줍니다.

728x90

저작자표시 (새창열림)

도훈newte

LLaMA: Open and Efficient Foundation Language Models_논문정리

댓글

티스토리툴바