본문 바로가기
논문/Natural Language Processing

GPT1-Improving Language Understandingby Generative Pre-Training_논문정리

by dohunNewte 2023. 11. 7.
반응형

Abstract

자연어 이해는 텍스트 추론, 질문 응답, 의미 유사성 평가, 문서 분류 등 다양한 작업을 포함하고 있습니다. 라벨이 없는 대규모의 텍스트 코퍼스는 풍부하지만, 이러한 특정 작업 학습을 위한 라벨이 있는 데이터는 희소하며, 이로 인해 판별적으로 훈련된 모델이 적절하게 수행하는 것이 어렵습니다.

저자들은 라벨이 없는 다양한 텍스트 코퍼스에서 언어 모델의 생성적 사전 훈련을 통해 이러한 작업에 큰 향상을 이룰 수 있다는 것을 보여줍니다.

이는 각각의 특정 작업에 대해 판별적인 미세 조정을 통해 이루어집니다.

이전의 접근법과 달리, 저자들은 미세 조정 과정에서 작업을 인식하는 입력 변환을 사용하여 효과적인 전달을 달성하면서 모델 아키텍처에 최소한의 변경을 요구합니다.

 

Task-specific input transformations

왼쪽의 Transformer 아키텍쳐와 training object는 이연구에 사용되었습니다.

오른쪽은 다른 작업에 대한 미세조정을 위한 입력 변환입니다. 모든 structured된 입력은 사전 훈련된 모델에서 처리할 수 있는 토큰 시퀀스로 변환되며, 그 후에는 linear+softmax가 이어집니다.

 

이전 연구에서는 전이 학습된 표현 위에 작업 특정 아키텍처를 학습하는 것을 제안했습니다.

이러한 접근 방식은 작업별로 많은 수준의 작업 특정 커스터마이제이션을 다시 도입하며, 이러한 추가 아키텍처 구성 요소에 대해 전이 학습을 사용하지 않습니다.

대신, 우리는 탐색 스타일(traversal-style) 접근법을 사용하여 구조화된 입력을 사전 훈련된 모델이 처리할 수 있는 순서화된 시퀀스로 변환합니다. 이러한 입력 변환을 통해 작업 간에 아키텍처를 크게 변경할 필요가 없습니다

 

Textual entailment (텍스트 포함 관계) 작업의 경우, 전제(p)와 가설(h)의 토큰 시퀀스를 연결하고 그 사이에 구분자 토큰($)를 넣습니다.

Similarity (유사도) 작업의 경우, 비교되는 두 문장의 순서를 고려할 필요가 없습니다. 이를 반영하기 위해 입력 시퀀스를 수정하여 두 가지 문장 순서 (구분자를 넣은)를 포함하고 각각 독립적으로 처리한 후 선형 출력 레이어에 주입하기 전에 더해집니다.

Question Answering (질의 응답) 및 Commonsense Reasoning (상식적 추론) 작업의 경우, 주어진 문맥 문서(z), 질문(q) 및 가능한 답변 집합 {ak}이 주어집니다. 문서 문맥과 질문을 각각의 가능한 답변과 연결하여 구분자 토큰을 넣어 [z; q; $; ak]를 얻습니다. 각각의 시퀀스는 모델로 독립적으로 처리되고, 소프트맥스 레이어를 통해 정규화되어 가능한 답변에 대한 출력 분포를 생성합니다.

이러한 방식으로 각 작업에 대한 입력 변환을 수행하여 사전 훈련된 모델을 적용할 수 있습니다.

 

transformer을 finetuning했던 아이디어가 좋았음을 실험의 결과로 보여줍니다.

 

각 task에서 모델별 아이디어의 성능을 비교한 표 입니다.

 

Conclusion

저자들은 생성적 사전 훈련과 구별적인 미세 조정을 통해 단일 작업에 구애받지 않는 모델을 이용하여 강력한 자연어 이해를 달성하는 프레임워크를 소개했습니다. 연속적인 텍스트로 구성된 다양한 말뭉치를 사전 훈련시킴으로써, 우리의 모델은 상당한 세계 지식과 장거리 종속성을 처리하는 능력을 획득하며, 이는 질문 응답, 의미 유사성 평가, 포함 관계 판정, 텍스트 분류와 같은 구별적인 작업을 해결하는 데 성공적으로 전이됩니다. 이로써 우리가 연구한 12개 데이터셋 중 9개에서 최첨단 성능을 향상시켰습니다.

728x90

댓글