전체 글73 BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding_논문정리 Abstract BERT는 모든계층에서 왼쪽 오른쪽 context를 모두 고려한 unlabeled text로부터 깊은 양방향의 representation을 pretrain하기위해서 디자인 되었습니다. 결과적으로 pre-trained된 BERT모델은 추가적인 출력계층만으로 sota model이 되었습니다. 이는 질문응답과 언어추론같은 다양한 task에 특정작업에 대한 구조변경없이도 가능합니다. BERT 저자들은 Bert를 자세하게 소개합니다. 이 프레이뭐크에서는 pre-trainiing과 fine-tuning 두가지 step이 존재합니다. pre-training동안 모델은 다른 pre-training task에서 라벨되지않은 데이터로 학습됩니다. fine-tuning동안 BERT model은 pre-tra.. 2023. 11. 21. GPT1-Improving Language Understandingby Generative Pre-Training_논문정리 Abstract 자연어 이해는 텍스트 추론, 질문 응답, 의미 유사성 평가, 문서 분류 등 다양한 작업을 포함하고 있습니다. 라벨이 없는 대규모의 텍스트 코퍼스는 풍부하지만, 이러한 특정 작업 학습을 위한 라벨이 있는 데이터는 희소하며, 이로 인해 판별적으로 훈련된 모델이 적절하게 수행하는 것이 어렵습니다. 저자들은 라벨이 없는 다양한 텍스트 코퍼스에서 언어 모델의 생성적 사전 훈련을 통해 이러한 작업에 큰 향상을 이룰 수 있다는 것을 보여줍니다. 이는 각각의 특정 작업에 대해 판별적인 미세 조정을 통해 이루어집니다. 이전의 접근법과 달리, 저자들은 미세 조정 과정에서 작업을 인식하는 입력 변환을 사용하여 효과적인 전달을 달성하면서 모델 아키텍처에 최소한의 변경을 요구합니다. Task-specific i.. 2023. 11. 7. LLaMA: Open and Efficient Foundation Language Models_논문정리 Abstract 저자들은 LLaMA라는 7B ~ 65B 파라미타 범위의 기초언어모델들을 소개합니다. 저자들은 수조개의 token들로 모델을 훈련시켰으며 공개데이터셋만을 사용하여 sota모델을 학습시켰다는것을 보여주었습니다. LLaMA-13B는 GP3-175B보다 대부분의 benchmark에서 성능을 능가했으며 LLaMA-65B는 best모델인 Chinchilla-70B와 PaLM-540B만큼의 모델들과도 경쟁력있었습니다. Introduction 대량의 텍스트 코퍼스에서 학습된 대규모 언어 모델들(Large Languages Models, LLMs)은 텍스트 지시나 몇 가지 예시를 통해 새로운 작업을 수행하는 능력을 보여주었습니다. 이러한 소수의 사례들은 모델을 충분한 크기로 확장할 때 처음으로 나타났으며.. 2023. 11. 6. A ConNet for the 2020s 논문정리 Abstract Vision Transformers (ViTs)의 도입으로 시작되었고, 이것은 빠르게 ConvNets를 뛰어넘어 최신 이미지 classification 모델로 자리 잡았습니다. 반면에 vit는 object detection과 semantic segmentation에 적용할때 어려움을 겪습니다. transformer는 몇몇 Convnet 이전에 다시 소개되면서 transformer을 vision backbone으로 사용하였고 vision task에서 높은 성능을 올릴 수 있게 해주었습니다. 그러나 이러한 hybrid 접근방식은 여전히 convolution의 내재된 inductive biases 보다 오히려 Transformer의 내재된 우수성 때문에 효율적입니다. 연구자들은 resnet을 .. 2023. 10. 25. 이전 1 2 3 4 5 6 7 ··· 19 다음