본 포스팅은 2019년 NAACL 학회에 등록된 BERT 논문에 대해 핵심 아이디어 중심으로 살펴보도록 하겠습니다. LLM 등장 이전까지 BERT와 BERT 발전 형태의 모델들이 자연어이해(Nutural Language Understanding) 관련 task에서 대부분 사용되었으며 SOTA를 달성하였습니다. 따라서 그 기초 모델인 BERT에 대해 이해하는 것은 매우 중요합니다. 우선 본 논문의 abstract를 살펴보고 BERT 논문의 핵심 아이디어에 대해 상세히 다루어 보도록 하겠습니다. 1. Abstract 본 논문은 BERT : Bidirectional Encoder Representations from Transformer라 하는 새로운 언어 표현 모델에 대해서 소개한다. 최근의 언어 모델과 달..
본 포스팅은 2017년 NIPS 학회에 등록된 transformer model 구조로 잘 알려진 Attention Is All You Need paper에 관해 리뷰를 진행하도록 하겠습니다. 딥러닝 발전에 있어서 한 획을 그은 논문이며, 현재까지의 SOTA 모델 대부분이 transformer 구조를 기반으로 하기 때문에 transformer 모델의 구조와 작동방식에 대해 이해하는 것은 매우 중요하다고 생각됩니다. 우선 본 논문의 abstract을 간단히 요약한 뒤, transformer model의 구조를 Encoder, Decoder 파트로 나누어서 살펴보도록 하겠습니다. 1. Abstract 현재까지의 NMT(Neural Machine Translation) task에서는 Encoder와 Decode..
본 포스팅은 2017년 NIPS 학회에 등록된 LightGBM paper에 대한 리뷰와 설명에 관한 글입니다. 1. Abstract 본 논문의 초록을 간단히 요약하면 다음과 같다. Gradient Boosting Decision Tree(GBDT)의 경우 인기 있는 머신러닝 알고리즘이지만, 모든 feature, 모든 data instances의 scan을 통해 Gradient를 측정해야 하기 때문에, 계산복잡성이 feature, instance의 수에 비례$O(data * feature)$하게 되어 데이터의 크기가 커질수록 시간이 많이 소요된다는 점을 지적하였다. feature의 차원과 data size가 커지면 efficiency와 scalability의 관점에서 여전히 만족스럽지 못하기 때문에 이러한..