Anghoo's blog for ML

2024.03.12· Deep Learning/NLP

본 포스팅은 BERT 이후에 출현한 ELECTRA 모델의 구조와 기존 BERT와 비교했을 때 차이점 및 개선된 점을 알아보도록 하겠습니다. ELECTRA (Efficiently Learning an Encoder that Classifies Token Replacements Accurately) ELECTRA는 기존 BERT에서 학습의 효율성에 기반하여 새로운 pre-training 방식을 제시한 버전이다. 본 논문에서는 MLM(Masked Language Modeling) 대신 RTD(Replaced Token Detection)을 사용했다. 또한 GAN(Generative Adversarial Network)과 비슷하게 ELECTRA에서는 Generator(작은 MLM)가 마스킹된 단어에 대한 단어..

BERT와 SpanBERT 비교

2024.03.11· Deep Learning/NLP

본 포스팅은 BERT 이후에 출현한 SpanBERT 모델의 구조와 기존 BERT와 비교했을 때 차이점 및 개선된 점을 알아보도록 하겠습니다. SpanBERT (Improving Pre-training by Representing and Predicting Spans) SpanBERT에서는 Span masking 방식을 통해 개별 token을 마스킹하지 않고, 연속적인 span을 마스킹하였다. 또한 RoBERTa와 마찬가지로 NSP(Next Sentence Prediction) task를 사용하지 않고 단일 시퀀스를 입력으로 한 사전 학습을 진행하여 성능을 향상시켰다. 이를 통해 텍스트 범위를 예측하는 질문-응답(Question Answering)과 같은 task에서 성능 향상을 확인하였다. Span m..

BERT와 RoBERTa 비교

2024.03.11· Deep Learning/NLP

본 포스팅은 BERT 이후에 출현한 RoBERTa 모델의 구조와 기존 BERT와 비교했을 때 차이점 및 개선된 점을 알아보도록 하겠습니다. RoBERTa (A Robustly Optimized BERT Pretraining Approach) RoBERTa는 BERT의 Pre-training 방식의 변화를 통해 성능을 향상한 모델이다. 기존 BERT 모델의 Pre-training 방식인 MLM(Masked Language Modeling) task를 Dynamic masking 방법으로 바꾸어 학습했으며 NSP(Next Sentence Prediction) task를 제거하였다. 또한 BERT와 비교했을 때 더 많은 학습 데이터와 더 큰 batch size로 학습을 진행해 성능을 향상했다. 1. Stati..

[논문리뷰/설명] BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding

2024.03.08· Deep Learning/Paper Review

본 포스팅은 2019년 NAACL 학회에 등록된 BERT 논문에 대해 핵심 아이디어 중심으로 살펴보도록 하겠습니다. LLM 등장 이전까지 BERT와 BERT 발전 형태의 모델들이 자연어이해(Nutural Language Understanding) 관련 task에서 대부분 사용되었으며 SOTA를 달성하였습니다. 따라서 그 기초 모델인 BERT에 대해 이해하는 것은 매우 중요합니다. 우선 본 논문의 abstract를 살펴보고 BERT 논문의 핵심 아이디어에 대해 상세히 다루어 보도록 하겠습니다. 1. Abstract 본 논문은 BERT : Bidirectional Encoder Representations from Transformer라 하는 새로운 언어 표현 모델에 대해서 소개한다. 최근의 언어 모델과 달..

Transformer 등장 이전의 자연어처리 Backbone 모델

2024.03.03· Deep Learning/NLP

본 포스팅에서는 현재 대부분의 자연어처리 모델에 사용되는 Transformer 등장 이전의 Backbone 모델인 RNN, LSTM, GRU에 대해 살펴보고 동작 방식을 이해해 보도록 하겠습니다. 1. RNN(Recurrent Neural Network) 기본적인 딥러닝 네트워크인 MLP(Multi Layer Perceptron)의 구조를 생각해 본다면, 하나의 입력 데이터에 대해 하나의 출력 결과를 내어주는 방식으로 생각해 볼 수 있다. 하지만 자연어처리에서의 텍스트 데이터는 순차적 특성을 지닌 시계열 데이터 형태이다. 이처럼 시계열적 특성을 지닌 데이터를 잘 처리할 수 있도록 고안된 모델이 RNN이며, 해당 모델에 대해 자세히 살펴보도록 하겠다. RNN의 주요 아이디어는 고정 크기의 hidden st..

텍스트 전처리

2024.02.29· Deep Learning/NLP

본 포스팅은 텍스트 전처리에 관한 중요성과 텍스트 전처리를 위한 방법들에 대해 알아보도록 하겠습니다. 1. 텍스트 전처리란? "Garbage in Garbage out"이라는 말이 있듯이 모델의 입력으로 양질의 데이터를 주지 않으면 아무리 성능이 좋은 모델이라도 우리가 원하는 좋은 결과를 얻을 수 없게 된다. 정형데이터나 이미지 데이터와 마찬가지로 텍스트 데이터도 모델의 입력으로 넣기 위해서 여러 전처리 과정이 필요하다. 텍스트 데이터의 여러 전처리 방법을 살펴보기 전에 텍스트 데이터 전처리가 중요한 이유에 대해 먼저 살펴보자. 위의 그림을 보면 데이터 사이언스 분야에서 가장 지루하지만 가장 많은 시간은 할애하는 작업이 데이터 전처리 작업임을 볼 수 있다. 또한 초거대 언어모델(Large Language..

전체 글

티스토리툴바