AI/NLP

NLP- LM(N-gram)

우당탕탕인생기 2023. 12. 21. 18:01

 

NLP에서 뗼레야 뗼 수 없는것이 바로 LM(Language Model) 입니다. 현재는 LLM(Large Language Model) 이죠

 

LM

LM의 핵심개념은 어떤한 문장이 주어졌을 때 얼마나 그럴 듯 하냐를 확률로 나타내는 것입니다.

 

이렇듯 각각의 단어가 나올 확률을 곱하는 겁니다. (단어별 빈도수를 전체 단어수로 나누어 줍니다)

하지만 이런 경우의 문제점은 단어간의 순서와 상관관계를 고려하지 않는다는 점 입니다.

 

이를 해결하기 위해 조건부 확률 개념이 사용됩니다.

 

 이건 2-gram 이라는 모델로 2개의 단어간의 관계를 감안한 확률입니다.

 

 

LM  ,n-gram의 한계

 

1. 못 본 단어의 조합, OVV( Out-Of-Vocabulary)

LM은 문장간의 단어들을 통해 학습을 하는데

학습데이터에 예를 들어 "티스토리" 라는 단어가 존재하지 않았으면,

또는 play 라는 단어 뒤에 스포츠라는 단어가 존재하지 않았으면, 

이 단어 또는 단어 ㅈ합이 들어간 문장의 확률은 항상 0으로 수렴합니다.

즉 일반화가 떨어진다라고 하는데, 이를 해결하기 위해 word embedding이 존재합니다.

wordembeddinf은 각 단어들을 벡터로 변환하여  비슷한 단어들끼리 비채합니다. 이를 통해 새로운 단어가 와도 

비슷한 단어들을 통해 새로운 단어를 유추할 수 있게 됩니다.

 

 

2. 기억력의 한계

N-gram은 보통 1~ 3 으로 설정을해 예측할려고하는 단어의 직전 단어들을 통해 예측합니다.

그리고 n이 커지면 커질 수록 계산량이 많아지는 한계가 있습니다. 

 

 

"In Korea, more than half of all the residents speak _____."

이런 문장이 있을때 예측하려는 단어는 맨 앞의 단어를 통해 예측가능합니다. 

하지만 N-gram은 직전 단어만으로 예측하기때문에 예측의 한계가 있습니다.

이런 문제를 Long Term Dependency 라고 합니다.

 

이를 해결하기 위해서는 초창기에는 RNN을 사용하여 문제를 해결하기도 했습니다.

'AI > NLP' 카테고리의 다른 글

NLP-RAG : 검색 증강 생성 모델  (0) 2024.03.13
NLP - seq2seq  (1) 2023.12.27
NLP - RNN , LSTM  (1) 2023.12.27
NLP - word embedding  (0) 2023.12.20
NLP - BoW , N-gram, TF-IDF  (0) 2023.12.20