NLP에서 뗼레야 뗼 수 없는것이 바로 LM(Language Model) 입니다. 현재는 LLM(Large Language Model) 이죠
LM
LM의 핵심개념은 어떤한 문장이 주어졌을 때 얼마나 그럴 듯 하냐를 확률로 나타내는 것입니다.
이렇듯 각각의 단어가 나올 확률을 곱하는 겁니다. (단어별 빈도수를 전체 단어수로 나누어 줍니다)
하지만 이런 경우의 문제점은 단어간의 순서와 상관관계를 고려하지 않는다는 점 입니다.
이를 해결하기 위해 조건부 확률 개념이 사용됩니다.
이건 2-gram 이라는 모델로 2개의 단어간의 관계를 감안한 확률입니다.
LM ,n-gram의 한계
1. 못 본 단어의 조합, OVV( Out-Of-Vocabulary)
LM은 문장간의 단어들을 통해 학습을 하는데
학습데이터에 예를 들어 "티스토리" 라는 단어가 존재하지 않았으면,
또는 play 라는 단어 뒤에 스포츠라는 단어가 존재하지 않았으면,
이 단어 또는 단어 ㅈ합이 들어간 문장의 확률은 항상 0으로 수렴합니다.
즉 일반화가 떨어진다라고 하는데, 이를 해결하기 위해 word embedding이 존재합니다.
wordembeddinf은 각 단어들을 벡터로 변환하여 비슷한 단어들끼리 비채합니다. 이를 통해 새로운 단어가 와도
비슷한 단어들을 통해 새로운 단어를 유추할 수 있게 됩니다.
2. 기억력의 한계
N-gram은 보통 1~ 3 으로 설정을해 예측할려고하는 단어의 직전 단어들을 통해 예측합니다.
그리고 n이 커지면 커질 수록 계산량이 많아지는 한계가 있습니다.
"In Korea, more than half of all the residents speak _____."
이런 문장이 있을때 예측하려는 단어는 맨 앞의 단어를 통해 예측가능합니다.
하지만 N-gram은 직전 단어만으로 예측하기때문에 예측의 한계가 있습니다.
이런 문제를 Long Term Dependency 라고 합니다.
이를 해결하기 위해서는 초창기에는 RNN을 사용하여 문제를 해결하기도 했습니다.
'AI > NLP' 카테고리의 다른 글
NLP-RAG : 검색 증강 생성 모델 (0) | 2024.03.13 |
---|---|
NLP - seq2seq (1) | 2023.12.27 |
NLP - RNN , LSTM (1) | 2023.12.27 |
NLP - word embedding (0) | 2023.12.20 |
NLP - BoW , N-gram, TF-IDF (0) | 2023.12.20 |