728x90 bert1 KLUE/RoBERTa 토크나이저 토큰 대체하기! BERT 계열 모델을 사용하다 보면, 모델의 도메인에 대한 이해를 높인다던가 어떤 중요한 단어를 토큰화하지 않고 하나의 토큰으로 가져가게 하고 싶은 경우가 있지요.예를 들어 곤충 언어모델을 만들고 싶은데 토크나이저에 '나비' 토큰을 추가하지 않고,'나', '##비'로 토큰화 되어버리면 정말 슬플거에요.사실 subword tokenizer의 장점이 Out of Vocab에 강하다는 건데그래도 '나비' 로 바로 토큰화해서 모델이 받는거랑 '나' '##비' 혹은 '나' '비' 로 받는 거랑은모델이 이해하는데 차이가 조금은 있을 수 있겠죠?이럴 때 tokenizer.add_tokens 로 토큰을 추가하고, resize_token_embeddings를 적용하는 방법이 있긴한데,이렇게 하면 임베딩 사이즈가 달라지게.. 2024. 11. 26. 이전 1 다음 728x90