오늘은 Tiktoken 기능을 사용해보려고 합니다.
원래는 OpenAI GPT 사용을 최대한 멀~리 멀~리 하려고 했는데, 포기했어요.
너무 똑똑하그든요.
하지만, 내가 얼마 만큼의 토큰을 사용하고 있는지는 알아야겠죠?
그게 다 돈이그든요.
사실, GPT에 쓸 돈 때문에 시도를 해본건 아니고요.
보통 우리가 text 데이터의 길이를 분석할 때, 토큰나이저를 불러서 "음 이 데이터는 평균적으로 어느 정도 길이구나"를 가늠하잖아요?
하지만, 요즘은 워낙 LLM을 많이 쓰니깐, GPT의 토큰화 방식으로 길이를 파악하는 것도 나쁘지 않겠더라고요.
(tensorflow를 설치했다가 충돌 에러가 나서 그냥 쉬운 길을 선택한건 아니에요. 그냥 그렇다구요.)
먼저 개발자 AI연구가답게 살짝의 코딩을 가미한 방법입니다.
본인의 가상환경에 pip install tiktoken 을 통해 라이브러리를 다운 받습니다.
(사실 제가 따로 설명 안해도 아래 url을 타고 들어가보시면 다 나와있기는 합니다.)
https://pypi.org/project/tiktoken/
잘 설치가 됐다면 우리가 궁금한 text를 encoding 해줄 모델을 불러올거예요.
토크나이저를 불러오는 방식과 gpt 모델을 불러오는 방식이 있습니다. 살짝 명령어가 다르니깐 그 부분만 주의를 하시면 됩니다.
저는 두 번째, 모델을 불러오는 방식을 선택했어요!
그 이유는 어차피 추후에 gpt 모델을 사용할거기도 하고 아무래도 최신 모델일수록 한국어를 더 잘 이해하다보니깐 다른 모델에 비해 토큰화하는 방식이 조금 더 낫기도 합니다.
토큰 개수는 나오는데 읭? 왜 이렇게 많이 먹어? 하는 느낌이 들 수 있어요.
어쩔수 없습니다. gpt는 저래봬도 외국인이거든요.
어떻게 나눈건지 좀 더 자세히 살펴보면..! 거의 그냥 한 글자, 한 글자 뜯고 있는 걸 볼 수 있어요.
뜯고 씹고 맛보고 즐기고..
한국어는 그냥 decoding하면 bytes로 표기가 돼요.
다시 한 번 "utf-8"으로 변환해주는 작업이 필요합니다.
"나는 다 싫어! 결과만 가져와!"하면
시도해볼 수 있는 더 좋은 방법이 있어요.
한국어는 역시 끝까지 들어봐야죠.
아래 사이트로 들어가서 그냥 내가 궁금한 문장을 입력만하면 따악!
노코드시대잖아요. 여러분! 다른 사람이 개발한 툴 편하게 사용해보자고요.
https://platform.openai.com/tokenizer
1초만에 똑같은 결과를 볼 수 있어요.
나도 1초만에 글 쓰고 싶다.
'오블완 챌린지' 카테고리의 다른 글
2024.11.12 뱅밥 세끼 - 2탄 (2) | 2024.11.13 |
---|---|
2024.11.12 뱅밥 세끼 - 1탄 (10) | 2024.11.12 |
Chunking Strategies (2) | 2024.11.09 |
Ollama 사용하기 (3) | 2024.11.07 |
티스토리 <작심삼주 오블완 챌린지>를 소개합니다. (0) | 2024.10.30 |