임베딩(2)
-
MS MARCO Kor 한국어 데이터셋 및 임베딩 평가
원래 MS MARCO 데이터셋은 microsoft에서 retrieval 학습을 위해서 고안된 데이터셋인데, question, natural language generation, passage ranking, keyphrase extraction, crawling, conversational search 데이터셋을 포함하는 데이터셋이라 크기도 크고 데이터 양이 많아요.근데! Searching for Best Practices in Retrieval-Augmented Generation (EMNLP 2024) 논문을 읽다가 임베딩 evaluation에 사용한 데이터셋을 찾아버렸단 말이죠.논문링크: https://aclanthology.org/2024.emnlp-main.981/ Searching for Be..
2024.12.27 -
텍스트 데이터 시각화 with Embedding and t-SNE
오늘은 텍스트 데이터를 시각화하는 제일 기본적인 방법인 embedding을 t-SNE 방식을 통해 차원축소해서벡터로 나타내는 시각화를 해보려고 합니다. 간단하기도 하고 대규모 데이터 시각화에도 유리해서 저도 자주 쓰는 방법이애오. 바로 파이썬 코드로 살펴 볼게요. 우선 필요한 라이브러리를 로드해올게요import pandas as pdfrom transformers import AutoModel, AutoTokenizerimport torchimport numpy as npfrom tqdm import tqdmfrom torch.utils.data import DataLoader, Datasetfrom sklearn.manifold import TSNEimport matplotlib.pyplot as pl..
2024.11.15