728x90 ms marco kor1 MS MARCO Kor 한국어 데이터셋 및 임베딩 평가 원래 MS MARCO 데이터셋은 microsoft에서 retrieval 학습을 위해서 고안된 데이터셋인데, question, natural language generation, passage ranking, keyphrase extraction, crawling, conversational search 데이터셋을 포함하는 데이터셋이라 크기도 크고 데이터 양이 많아요.근데! Searching for Best Practices in Retrieval-Augmented Generation (EMNLP 2024) 논문을 읽다가 임베딩 evaluation에 사용한 데이터셋을 찾아버렸단 말이죠.논문링크: https://aclanthology.org/2024.emnlp-main.981/ Searching for Be.. 2024. 12. 27. 이전 1 다음 728x90