728x90

당근과 토마토

Retrieval(2)

Korean Paper QA - Retrieval Evaluation
Korean Paper QA - Retrieval Evaluation한국어 embeddig/retrieval evaluation용 데이터셋을 구축해보았는데요, 국내논문 QA 데이터셋이 있어서 이 데이터를 사용하여 구축하였습니다. (데이터셋 링크) 국내 논문 QA 데이터셋관리자 Text (2023-02-20) http://doi.org/10.23057/49 국내 논문 QA 데이터셋aida.kisti.re.kr기존 국내논문 QA 데이터셋에서 "context", "qas"를 사용하여 구축하였습니다."context": "질의응답문장이 포함된 논문 풀텍스트","qas": [ { "level": "난이도 (0:일반, 1:하, 2:상)", "question": "질의", "..
2025.01.07
MS MARCO Kor 한국어 데이터셋 및 임베딩 평가
원래 MS MARCO 데이터셋은 microsoft에서 retrieval 학습을 위해서 고안된 데이터셋인데, question, natural language generation, passage ranking, keyphrase extraction, crawling, conversational search 데이터셋을 포함하는 데이터셋이라 크기도 크고 데이터 양이 많아요.근데! Searching for Best Practices in Retrieval-Augmented Generation (EMNLP 2024) 논문을 읽다가 임베딩 evaluation에 사용한 데이터셋을 찾아버렸단 말이죠.논문링크: https://aclanthology.org/2024.emnlp-main.981/ Searching for Be..
2024.12.27

1

728x90

티스토리툴바