'jailbreak' 태그의 글 목록

[데이터셋리뷰] JailBreakV: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against Jailbreak Attacks

Luo, W., Ma, S., Liu, X., Guo, X., & Xiao, C. (2024). JailBreakV: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against Jailbreak Attacks. https://arxiv.org/abs/2404.03027 JailBreakV: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against Jailbreak AttacksWith the rapid advancements in Multimodal Large Language Models (MLLMs), securing..

2025.01.06

[논문리뷰] "Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models

Shen, X., Chen, Z., Backes, M., Shen, Y., & Zhang, Y. (2023). " do anything now": Characterizing and evaluating in-the-wild jailbreak prompts on large language models. arXiv preprint arXiv:2308.03825.https://arxiv.org/abs/2308.03825 "Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language ModelsThe misuse of large language models (LLMs) has drawn significa..

2024.12.23

[논문리뷰] PARDEN, Can You Repeat That? Defending against Jailbreaks via Repetition

PARDEN, Can You Repeat That? Defending against Jailbreaks via Repetition, Accepted at ICML 2024, Ziyang Zhang, Qizhen Zhang, Jakob Foerster https://arxiv.org/abs/2405.07932 PARDEN, Can You Repeat That? Defending against Jailbreaks via RepetitionLarge language models (LLMs) have shown success in many natural language processing tasks. Despite rigorous safety alignment processes, supposedly safety..

2024.09.14

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

당근과 토마토

당근과 토마토

태그

최근글

댓글

공지사항

아카이브

jailbreak(3)

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역