Wang, R., Ma, X., Zhou, H., Ji, C., Ye, G., & Jiang, Y. (2024). White-box Multimodal Jailbreaks Against Large Vision-Language Models. ACM Multimedia.
https://arxiv.org/abs/2405.17894
이번 논문은 우리가 익히 알고 있는 유명 conference에 등재된 논문은 아닙니다. 라고 착각할 뻔 했지 뭐예요.
굉장히 좋은 S급 학회라는 얘기를 타 블로그에서 읽게 되었어요. 세상에는 제가 모르는.. 학회가 너무나도 많네요.
글을 쓰는 현 시점을 기준으로 14회 정도 인용이 되었는데, 2024년 10월에 나온 논문이니 아직은 따끈 따근하다고 할 수 있지 않을까요?
지난번 리뷰에 이어서 이번에도 multimodal에서의 Jailbreak에 관련한 논문입니다.
지난번 공격 패턴이 생각보다 단순해서 또 어떤 패턴의 공격들이 있을지 매우 궁금해졌거든요.
아직도 적의 10%, 아니 1%, 아니 0.1%도 파악하지 못한 느낌...
제가 적을 제대로 아는 날이 오긴 하겠죠?
*파란색은 제 개인적인 의견이 많~이 포함되어 있습니다.
ABSTRACT
최근 VLM의 발전은 다양한 multimodal task에서 높은 성능을 자랑함. 하지만, 적대적 공격에서의 VLM의 강건성에 대해서는 잘 다뤄지지 않음. 현재 존재하는 방법론들은 대부분 unimodal에 치중되어 있음. VLM의 취약점을 더 폭넓게 파악하기 위해 본 논문에서는 두 가지 modality의 결합을 통해 공격을 진행함. 먼저, 랜덤한 노이즈 이미지를 기반으로 적대적 이미지 샘플을 prefix로 생성함. 다음으로 text 기반의 적대적 샘플을 suffix로 생성함. 이 두 가지를 결합하여 모델이 잘못된 답변을 할 확률을 최대화 함. 본 논문에서는 해당 방식을 Universal Master Key (UMK)로 명명함. 다양한 유해 쿼리와 UMK가 결합되었을 때, VLM의 방어막을 잘 우회하는 것을 확인함. MiniGPT-4 기준, 96%의 공격 성공률을 보임.
1 INTRODUCTION
OpenAI의 GPT-4, Google의 Flamingo와 같은 VLM 모델들을 학계, 산업 등 다양한 곳에서 주목을 받고 있음. 주목을 받는 만큼, 많은 AI 연구가들은 VLM의 적대적 공격에 대한 강건성에 대한 우려도하기 시작함. VLM 역시 LLM 만큼 유해한 컨텐츠를 생산하기를 거부할 것이라고 기대하지만 (어느 정도 이미 alignment 되어 있다고), 새롭게 들어오는 visual modality는 새로운 취약점을 만들어 냄. 최근 연구들은 text 기반의 방법론들이 주를 이룸. 하지만, 본 연구에서는 text-image modality에 초점을 맞춰 VLM의 본질적인 취약점을 찾아내는 것에 주안을 둠. 본 논문에서 제안하는 방법 이름은 Universal Master Key (UMK)임. UMK는 적대적 이미지를 prefix로 적대적 text를 suffix로 사용함. (query 앞, 뒤로 적대적 샘플을 넣는 격, 순서가 영향을 주는지는 모르겠음.) 먼저, 적대적 이미지만을 사용해서 최대한 (높은 확률로) 잘못된 답변을 하도록 함. 다음으로 text를 추가하여 모델이 최대한 (높은 확률로) 잘못된 답변을 하도록 유도함.
바로 이전에 리뷰했던 논문 (https://carrotomato.tistory.com/entry/%EB%85%BC%EB%AC%B8%EB%A6%AC%EB%B7%B0-Visual-Adversarial-Examples-Jailbreak-Aligned-Large-Language-Models)과의 차이점을 보면, 해당 논문에서는 적대적 text 샘플을 suffix로 섞지는 않았다는 점인 것 같아요.
2 RELATED WORK
2.1은 VLM에 대한 설명이었는데요. VLM에 대한 설명은 다른 논문 리뷰 시에도 여러번 언급했던 내용이기 때문에 생략하도록 할게요.
이번 논문에서는 보편적인 VLM에 대한 설명이라기 보다 각 VLM에 대한 특징을 조금 더 명확히 언급하고 있기 때문에 그런 점이 궁금하다면 본문을 참고해보시면 좋을 것 같아요.
2.2 Attacks Against Multimodal Models
Multimodal 모델을 공격하기 위해 Greshake는 이미지에 속을 수 있는 text를 주입하는 것을 시도함. (제가 본래 생각하던 공격 패턴인데, 본 논문의 초록에서는 해당 부분에 대한 강조점이 없었기 때문에 논문 리뷰는 따로 하지 않을 예정 → 나중에 시간적 여유가 생기면 시도해보겠습니다.) Gong은 유해 컨텐츠를 typography를 바탕으로 이미지로 변경하여 safety alignment 우회를 시도함. Carlini, Bagdasaryan, Bailey는 세부 내용은 조금씩 다르지만, output에 유해 컨텐츠 생성을 최대화하는 input을 찾는 연구를 진행함. Niu는 본 논문에서 접근했던 방식과 비슷하지만 본 논문에서 적용하는 2번째 단계인 adversarial text suffix에 대한 연구만 진행함. Unimodal attack이기 때문에 본 논문보다 공격의 범위가 한정적임.
이전에 이루어진 많은 선행 연구들을 보면 유해한 output을 만드는 input이 어떤 스타일 혹은 어떤 형식인지에 초점을 맞춘 느낌이 강한 것 같습니다.
데이터가 오픈되어 있는 경우, 해당 데이터들의 특성을 분석해서 그런 특성을 가졌을 때, "나쁜 prompt다"로 인식하는 detection 모델을 만들 수 있지 않을까하는 생각이 드네요. 하지만, 이 경우는 새로운 adaptive attack에 대해서는 robust한 성능을 보여주지 못할 가능성이 큰 문제가 있을 것 같아요 😵💫
3 METHODOLOGY
3.2 Proposed Attack
본문의 글 보다도 그림이 정말 말하고자 하는 방법을 명확하게 표현하고 있는 것 같아요.
읽으면서 궁금했던 점은 꼭 2가지 목표 (image prefix, text suffix)를 한 번에 optimization해야 하는지,
앞, 뒤 순서가 변경됐을 때 차이가 있을지, 이런 부분이었습니다.
4 EXPERIMENTS AND RESULTS
(To be continued...)
5 CONCLUSION
본 논문에서는 text + 이미지 dual optimization을 통해 VLM의 jailbreak 방법을 제안함. 처음에는 랜덤 노이즈와 함께 적대적 이미지를 생성해서 text input 없이 모델이 악의적인 출력값을 낼 수 있도록 학습함. 다음으로는 text suffix를 추가해서 적대적 이미지와 적대적 텍스트 샘플이 함께 결합됐을 때, 사용자의 쿼리에 대한 유해한 컨텐츠를 최대한 생산할 수 있도록 학습함. 이 두 가지 기법을 기반으로 모델이 덜 악의적인 컨텐츠를 생산하거나 사용자의 지시를 따르지 않는 문제점을 해결함 (여기서 해결의 의미는 좋은 쪽의 해결이라기 보다 의도에 맞게 모델을 학습했다는 의미로 받아들여야 함 → jailbreak 성공 ). Text-image 간 결합을 통해 VLM 상에서 공격의 범위를 넓혀 효과적인 공격이 가능하게 함. 실험 결과, 다른 모델들에 비해 훨씬 높은 공격 성공률을 달성함. 하지만, 해당 기법의 문제는 전이학습이 어렵다는 점. 이는 VLM의 다양한 구조, 파라미터, tokenizer 등에서 기인했다고 생각함. 전이학습까지 가능하게 하는 것이 앞으로의 과제가 될 수 있음.
이번 논문의 리뷰는 오히려 방법론과 실험 결과를 자세히 작성하지 않았습니다.
저는 자세히 읽어보긴 했는데, 같은 내용이 반복적으로 나오기도하고,
결국 "이런 공격법도 있다"에서 끝나지 제가 해당 기법을 활용해서 무언가를 이어서 진행하지는 않을 것 같더라고요.
특정 도메인/카테고리에 국한되지 않고 다양한 곳에 범용적으로 적용이 가능한 공격법이라는 점에서는 매력이 있는 것 같습니다.
해당 데이터나 모델을 활용해서 뭔가를 하게 될 결심이 서면 내용을 보충해보도록 할게요.
(절대 귀찮거나 귀찮거나 귀찮거나한건 아닙니다 ^^)
제 맘 이해하시죠?