llm safety
-
Attacks, Defenses and Evaluations for LLM Conversation Safety: A Survey공부/논문 2025. 6. 9. 11:30
https://arxiv.org/pdf/2402.09283 AbstractLLM은 대화 application의 일반적인 수단이 됐음그에 따라 LLM의 safety가 중요한 이슈가 됨해당 논문에서는 최근 LLM conversation safety(attacks, defense, evaluation)에 대해 알아볼 것1. IntroductionLLM conversation safety의 3가지 주요 측면(attacks, defenses, evaluations) 개요attacks : 안전하지 않은 response를 유도defenses : LLM의 response의 safety를 강화evaluations : 결과 평가하나씩 살펴보자2. AttackLLM의 구린 output을 유도하는 방법에 대해 연구가 되고 있..