Jailbreaking Techniques and Examples

Was this section helpful?

References

Jailbroken: How Does LLM Safety Training Fail?, Alexander Wei, Nika Haghtalab, Jacob Steinhardt, 2023 arXiv preprint DOI: 10.48550/arXiv.2307.02483 - This paper classifies various jailbreaking attacks and analyzes how safety training for large language models can be circumvented.
Universal and Transferable Adversarial Attacks on Aligned Language Models, Andy Zou, Zifan Wang, Nicholas Carlini, Milad Nasr, J. Zico Kolter, Matt Fredrikson, 2023 arXiv preprint DOI: 10.48550/arXiv.2307.15043 - Introduces methods for generating universal adversarial suffixes to bypass safety measures in large language models.