post

똑같은 말만 하던 LLM에게 다양한 대답을 얻는 방법이 있다고한다. 훈련 없이, 오직 프롬프트만으로 다양성을 끌어올리는 접근이다.

데이터 합성, 아이디어 브레인스토밍처럼 다양한 샘플이 필요한 상황에서 특히 더 유용하다.

Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity

Post-training alignment often reduces LLM diversity, leading to a phenomenon known as mode collapse. Unlike prior work that attributes this effect to algorithmic limitations, we identify a fundamental, pervasive data-level driver: typicality bias in preference data, whereby annotators systematically favor familiar text as a result of well-established findings in cognitive psychology. We formalize this bias theoretically, verify it on preference datasets empirically, and show that it plays a central role in mode collapse. Motivated by this analysis, we introduce Verbalized Sampling, a simple, training-free prompting strategy to circumvent mode collapse. VS prompts the model to verbalize a probability distribution over a set of responses (e.g., "Generate 5 jokes about coffee and their corresponding probabilities"). Comprehensive experiments show that VS significantly improves performance across creative writing (poems, stories, jokes), dialogue simulation, open-ended QA, and synthetic data generation, without sacrificing factual accuracy and safety. For instance, in creative writing, VS increases diversity by 1.6-2.1x over direct prompting. We further observe an emergent trend that more capable models benefit more from VS. In sum, our work provides a new data-centric perspective on mode collapse and a practical inference-time remedy that helps unlock pre-trained generative diversity.

논문 리뷰 - Weekly Tech Trend Talk 스터디(25.01.15)

0. 문제 상황: Mode Collapse

생성 모델이 데이터의 다양한 패턴(모드)을 배우지 못하고(특히 RLHF로 특정 패턴에 편향이 생기며), 특정 패턴만 반복적으로 생성해버리는 문제다.

그 결과, “정답처럼 보이는 한 가지 표현”으로 수렴해 다양성이 급격히 줄어든다.


1. 해결법: Verbalized Sampling Prompt(VS)

verbalized-sampling

그림 왼쪽은 typicality bias로 인해 하나의 농담으로 수렴하는 모습이다. 오른쪽은 “여러 개의 응답과 확률을 함께 말하라”는 verbalized sampling을 통해 서로 다른 농담들이 한 번에 샘플링되는 과정을 보여준다.

1.1. Simple Prompt

You are a  helpful assistant.
For each query, please generate a set of five possible responses, each within a separate <response> tag.
Responses should each include a <text> and a numeric <probability>.
Please sample at random from the [full distribution / tails of the distribution, such that the probability of each response is less than 0.10].

핵심은 모델이 확률까지 “말로” 표현하게 만들어 분포의 꼬리까지 탐색하도록 유도하는 것이다.

1.2. 왜 효과적인가?

  • 직접 샘플링은 가장 그럴듯한 한 문장에 쏠리기 쉽다.
  • VS는 “다섯 개를 뽑아 확률까지 붙이라”는 제약이 있어 모델이 자연스럽게 다른 모드들을 찾아 분산된 응답을 내놓게 만든다.

2. 결과

2.1. 정량 평가

quantitative-results

💡 g~i에 사용되는 프롬프트

Generate five responses with probabilities below {threshold}

요약하면, VS 계열 프롬프트가 다양성 점수를 가장 크게 끌어올린다. 또한 일부 설정에서는 품질 저하 없이 다양성이 증가하는 영역(Pareto optimal)이 존재한다.

2.2. 정성 평가

qualitative-results

사람이 평가한 결과에서도 VS가 가장 높은 다양성 점수를 기록한다.

2.3. Direct vs. Verbalized Sampling

direct-vs-verbalized

스토리 작성, 대화 시뮬레이션, 열린 질문 등 다양한 태스크에서 VS가 더 폭넓은 분포를 만든다. 즉, 단순히 “다섯 개를 뽑아라”가 아니라 “확률까지 말하게 하는 것”이 핵심임을 보여준다.


정리

Verbalized Sampling은 학습 없이도 LLM의 다양성을 크게 높이는 간단한 프롬프트 기법이다. 다양성이 중요한 작업이라면, VS 프롬프트를 기본 옵션으로 고려할 만하다.

A. Verbalized Sampling을 제작한 GPTs 공유

ChatGPT - Verbalized Sampling

잘 만든 GPTs가 존재해서 공유한다. 직접 사용해보고 Verbalized Sampling의 효과를 체감해보자!

카테고리:

업데이트:

댓글남기기