논문 링크: https://arxiv.org/abs/2501.12948
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
We introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrates remarkable reasonin
arxiv.org

1. 서론
1.1 논문 선정 이유
Deepseek R1은 최신 대규모 언어 모델로서, 효율적인 학습 방식과 확장성을 강조한 연구이다. 최근 AI 모델의 크기가 기하급수적으로 증가함에 따라, 연산 비용 절감과 모델 효율성 개선이 중요한 연구 분야로 떠오르고 있다. 본 논문은 이러한 문제를 해결하기 위해 새로운 아키텍처와 최적화 기법을 제안하며, 최신 LLM 연구 동향을 파악하는 데 중요한 의미를 가진다.
2. 논문 요약
2.1 논문 제목 및 저자 정보
제목: Deepseek R1: Efficient and Scalable Language Model
저자: DeepSeek-AI
출처: DeepSeek-AI, 22 Jan 2025
2.2 연구 배경 및 목적
대규모 언어 모델(LLM)은 자연어 처리에서 혁신적인 성과를 보이고 있지만, 높은 연산 비용과 메모리 사용량으로 인해 실제 응용에서 제약이 많다. Deepseek R1은 이러한 문제를 해결하기 위해 효율적인 학습 전략과 모델 구조를 설계하여 성능을 유지하면서도 연산 비용을 줄이는 것을 목표로 한다.
3. 핵심 내용 분석
3.1 방법론
(a) DeepSeek-R1-Zero: 강화학습 기반 모델(GPRO)
DeepSeek-R1은 강화 학습(RL)을 활용하여 지도 학습 데이터 없이 LLM의 추론 능력을 발전시키는 방안을 탐구한다.
기존 강화 학습 방식은 평가 모델로 Agent의 행동을 평가하여 피드백을 제공하는 critic 모델과, 이를 기반으로 최적의 행동 정책을 학습하는 policy 모델로 구성된다. 하지만 이 방식은 두 개의 모델을 동시에 학습해야 하므로 연산 비용이 크고, 학습이 불안정해질 수 있다.
Critic 모델은 가치 함수(value function)를 학습하고, Policy 모델은 행동(policy)을 학습해야 한다. 따라서 두 개의 신경망을 동시에 최적화해야 하므로 메모리 사용량 증가 및 계산량 증가로 인해 학습 비용이 크다.
또한 기존 방식엔 학습 불안정성 문제가 있다. Critic 모델이 잘못된 가치 함수를 학습하면, Policy 모델이 이를 잘못된 방향으로 최적화할 가능성이 있다. Critic 모델 자체가 추정치를 기반으로 학습되므로 추론 오차가 누적될 가능성이 있으며, 이로 인해 학습이 불안정해질 수 있다. 특히, Critic 모델이 충분히 수렴하지 않은 상태에서 Policy 모델이 업데이트되면 비효율적인 탐색(exploration) 및 수렴 속도 저하가 발생할 수 있다.
따라서 이를 개선하기 위해 해당 논문에선 Group Relative Policy Optimization(GRPO) 기법을 사용하며, 이는 기존의 비판자(critic) 모델을 제거하고 그룹 점수 기반으로 기준을 설정하는 방식이다. 이 방법은 강화 학습의 비용을 절감하면서도 성능을 유지할 수 있도록 설계되었다.
GPRO는 기존 정책 모델 \( \pi_{\theta_{old}} \)에서 여러 개의 출력을 샘플링한 후, 새로운 정책 모델 \( \pi_{\theta} \)를 최적화하는 방식이다. 이를 위해 정책 업데이트 시 아래와 같은 목적 함수를 최대화한다.
$$ J_{\text{GRPO}}(\theta) = \mathbb{E} \left[ \frac{1}{G} \sum_{i=1}^{G} \min \left( \frac{\pi_{\theta}(o_i | q)}{\pi_{\theta_{\text{old}}}(o_i | q)} A_i, \text{clip} \left( \frac{\pi_{\theta}(o_i | q)}{\pi_{\theta_{\text{old}}}(o_i | q)}, 1 - \epsilon, 1 + \epsilon \right) A_i \right) \right] - \beta D_{\text{KL}} (\pi_{\theta} || \pi_{\text{ref}}) $$
여기서 \( A_i \)는 각 샘플의 이점(advantage)이며, 그룹 내 보상의 평균과 표준편차를 이용하여 정규화된다.
$$ A_i = \frac{r_i - \text{mean}(\{r_1, r_2, \dots, r_G\})}{\text{std}(\{r_1, r_2, \dots, r_G\})} $$
또한 KL 발산 항인 \( D_{KL}(\pi_{\theta} || \pi_{ref}) \)를 추가하여 새로운 정책이 기존 참조 정책과 과도하게 차이나지 않도록 규제한다. 이를 통해 모델의 학습 안정성을 높이고, 강화 학습의 수렴 속도를 개선할 수 있도록 한다.

일반적으로 강화 학습에서 보상(reward) 은 모델이 최적화할 방향을 결정하는 핵심 요소이다. DeepSeek-R1-Zero는 강화 학습 과정에서 신경망 기반 보상 모델 대신 규칙 기반 보상 시스템을 채택하여 안정성과 효율성을 확보한다.
정확도 보상(Accuracy Rewards)
- 모델이 객관적으로 정답을 평가할 수 있는 기준을 따르도록 강제한다.
- 예를 들어, 수학 문제에서는 답을 정해진 형식(예: □ 기호 안에 답 기입)으로 출력하도록 하여, 프로그램이 자동으로 평가할 수 있도록 한다.
- LeetCode 문제에서는 컴파일러를 활용하여 모델의 답변이 테스트 케이스를 통과하는지를 검증한다.
형식 보상(Format Rewards)
- 모델의 사고 과정을 <think> 및 </think> 태그 사이에 명시하도록 유도하여, 논리적인 사고 단계를 구조화한다.
- 이는 모델이 중간 사고 과정을 명확하게 표현하도록 하며, 사용자가 모델의 추론 과정을 쉽게 분석할 수 있도록 돕는다.
신경망 기반 보상 모델을 사용하지 않는 이유
- 보상 해킹(reward hacking) 문제: 모델이 보상을 극대화하기 위해 예상치 못한 방식으로 행동할 가능성이 있다. 예를 들어, 신경망 보상 모델이 특정한 문구를 선호하면, 모델이 의미 없이 그 문구를 반복하는 방식으로 보상을 높일 수도 있다.
- 추가 학습 비용 문제: 신경망 보상 모델은 훈련 후에도 보상 모델 자체를 재훈련해야 할 수 있으며, 이는 학습 자원과 시간이 추가로 소요되는 단점이 있다.
- 훈련 과정 복잡성 증가: 신경망 보상 모델을 사용할 경우, 정책 모델(policy model)과 함께 보상 모델까지 최적화해야 하므로 전체 학습 과정이 더 복잡해진다.
따라서, DeepSeek-R1-Zero는 보다 단순하고 효율적인 규칙 기반 보상 시스템을 채택하여 강화 학습을 최적화한다.
(b) Aha Moment
DeepSeek-R1-Zero의 훈련 과정에서 "Aha Moment"라는 흥미로운 현상이 관찰되었다. 이는 모델이 자신의 초기 접근 방식을 재평가하고, 문제 해결을 위해 더 많은 사고 시간을 할당하는 단계에서 발생한다. 이 현상은 모델의 추론 능력이 향상되고 있음을 보여주며, 강화 학습이 예상치 못한 정교한 결과를 도출할 수 있음을 시사한다.
연구자들에게도 이는 중요한 순간이었다. 강화 학습은 직접적인 문제 해결 방법을 가르치는 것이 아니라, 적절한 보상 신호를 제공함으로써 모델이 스스로 고급 전략을 개발하도록 유도한다. 이러한 "Aha Moment"는 인공지능 시스템이 더 자율적이고 적응적인 모델로 발전할 가능성을 보여주는 중요한 사례로 평가된다.

(c) DeepSeek-R1: Reinforcement Learning with Cold Start
DeepSeek-R1-Zero의 성공을 바탕으로, 연구진은 두 가지 질문을 제기했다.
- 소량의 고품질 데이터(cold start data)를 활용하면 추론 성능을 더 향상시키거나 학습 수렴 속도를 가속화할 수 있는가?
- 더 사용자 친화적인 모델을 만들려면 어떻게 해야 하는가? 즉, 명확하고 일관된 Chain of Thought(CoT)을 생성하면서도 일반적인 문제 해결 능력이 뛰어난 모델을 학습할 수 있는가에 대한 의문이다.
이를 해결하기 위해 DeepSeek-R1 훈련 파이프라인을 설계했으며, 그 첫 단계가 Cold Start 전략이다. Cold Start란 초기 학습 단계에서 모델이 충분한 경험이나 데이터 없이 불안정한 상태에서 시작하는 문제를 의미한다. DeepSeek-R1에서는 이를 해결하기 위해 소량의 긴 고품질의 Chain of Thought(CoT) 데이터를 수집하여 모델을 미세 조정(fine-tuning) 하였다. 이를 통해 훈련 안정성을 높이고 학습 속도를 가속화할 수 있었다. 즉, Cold Start 전략은 기존 DeepSeek-R1-Zero와 달리, 강화 학습 초기에 모델이 불안정해지는 문제를 방지하기 위함이다.
데이터 수집 방법은 다음과 같다.
- Few-shot prompting: 긴 CoT 예제를 제공하며 모델이 이를 따르게 유도
- 직접 프롬프트를 활용하여 상세한 답변 생성. reflection(자기반성) 및 검증 포함
- DeepSeek-R1-Zero의 출력을 가독성 높은 형식으로 변환
- 사람이 후처리(post-processing)를 통해 결과를 개선
이렇게 수집한 수천 개의 cold-start 데이터를 이용해 DeepSeek-V3-Base를 미세 조정하여 RL의 출발점으로 활용한다. Cold Start 데이터의 장점은 크게 두 가지이다.
가독성(Readability) 개선
- DeepSeek-R1-Zero는 출력 내용이 읽기 어려운 경우가 많다. (예: 여러 언어가 섞이거나, 마크다운 형식이 부족하여 가독성이 떨어짐)
- DeepSeek-R1에서는 가독성 높은 형식을 설계하여, 응답의 끝에 요약을 추가하고, 비효율적인 출력을 필터링한다.
|special_token|<reasoning_process>|special_token|<summary>
- <reasoning_process>: 해당 질문에 대한 Chain of Thought(CoT)
- <summary>: 최종 추론 결과를 요약
성능(Potential) 향상
- Cold-start 데이터를 신중하게 설계하여 모델이 더 논리적이고 체계적인 사고 과정을 따를 수 있도록 유도한다.
- DeepSeek-R1-Zero 대비 성능이 개선됨을 관찰했으며, 점진적인(iterative) 학습이 추론 모델을 훈련하는 더 효과적인 방법이라고 판단했다.
(d) Distillation: Empower Small Models with Reasoning Capability
Distillation(지식 증류)는 큰 모델의 학습 결과를 작은 모델에 전달하여, 더 효율적인 모델을 만드는 과정이다. DeepSeek-R1의 추론 능력을 Qwen 및 Llama 같은 소형 모델에서도 구현하기 위해 80만 개의 학습 데이터를 활용해 미세 조정(SFT) 을 수행했다.
이 연구에서 강화 학습(RL)을 적용하지 않고도 SFT만으로 작은 모델의 추론 능력을 크게 향상시킬 수 있음을 확인했다. 즉, DeepSeek-R1이 생성한 고품질 학습 데이터만으로도 효과적인 추론 모델을 만들 수 있다는 점을 보여주었다.
3.2 실험 결과

- AIME 2024: AIME (American Invitational Mathematics Examination)는 미국 수학 경시대회의 2단계 시험이다.
- Codeforces: Codeforces는 프로그래밍 대회 플랫폼으로, 알고리즘 문제 풀이 성능을 평가하는 데 사용된다.
- GPQA Diamond: GPQA (General-Purpose Question Answering)는 다양한 분야의 질문에 대한 정답 생성 능력을 평가하는 벤치마크이다. Diamond 난이도는 가장 어려운 질문을 포함하며, Pass@1은 첫 번째 답변에서 정답을 맞힌 비율을 의미한다.
- MATH-500: MATH 벤치마크는 수학 문제 해결 능력을 평가하는 데이터셋이며, 500개 샘플을 포함한 고급 문제 세트이다. Pass@1은 첫 번째 시도로 정답을 맞힌 비율을 나타낸다.
- MMLU: MMLU (Massive Multitask Language Understanding)는 다양한 학문 분야에서 모델의 이해도를 측정하는 벤치마크이다. 역사, 과학, 법학 등 57개 분야의 문제를 포함하며, Pass@1은 첫 번째 시도로 정답을 맞힌 비율을 의미한다.
- SWE-bench Verified: SWE-bench (Software Engineering Benchmark)는 실제 소프트웨어 엔지니어링 문제 해결 능력을 평가하는 벤치마크이다. Verified는 코드 수정 또는 버그 수정이 실제로 성공했는지 검증된 비율을 나타낸다.
DeepSeek-R1은 다양한 벤치마크에서 우수한 성능을 보이며, 추론(reasoning), 지식(knowledge), 기타 일반적 능력에서 강점을 나타낸다. 추론 성능에서도 OpenAI-o1-1217보다 다소 우수한 성능을 보였으며, Knowledge 부문에서도 DeepSeek-R1은 강력한 성능을 보여주고 있다. 특히 교육 및 사실 검증 문제에서 우수한 결과를 보여준다. 뿐만 아니라 시험 문제뿐만 아니라 창의적 글쓰기, 문서 편집, 요약 등 다양한 실생활 작업에서도 강력한 성능을 보이고 있다.
3.3 결론
Deepseek R1은 효율적인 학습 및 추론을 가능하게 하는 새로운 접근 방식을 제시하며, 실제 응용에서 비용 절감과 성능 향상을 동시에 실현할 가능성을 보여준다. 그러나 여전히 특정 태스크에서 미세 조정이 필요하며, 대규모 데이터 학습에서의 최적화가 추가적으로 요구된다.
4. 장점과 한계
4.1 연구의 장점
- 연산 비용 절감: 고성능을 유지하면서도 효율적인 연산을 수행할 수 있음.
- 모듈형 구조: 다양한 태스크에 맞게 모델을 쉽게 조정 가능함.
- 적응형 추론: 실시간 응용에서의 속도를 개선함.
여기서 연산 비용 절감 부문이 최근 주식시장에도 크게 작용한 요소였다.
4.2 연구의 한계와 개선 가능성
- 일반적인 능력: DeepSeek-R1은 함수 호출, 멀티턴 대화, 복잡한 역할 수행, JSON 출력 등의 task에서 DeepSeek-V3보다 성능이 떨어진다.
- 언어 혼합 문제: DeepSeek-R1은 현재 중국어와 영어에 최적화되어 있어, 다른 언어의 질문을 처리할 때 언어 혼합 문제가 발생할 수 있다. 즉, 영어와 중국어가 아닌 언어로 질문해도 DeepSeek-R1이 영어로 추론 및 응답할 가능성이 있다.
- 프롬프트 엔지니어링: DeepSeek-R1은 프롬프트에 민감하게 반응하는 경향이 있다. 특히, few-shot 프롬프트를 사용할 경우 성능이 저하된다. 따라서, 문제를 직접 설명하고 출력 형식을 지정하는 zero-shot 설정을 활용하는 것이 최적의 결과를 얻는 방법이다.
- 소프트웨어 엔지니어링: 소프트웨어 엔지니어링 벤치마크에서 DeepSeek-V3 에 비해 큰 개선을 보여주지 못했으며, 향후 버전에서는 소프트웨어 엔지니어링 데이터에 대한 reject sampling을 구현하거나 RL 과정 중 비동기 평가를 통합하여 효율성을 개선 필요하다.
5. 관련 연구 및 응용
5.1 관련 연구 비교
- GPT-4: 초거대 모델로 높은 성능을 보이지만, 연산 비용이 매우 높음.
- Llama 2: 오픈소스 기반 모델로 Deepseek R1과 유사한 목표를 가짐.
- Mistral 7B: 효율적인 LLM 구조를 갖추었으며, Deepseek R1과 비교 대상이 될 수 있음.
5.2 실질적 응용 가능성
- AI 챗봇 및 가상 비서: 연산 비용을 줄이면서도 높은 성능을 제공하는 모델로서 활용 가능함.
- 기업용 자동화 시스템: 효율적인 언어 이해 및 생성 기능을 통해 고객 서비스, 문서 요약 등에 활용 가능함.
- 실시간 번역 및 질의응답 시스템: 적응형 추론을 통해 빠르고 정확한 응답을 제공할 수 있음.
결론
Deepseek R1은 대규모 언어 모델의 효율성을 극대화하는 혁신적인 연구로, 연산 비용 절감과 성능 유지를 동시에 달성하는 접근 방식을 제안하였다. 향후 연구에서는 장기 문맥 유지 및 특정 태스크에 대한 최적화가 주요 과제가 될 것이다.
Appendix(추가 참고 문헌 등)
https://modulabs.co.kr/blog/deepseek-r1-introduction
https://community.heartcount.io/ko/deepseek-r1-review/
https://kimjy99.github.io/%EB%85%BC%EB%AC%B8%EB%A6%AC%EB%B7%B0/deepseek-r1/
논문 링크: https://arxiv.org/abs/2501.12948
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
We introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrates remarkable reasonin
arxiv.org

1. 서론
1.1 논문 선정 이유
Deepseek R1은 최신 대규모 언어 모델로서, 효율적인 학습 방식과 확장성을 강조한 연구이다. 최근 AI 모델의 크기가 기하급수적으로 증가함에 따라, 연산 비용 절감과 모델 효율성 개선이 중요한 연구 분야로 떠오르고 있다. 본 논문은 이러한 문제를 해결하기 위해 새로운 아키텍처와 최적화 기법을 제안하며, 최신 LLM 연구 동향을 파악하는 데 중요한 의미를 가진다.
2. 논문 요약
2.1 논문 제목 및 저자 정보
제목: Deepseek R1: Efficient and Scalable Language Model
저자: DeepSeek-AI
출처: DeepSeek-AI, 22 Jan 2025
2.2 연구 배경 및 목적
대규모 언어 모델(LLM)은 자연어 처리에서 혁신적인 성과를 보이고 있지만, 높은 연산 비용과 메모리 사용량으로 인해 실제 응용에서 제약이 많다. Deepseek R1은 이러한 문제를 해결하기 위해 효율적인 학습 전략과 모델 구조를 설계하여 성능을 유지하면서도 연산 비용을 줄이는 것을 목표로 한다.
3. 핵심 내용 분석
3.1 방법론
(a) DeepSeek-R1-Zero: 강화학습 기반 모델(GPRO)
DeepSeek-R1은 강화 학습(RL)을 활용하여 지도 학습 데이터 없이 LLM의 추론 능력을 발전시키는 방안을 탐구한다.
기존 강화 학습 방식은 평가 모델로 Agent의 행동을 평가하여 피드백을 제공하는 critic 모델과, 이를 기반으로 최적의 행동 정책을 학습하는 policy 모델로 구성된다. 하지만 이 방식은 두 개의 모델을 동시에 학습해야 하므로 연산 비용이 크고, 학습이 불안정해질 수 있다.
Critic 모델은 가치 함수(value function)를 학습하고, Policy 모델은 행동(policy)을 학습해야 한다. 따라서 두 개의 신경망을 동시에 최적화해야 하므로 메모리 사용량 증가 및 계산량 증가로 인해 학습 비용이 크다.
또한 기존 방식엔 학습 불안정성 문제가 있다. Critic 모델이 잘못된 가치 함수를 학습하면, Policy 모델이 이를 잘못된 방향으로 최적화할 가능성이 있다. Critic 모델 자체가 추정치를 기반으로 학습되므로 추론 오차가 누적될 가능성이 있으며, 이로 인해 학습이 불안정해질 수 있다. 특히, Critic 모델이 충분히 수렴하지 않은 상태에서 Policy 모델이 업데이트되면 비효율적인 탐색(exploration) 및 수렴 속도 저하가 발생할 수 있다.
따라서 이를 개선하기 위해 해당 논문에선 Group Relative Policy Optimization(GRPO) 기법을 사용하며, 이는 기존의 비판자(critic) 모델을 제거하고 그룹 점수 기반으로 기준을 설정하는 방식이다. 이 방법은 강화 학습의 비용을 절감하면서도 성능을 유지할 수 있도록 설계되었다.
GPRO는 기존 정책 모델
여기서
또한 KL 발산 항인

일반적으로 강화 학습에서 보상(reward) 은 모델이 최적화할 방향을 결정하는 핵심 요소이다. DeepSeek-R1-Zero는 강화 학습 과정에서 신경망 기반 보상 모델 대신 규칙 기반 보상 시스템을 채택하여 안정성과 효율성을 확보한다.
정확도 보상(Accuracy Rewards)
- 모델이 객관적으로 정답을 평가할 수 있는 기준을 따르도록 강제한다.
- 예를 들어, 수학 문제에서는 답을 정해진 형식(예: □ 기호 안에 답 기입)으로 출력하도록 하여, 프로그램이 자동으로 평가할 수 있도록 한다.
- LeetCode 문제에서는 컴파일러를 활용하여 모델의 답변이 테스트 케이스를 통과하는지를 검증한다.
형식 보상(Format Rewards)
- 모델의 사고 과정을 <think> 및 </think> 태그 사이에 명시하도록 유도하여, 논리적인 사고 단계를 구조화한다.
- 이는 모델이 중간 사고 과정을 명확하게 표현하도록 하며, 사용자가 모델의 추론 과정을 쉽게 분석할 수 있도록 돕는다.
신경망 기반 보상 모델을 사용하지 않는 이유
- 보상 해킹(reward hacking) 문제: 모델이 보상을 극대화하기 위해 예상치 못한 방식으로 행동할 가능성이 있다. 예를 들어, 신경망 보상 모델이 특정한 문구를 선호하면, 모델이 의미 없이 그 문구를 반복하는 방식으로 보상을 높일 수도 있다.
- 추가 학습 비용 문제: 신경망 보상 모델은 훈련 후에도 보상 모델 자체를 재훈련해야 할 수 있으며, 이는 학습 자원과 시간이 추가로 소요되는 단점이 있다.
- 훈련 과정 복잡성 증가: 신경망 보상 모델을 사용할 경우, 정책 모델(policy model)과 함께 보상 모델까지 최적화해야 하므로 전체 학습 과정이 더 복잡해진다.
따라서, DeepSeek-R1-Zero는 보다 단순하고 효율적인 규칙 기반 보상 시스템을 채택하여 강화 학습을 최적화한다.
(b) Aha Moment
DeepSeek-R1-Zero의 훈련 과정에서 "Aha Moment"라는 흥미로운 현상이 관찰되었다. 이는 모델이 자신의 초기 접근 방식을 재평가하고, 문제 해결을 위해 더 많은 사고 시간을 할당하는 단계에서 발생한다. 이 현상은 모델의 추론 능력이 향상되고 있음을 보여주며, 강화 학습이 예상치 못한 정교한 결과를 도출할 수 있음을 시사한다.
연구자들에게도 이는 중요한 순간이었다. 강화 학습은 직접적인 문제 해결 방법을 가르치는 것이 아니라, 적절한 보상 신호를 제공함으로써 모델이 스스로 고급 전략을 개발하도록 유도한다. 이러한 "Aha Moment"는 인공지능 시스템이 더 자율적이고 적응적인 모델로 발전할 가능성을 보여주는 중요한 사례로 평가된다.

(c) DeepSeek-R1: Reinforcement Learning with Cold Start
DeepSeek-R1-Zero의 성공을 바탕으로, 연구진은 두 가지 질문을 제기했다.
- 소량의 고품질 데이터(cold start data)를 활용하면 추론 성능을 더 향상시키거나 학습 수렴 속도를 가속화할 수 있는가?
- 더 사용자 친화적인 모델을 만들려면 어떻게 해야 하는가? 즉, 명확하고 일관된 Chain of Thought(CoT)을 생성하면서도 일반적인 문제 해결 능력이 뛰어난 모델을 학습할 수 있는가에 대한 의문이다.
이를 해결하기 위해 DeepSeek-R1 훈련 파이프라인을 설계했으며, 그 첫 단계가 Cold Start 전략이다. Cold Start란 초기 학습 단계에서 모델이 충분한 경험이나 데이터 없이 불안정한 상태에서 시작하는 문제를 의미한다. DeepSeek-R1에서는 이를 해결하기 위해 소량의 긴 고품질의 Chain of Thought(CoT) 데이터를 수집하여 모델을 미세 조정(fine-tuning) 하였다. 이를 통해 훈련 안정성을 높이고 학습 속도를 가속화할 수 있었다. 즉, Cold Start 전략은 기존 DeepSeek-R1-Zero와 달리, 강화 학습 초기에 모델이 불안정해지는 문제를 방지하기 위함이다.
데이터 수집 방법은 다음과 같다.
- Few-shot prompting: 긴 CoT 예제를 제공하며 모델이 이를 따르게 유도
- 직접 프롬프트를 활용하여 상세한 답변 생성. reflection(자기반성) 및 검증 포함
- DeepSeek-R1-Zero의 출력을 가독성 높은 형식으로 변환
- 사람이 후처리(post-processing)를 통해 결과를 개선
이렇게 수집한 수천 개의 cold-start 데이터를 이용해 DeepSeek-V3-Base를 미세 조정하여 RL의 출발점으로 활용한다. Cold Start 데이터의 장점은 크게 두 가지이다.
가독성(Readability) 개선
- DeepSeek-R1-Zero는 출력 내용이 읽기 어려운 경우가 많다. (예: 여러 언어가 섞이거나, 마크다운 형식이 부족하여 가독성이 떨어짐)
- DeepSeek-R1에서는 가독성 높은 형식을 설계하여, 응답의 끝에 요약을 추가하고, 비효율적인 출력을 필터링한다.
|special_token|<reasoning_process>|special_token|<summary>
- <reasoning_process>: 해당 질문에 대한 Chain of Thought(CoT)
- <summary>: 최종 추론 결과를 요약
성능(Potential) 향상
- Cold-start 데이터를 신중하게 설계하여 모델이 더 논리적이고 체계적인 사고 과정을 따를 수 있도록 유도한다.
- DeepSeek-R1-Zero 대비 성능이 개선됨을 관찰했으며, 점진적인(iterative) 학습이 추론 모델을 훈련하는 더 효과적인 방법이라고 판단했다.
(d) Distillation: Empower Small Models with Reasoning Capability
Distillation(지식 증류)는 큰 모델의 학습 결과를 작은 모델에 전달하여, 더 효율적인 모델을 만드는 과정이다. DeepSeek-R1의 추론 능력을 Qwen 및 Llama 같은 소형 모델에서도 구현하기 위해 80만 개의 학습 데이터를 활용해 미세 조정(SFT) 을 수행했다.
이 연구에서 강화 학습(RL)을 적용하지 않고도 SFT만으로 작은 모델의 추론 능력을 크게 향상시킬 수 있음을 확인했다. 즉, DeepSeek-R1이 생성한 고품질 학습 데이터만으로도 효과적인 추론 모델을 만들 수 있다는 점을 보여주었다.
3.2 실험 결과

- AIME 2024: AIME (American Invitational Mathematics Examination)는 미국 수학 경시대회의 2단계 시험이다.
- Codeforces: Codeforces는 프로그래밍 대회 플랫폼으로, 알고리즘 문제 풀이 성능을 평가하는 데 사용된다.
- GPQA Diamond: GPQA (General-Purpose Question Answering)는 다양한 분야의 질문에 대한 정답 생성 능력을 평가하는 벤치마크이다. Diamond 난이도는 가장 어려운 질문을 포함하며, Pass@1은 첫 번째 답변에서 정답을 맞힌 비율을 의미한다.
- MATH-500: MATH 벤치마크는 수학 문제 해결 능력을 평가하는 데이터셋이며, 500개 샘플을 포함한 고급 문제 세트이다. Pass@1은 첫 번째 시도로 정답을 맞힌 비율을 나타낸다.
- MMLU: MMLU (Massive Multitask Language Understanding)는 다양한 학문 분야에서 모델의 이해도를 측정하는 벤치마크이다. 역사, 과학, 법학 등 57개 분야의 문제를 포함하며, Pass@1은 첫 번째 시도로 정답을 맞힌 비율을 의미한다.
- SWE-bench Verified: SWE-bench (Software Engineering Benchmark)는 실제 소프트웨어 엔지니어링 문제 해결 능력을 평가하는 벤치마크이다. Verified는 코드 수정 또는 버그 수정이 실제로 성공했는지 검증된 비율을 나타낸다.
DeepSeek-R1은 다양한 벤치마크에서 우수한 성능을 보이며, 추론(reasoning), 지식(knowledge), 기타 일반적 능력에서 강점을 나타낸다. 추론 성능에서도 OpenAI-o1-1217보다 다소 우수한 성능을 보였으며, Knowledge 부문에서도 DeepSeek-R1은 강력한 성능을 보여주고 있다. 특히 교육 및 사실 검증 문제에서 우수한 결과를 보여준다. 뿐만 아니라 시험 문제뿐만 아니라 창의적 글쓰기, 문서 편집, 요약 등 다양한 실생활 작업에서도 강력한 성능을 보이고 있다.
3.3 결론
Deepseek R1은 효율적인 학습 및 추론을 가능하게 하는 새로운 접근 방식을 제시하며, 실제 응용에서 비용 절감과 성능 향상을 동시에 실현할 가능성을 보여준다. 그러나 여전히 특정 태스크에서 미세 조정이 필요하며, 대규모 데이터 학습에서의 최적화가 추가적으로 요구된다.
4. 장점과 한계
4.1 연구의 장점
- 연산 비용 절감: 고성능을 유지하면서도 효율적인 연산을 수행할 수 있음.
- 모듈형 구조: 다양한 태스크에 맞게 모델을 쉽게 조정 가능함.
- 적응형 추론: 실시간 응용에서의 속도를 개선함.
여기서 연산 비용 절감 부문이 최근 주식시장에도 크게 작용한 요소였다.
4.2 연구의 한계와 개선 가능성
- 일반적인 능력: DeepSeek-R1은 함수 호출, 멀티턴 대화, 복잡한 역할 수행, JSON 출력 등의 task에서 DeepSeek-V3보다 성능이 떨어진다.
- 언어 혼합 문제: DeepSeek-R1은 현재 중국어와 영어에 최적화되어 있어, 다른 언어의 질문을 처리할 때 언어 혼합 문제가 발생할 수 있다. 즉, 영어와 중국어가 아닌 언어로 질문해도 DeepSeek-R1이 영어로 추론 및 응답할 가능성이 있다.
- 프롬프트 엔지니어링: DeepSeek-R1은 프롬프트에 민감하게 반응하는 경향이 있다. 특히, few-shot 프롬프트를 사용할 경우 성능이 저하된다. 따라서, 문제를 직접 설명하고 출력 형식을 지정하는 zero-shot 설정을 활용하는 것이 최적의 결과를 얻는 방법이다.
- 소프트웨어 엔지니어링: 소프트웨어 엔지니어링 벤치마크에서 DeepSeek-V3 에 비해 큰 개선을 보여주지 못했으며, 향후 버전에서는 소프트웨어 엔지니어링 데이터에 대한 reject sampling을 구현하거나 RL 과정 중 비동기 평가를 통합하여 효율성을 개선 필요하다.
5. 관련 연구 및 응용
5.1 관련 연구 비교
- GPT-4: 초거대 모델로 높은 성능을 보이지만, 연산 비용이 매우 높음.
- Llama 2: 오픈소스 기반 모델로 Deepseek R1과 유사한 목표를 가짐.
- Mistral 7B: 효율적인 LLM 구조를 갖추었으며, Deepseek R1과 비교 대상이 될 수 있음.
5.2 실질적 응용 가능성
- AI 챗봇 및 가상 비서: 연산 비용을 줄이면서도 높은 성능을 제공하는 모델로서 활용 가능함.
- 기업용 자동화 시스템: 효율적인 언어 이해 및 생성 기능을 통해 고객 서비스, 문서 요약 등에 활용 가능함.
- 실시간 번역 및 질의응답 시스템: 적응형 추론을 통해 빠르고 정확한 응답을 제공할 수 있음.
결론
Deepseek R1은 대규모 언어 모델의 효율성을 극대화하는 혁신적인 연구로, 연산 비용 절감과 성능 유지를 동시에 달성하는 접근 방식을 제안하였다. 향후 연구에서는 장기 문맥 유지 및 특정 태스크에 대한 최적화가 주요 과제가 될 것이다.
Appendix(추가 참고 문헌 등)
https://modulabs.co.kr/blog/deepseek-r1-introduction
https://community.heartcount.io/ko/deepseek-r1-review/
https://kimjy99.github.io/%EB%85%BC%EB%AC%B8%EB%A6%AC%EB%B7%B0/deepseek-r1/