딥시크, AI 개발의 판을 흔들다: 싸게, 빠르게, 창의적으로
1. 늦게 왔지만 강력하게 등장한 딥시크
요즘 AI 시장을 조금이라도 들여다봤다면 '딥시크(DeepSeek)'라는 이름을 한 번쯤은 들어보셨을 겁니다. 그런데 이 이름, 단순히 가격이 싸서 화제가 된 건 아닙니다. 많은 매체들이 "오, GPT랑 성능 비슷한데 가격은 이만큼밖에 안 해!"라고 외치고 있지만, 진짜 중요한 질문은 이겁니다. "어떻게 그게 가능했을까?"오늘은 딥시크가 어떻게 기술적으로 이 가격 경쟁력을 확보했는지를 깊이 있게 살펴보려 합니다. 단순한 벤치마킹을 넘어, 개발자들의 말 그대로 하드캐리가 이뤄낸 결과이기 때문입니다.
2. 딥시크가 맞서야 했던 세 가지 현실
딥시크는 몇 가지 절망적인 조건 속에서 시작했습니다.첫째, 시장의 후발 주자였습니다. 이미 오픈AI, 메타, 앤트로픽 같은 선도 기업들이 시장을 장악하고 있었죠. 둘째, 성능 좋은 GPU가 부족했습니다. 미국이 금지한 최신 GPU 대신 H800 같은 저사양 GPU로 승부해야 했습니다.
셋째, 막대한 자금력도 없었습니다. 소프트뱅크의 전폭적인 지원을 받는 기업들과는 달랐죠.
그런데 이 모든 불리한 조건을 극복하고 존재감을 드러낸 딥시크. 그 비결은 무엇이었을까요?
이 방식은 빠르고 비용 효율적입니다. 오픈AI가 수천억 개의 토큰으로 모델을 처음부터 훈련시킨 것과는 다르게, 딥시크는 며칠 만에 유사한 수준의 성능을 내는 모델을 만들 수 있었습니다. 기술적으로야 합법이지만, 오픈AI는 딥시크가 자신들의 응답을 몰래 학습 데이터로 사용했다고 의심하며 법적 대응을 준비 중입니다.
프레임워크는 편리하지만, 메모리와 자원을 많이 차지합니다. 딥시크는 그런 사치를 감당할 수 없었습니다. 그래서 더 어렵고, 더 비효율적인 방식이지만, PTX를 통해 GPU 메모리를 직접 관리하며 성능을 극대화했습니다. 연산 코어를 직접 재구성하고 스케줄링 알고리즘까지 손수 다듬었습니다. 말 그대로 개발자의 하드캐리입니다.
그래서 선택한 방식이 바로 'AI가 AI를 가르치는 방식', 즉 규칙 기반 강화학습입니다. AI가 다양한 답변을 만들어내고, 그중 가장 타당한 답변에 높은 보상 점수를 주는 방식입니다. 이를 통해 AI는 점점 더 나은 답변을 학습하게 됩니다.
이 과정에서 흥미로운 현상이 나타났습니다. 어느 순간부터 모델이 스스로 사고의 깊이를 늘리고, 답변을 길게 하며, 창의적인 문제 해결 방식을 선택하기 시작한 겁니다. 이른바 "아하 모멘트"입니다. 인간이 정해준 방식이 아니라, AI가 스스로 더 나은 방식을 선택하며 발전하는 모습이 관찰된 것입니다.
물론 이런 점은 R1 버전에서 개선됐습니다. 인간 중심의 UI와 응답 방식을 추가해 사용자 친화적인 형태로 다듬어진 것이죠. 하지만 이 창의적인 언어 혼합은 AI가 정말 스스로 생각하고 있다는 징후로 받아들여질 수 있습니다.
하지만 이번 딥시크 사례가 보여주는 건 단 하나. AI 기술은 이제 가격 경쟁의 단계로 접어들었다는 점입니다. 처음엔 독점과 고비용의 기술이었지만, 이제는 복제와 벤치마킹을 통해 다수의 기업이 경쟁에 뛰어들기 시작한 겁니다.
그런데 이 모든 불리한 조건을 극복하고 존재감을 드러낸 딥시크. 그 비결은 무엇이었을까요?
3. 지식 증류, 선두를 따라잡는 가장 빠른 방식
딥시크가 채택한 첫 번째 전략은 '지식 증류(Knowledge Distillation)'입니다. 이미 훈련된 대형 AI 모델들에게 질문을 던지고 그들의 답변을 바탕으로 자신들의 모델을 빠르게 훈련시키는 방식입니다. 마치 아인슈타인과 몇 시간만 인터뷰해도 천재가 될 수 있다는 것처럼, 이들은 GPT 같은 기존 모델에게 배움을 청한 겁니다.이 방식은 빠르고 비용 효율적입니다. 오픈AI가 수천억 개의 토큰으로 모델을 처음부터 훈련시킨 것과는 다르게, 딥시크는 며칠 만에 유사한 수준의 성능을 내는 모델을 만들 수 있었습니다. 기술적으로야 합법이지만, 오픈AI는 딥시크가 자신들의 응답을 몰래 학습 데이터로 사용했다고 의심하며 법적 대응을 준비 중입니다.
4. PTX를 활용한 극한의 메모리 최적화
딥시크의 두 번째 무기는 소프트웨어 최적화였습니다. GPU가 부족하다면, 그 효율을 극대화하면 됩니다. 이를 위해 딥시크는 엔비디아의 쿠다(CUDA) 프레임워크를 과감히 버리고, PTX라는 저수준 어셈블리어를 직접 활용했습니다.프레임워크는 편리하지만, 메모리와 자원을 많이 차지합니다. 딥시크는 그런 사치를 감당할 수 없었습니다. 그래서 더 어렵고, 더 비효율적인 방식이지만, PTX를 통해 GPU 메모리를 직접 관리하며 성능을 극대화했습니다. 연산 코어를 직접 재구성하고 스케줄링 알고리즘까지 손수 다듬었습니다. 말 그대로 개발자의 하드캐리입니다.
5. 인간 없이 AI가 AI를 훈련시키는 법
하지만 모델 성능의 70~80%는 증류로 따라잡을 수 있어도, 나머지 20~30%는 고유의 방식으로 만들어야 합니다. 오픈AI는 이를 위해 인간 리뷰어와 지도학습을 사용했지만, 딥시크는 그럴 예산이 없었습니다.그래서 선택한 방식이 바로 'AI가 AI를 가르치는 방식', 즉 규칙 기반 강화학습입니다. AI가 다양한 답변을 만들어내고, 그중 가장 타당한 답변에 높은 보상 점수를 주는 방식입니다. 이를 통해 AI는 점점 더 나은 답변을 학습하게 됩니다.
이 과정에서 흥미로운 현상이 나타났습니다. 어느 순간부터 모델이 스스로 사고의 깊이를 늘리고, 답변을 길게 하며, 창의적인 문제 해결 방식을 선택하기 시작한 겁니다. 이른바 "아하 모멘트"입니다. 인간이 정해준 방식이 아니라, AI가 스스로 더 나은 방식을 선택하며 발전하는 모습이 관찰된 것입니다.
6. 교포 AI? 4개 국어 섞는 창의력
딥시크 R10 모델은 심지어 답변을 4개 국어로 섞어서 하기 시작했습니다. 영어, 중국어, 한국어, 일본어 등이 혼합된 답변은 인간에게는 불편할 수 있지만, 기계 입장에서는 언어 장벽이 없는 것이 자연스럽습니다.물론 이런 점은 R1 버전에서 개선됐습니다. 인간 중심의 UI와 응답 방식을 추가해 사용자 친화적인 형태로 다듬어진 것이죠. 하지만 이 창의적인 언어 혼합은 AI가 정말 스스로 생각하고 있다는 징후로 받아들여질 수 있습니다.
7. 아직은 부족하지만, 싸움은 시작됐다
물론 아직 딥시크는 완전하지 않습니다. 민감한 질문에 대한 대응이나 보안 이슈는 여전히 GPT보다 부족합니다. 공격적이거나 위험한 질문에도 무분별하게 답변을 제공하는 경우가 있고, 허위 정보가 섞인 개인정보를 응답하기도 합니다.하지만 이번 딥시크 사례가 보여주는 건 단 하나. AI 기술은 이제 가격 경쟁의 단계로 접어들었다는 점입니다. 처음엔 독점과 고비용의 기술이었지만, 이제는 복제와 벤치마킹을 통해 다수의 기업이 경쟁에 뛰어들기 시작한 겁니다.
8. 플랫폼 전쟁의 서막, 진짜 싸움은 지금부터
모건스탠리는 이렇게 말했습니다. “소비자용 LLM이 범용화되는 세상에서는 배포 플랫폼이 핵심 자산이 될 것이며, 애플은 오늘날 가장 가치 있는 플랫폼을 보유하고 있다.” 즉, 기술을 누가 잘 만들었느냐보다, 누가 이 기술을 유저에게 전달하느냐가 더 중요해진다는 의미입니다. 아무리 좋은 AI를 만들어도 아이폰이 그것을 선택하지 않으면, 결국 주류가 되지 못할 수 있다는 이야기죠.이제 AI 전쟁은 기술을 넘어 플랫폼 싸움으로 접어들었습니다. 싸게 잘 만든 AI를 누가 어떻게 배포하느냐, 그리고 어떤 플랫폼이 그것을 선택해 줄 것이냐가 향후의 승패를 가를 핵심이 될 것입니다.