중국 AI 스타트 업 DeepSeek은 수학 중심 언어 모델로 놀라운 업그레이드를 중단하여 R2로 알려진 다가오는 차세대 추론 시스템에 대한 추측을 강화했습니다.
이 회사는 새로운 모델에 대해 단단히 설립 된 반면, 수학적 증거 해결을 위해 미세 조정 된 671 억 개의 파라미터 모델 인 Prover-V2의 갑작스런 릴리스는 개발자와 투자자 커뮤니티에서 온라인 채터를 통치했습니다.
DeepSeek의 V3 Foundation을 기반으로 한 새로운 모델은 수요일 (4 월 30 일)에 조용히 열렸습니다. 지난 8 월에 시작된 Prover-V1.5에 기반을두고 학계와 경쟁적인 수학 서클의 관심을 끌었습니다.
Prover-V2는 오랫동안 기다려온 R2가 아니지만 핵심 디딤돌로 널리 해석되었습니다. X와 Reddit의 사용자는이를 수학 능력 업그레이드라고 부릅니다. 중국의 가장 많이 보는 AI 스타트 업에서 추론 중심의 LLM의 다음 도약에 대한 토대를 마련하고 있다고 South China Morning Post는 보도했습니다.
Liang Wenfeng이 2023 년에 그의 정량적 헤지 펀드 High-Flyer의 스핀 아웃으로 설립 한 Deepseek은 1 월에 출시 된 R1 모델로 전 세계적으로 관심을 끌었습니다. R1은 훨씬 적은 리소스를 사용하면서 OpenAi의 O1 레벨 성능을 일부 비용으로 일치시켜 AI 세계를 기절 시켰습니다. 그 성공은 다음에 오는 모든 것에 대한 기대치를 하늘로 설정했습니다.
R2의 타임 라인 없음
그러나 DeepSeek은 R2에 대한 공개 타임 라인을 제공하지 않았습니다. 이 회사는 소셜 미디어 추측에 의해 채워진 정보의 진공 청소기를 공급하는 연구 논문과 모델 업데이트를 거의 공개하지 않았습니다. Deepseek 연구원의 한 바이러스 포스트는 Prover-V2를 단순히 발표하면 R2 릴리스에 대한 답장을 일으켰습니다. 한 사용자가 썼다.
Jiuyangongshe와 같은 중국 주식 거래 포럼에서 더 많은 소문이 나왔는데, 임박한 R2 드롭의 소문이 서부 플랫폼으로 쏟아졌습니다. 주목할만한 미국 벤처 캐피탈 투자자는 X의 채터를 집어 들고 뉴스를 더 넓은 투자자 서클에 추진했습니다. “DeepSeek”및 “R2″에 대한 검색은 지난 주 동안 Google 트렌드를 급증했습니다.
음모를 더하기 위해 DeepSeek은 이제 조용히 채용을 시작하고 있습니다. 이 회사는 최근 베이징 또는 항저우에 본사를 둔 최초의 제품 및 디자인 리드에 대한 오프닝을 게시했습니다. 작업 설명은 LLM Tech에 뿌리를 둔“차세대 지능형 제품 경험”을 구축해야합니다. 스타트 업은 또한 최고 재무 책임자 및 최고 운영 책임자를 적극적으로 채용하고 있습니다.
중국의 경쟁
이것은 다른 주요 중국 기업들이 게임을 시작하는 것처럼옵니다. 화요일에 Alibaba는 회사가 여러 지표에서 DeepSeek-R1을 능가한다고 말한 최신 모델 인 QWEN3을 공개했습니다. 이 발표는 일부 사람들이 활을 가로 질러 총을 쏘아서 후속 조치를 취하기 위해 Deepseek의 압력을 높이는 것으로 보였다.
한편, 미국에서 Openai는 최근 O3와 O4-Mini를 발표하여“현재까지 가장 유능한 모델”으로 선전했습니다. DeepSeek은 수출 제한으로 인해 최첨단 NVIDIA 칩에 대한 접근성이 부족하지만, 제한된 하드웨어의 성능을 극대화하고 기술자 및 정책 입안자들의 관심을 끌기위한 명성을 얻었습니다.
Prover-V2의 출시는 일부 사람들이 기대했던 세대의 도약이 아닐 수도 있지만, DeepSeek은 유휴 상태와는 거리가 멀다는 것을 암시합니다. 회사가 확장하고 과대 광고를 빨리 가면서 이제 질문은 R2가 오는 지 여부가 아니라 실제로 그것을 보는 데 얼마나 가까운 지에 대한 질문입니다.