DeepSeek
| DeepSeek | |
| Иесі |
Лян Вэньфэн (Бас атқарушы директор) |
|---|---|
| Авторы | |
| Ашылған уақыты |
мамыр 2023 жыл |
| Қазіргі статусы |
жұмыс істеп тұр |
DeepSeek (қыт. 深度求索, пиньинь Shēndù Qiúsuǒ) — Қытайдың жасанды интеллект әзірлеу компаниясы, сондай-ақ үлкен тілдік модельдер отбасы. Компания Ханчжоу қаласында орналасқан және қытайлық High-Flyer хедж-қорымен құрылған әрі қаржыландырылады. 2024 жылы шығарылған DeepSeek-V3 моделі Qwen және ChatGPT сияқты заманауи тілдік модельдермен салыстырылатын деңгейде деп бағаланады.
Тарихы
2015 жылы Чжэцзян университетінің үш инженері High-Flyer компаниясын құрды. Компания акциялар саудасында машиналық оқыту технологияларын қолданды.[1] 2019 жылы жасанды интеллект алгоритмдерін зерттеумен айналысқан High-Flyer AI компаниясы құрылды.[2] 2021 жылға қарай High-Flyer стратегияларының барлығы ИИ негізінде жұмыс істеді, ал компанияны Renaissance Technologies-пен салыстырды.[3]
2023 жылғы сәуірде High-Flyer жалпы жасанды интеллектті зерттеуге арналған жаңа жобаны жариялады. Жоба акциялар саудасында қолданылмайды және High-Flyer қаржылық қызметінен бөлек жүзеге асырылады.[4][5] 2023 жылғы мамырда компания DeepSeek атауымен іске қосылды, оны High-Flyer хедж-қорының негізін қалаушылардың бірі Лян Вэньфэн басқарды.[2][5] DeepSeek әзірлемесін High-Flyer қаржыландырады.[3][5]
2024 жылғы мамырда DeepSeek-V2 моделінің шығарылуы Қытайда жасанды интеллект жүйелерінің бағалық бәсекесін туғызды, себебі бұл модель төмен бағамен жоғары өнімділік ұсынды. Бұқаралық ақпарат құралдарында оны «Pinduoduo ЖИ» деп атап, ByteDance, Tencent, Baidu және Alibaba секілді ірі технологиялық компаниялар өздерінің ИИ-модельдерінің бағасын төмендетуге мәжбүр болды. Бағасының төмен болуына қарамастан, DeepSeek жобасы пайда әкелгенін хабарлады, ал оның негізгі бәсекелестері шығынға ұшырағаны туралы деректер жарияланды.[6]
2024 жылдың соңына қарай DeepSeek зерттеу қызметімен айналысып жатыр және коммерцияландыруға қатысты нақты жоспарларын жарияламаған.[6]
South China Morning Post басылымының жазуынша, DeepSeek компаниясы жаңа қызметкерлерді жұмысқа қабылдау кезінде еңбек өтілінен гөрі қабілетіне басымдық берген. Соның нәтижесінде әзірлеушілердің басым бөлігі — жас түлектер немесе жасанды интеллект саласында карьерасының бастапқы кезеңіндегі мамандар.[5]
2025 жылға қарай DeepSeek АҚШ-тың жетекші технологиялық компаниялары әзірлеген деңгейдегі жасанды интеллект жүйесін жасап шыққанымен, ол анағұрлым қуаты төмен чиптерде және әлдеқайда аз шығынмен дайындалғанын мәлімделді. DeepSeek қызметкерлерінің айтуынша, V3 моделі Nvidia H800 чиптерінде оқытылған, ал бұл чиптер қуаты жағынан жаңа Nvidia Blackwell үлгілерінен айтарлықтай төмен.[7][8] Тәуелсіз сарапшылардың пікірінше, DeepSeek және басқа да қытайлық компаниялар белгілі бір артықшылыққа ие, себебі Қытай нарығында ChatGPT және басқа да бірқатар шетелдік модельдерге қолжетімділік «Ұлы Қытай фаерволы» арқылы шектелген.[9][10]
Шығарылымдар
2 қараша 2023 жылы DeepSeek компаниясы алғашқы моделі — DeepSeek Coder-ді таныстырды. Модель коммерциялық пайдалану мүмкіндігін қоса алғанда, тегін қолжетімді болды.[11] DeepSeek «ашық салмақты» (open-weight) модельдер жасап шығарады, олар толық ашық бастапқы кодтан сәл өзгеше: модель MIT лицензиясы бойынша еркін қолданылып, зерттеліп және дамытыла алады, бірақ оны оқытуға пайдаланылған деректер жарияланбайды.[12][13]
29 қараша 2023 жылы DeepSeek компаниясы 67 миллиард параметрлі үлкен тілдік модель — DeepSeek LLM-ді іске қосты. Модель сол кезеңдегі басқа LLM-дермен бәсекелесу үшін әзірленді және өнімділігі жағынан GPT-4 деңгейіне жақындады. Алайда есептеу тиімділігі мен ауқымдалуы бойынша мәселелер туындады.[11] Сонымен қатар, модельдің чат-нұсқасы DeepSeek Chat атауымен шығарылды.[14]
V2 және V3
2024 жылдың мамыр айында DeepSeek-V2 моделі шығарылды. Financial Times басылымының хабарлауынша, ол балама үлгілерге қарағанда арзанырақ болды және шығарылған әрбір миллион токен үшін 2 юань құнын құрады. Ватерлоо университетінің Tiger Lab зертханасы жүргізген LLM рейтингінде DeepSeek-V2 жетінші орынға ие болды.[3]
2024 жылдың желтоқсан айында DeepSeek-V3 іске қосылды. Өнімділік тесттері бұл нұсқаның Llama 3.1 және Qwen 2.5 үлгілерінен асып түскенін, сондай-ақ GPT-4o және Claude 3.5 Sonnet деңгейіне сәйкес келгенін көрсетті.[5][15][16][17] 2025 жылдың қаңтарына қарай тәуелсіз тексерулер әлі де жалғасып жатты.[9] DeepSeek мысалы АҚШ-тың Қытайдағы жасанды интеллектті дамытуға қарсы санкцияларының күтілгендей тиімді болмауы мүмкін екенін көрсетті.[5][18] Америкалық аналитик Рэй Вангтың пікірінше, Қытайдың заманауи ЖИ-чиптеріне толық қолжетімділігінің болмауы жергілікті зерттеушілерді шектеулі ресурстар жағдайында инновация жасауға итермелейді.[9] Өндірушінің деректеріне сәйкес, модельді оқытуға жұмсалған жалпы шығын шамамен 5,58 млн АҚШ долларын құрады, ал оқыту процесі екі айға жуық уақытқа созылған.[5]
DeepSeek-V3 үлгісі 685 млрд параметрден тұрады және көпэкспертті архитектураны (MoE) қолданады. Жүйеде 256 эксперт бар, олардың ішінен әрбір токен үшін 8-і ғана белсендіріледі. Бір токенді өңдеу кезінде 37 млрд параметр іске қосылады.[19]
| Кезең | Шығын (мың GPU-сағат) | Құны (млн АҚШ доллары) |
|---|---|---|
| Алдын ала даярлау | 2664 | 5,328 |
| Контекст көлемін ұлғайту | 119 | 0,24 |
| Жұқа баптау | 5 | 0,01 |
| Барлығы | 2788 | 5,576 |
R1
2024 жылғы қарашада логикалық қорытынды, математикалық пайымдау және нақты уақыттағы есептерді шешуге арналған DeepSeek-R1-Lite-Preview моделі ұсынылды. DeepSeek компаниясы AIME және MATH тесттерінде бұл модельдің өнімділігі OpenAI o1 моделінен жоғары болғанын мәлімдеді.[20] Алайда The Wall Street Journal басылымы AIME 2024 тесттеріндегі 15 тапсырма бойынша OpenAI o1 шешімдерді DeepSeek R1-Lite-Preview моделіне қарағанда жылдамырақ тапқанын жазды.[21]
2025 жылғы қаңтарда V3 негізінде жасалған DeepSeek-R1 және DeepSeek-R1-Zero үлгілері жарияланды. Бұл үлгілер алдыңғы нұсқаларға қарағанда неғұрлым жетілдірілген және жауаптарды адам ойлауына ұқсас қадам-қадаммен генерациялайды. Алғашқы сынақтарда математика, химия және бағдарламалау бойынша бірқатар тапсырмаларды орындау кезінде R1 өнімділігі o1 деңгейімен шамалас екені көрсетілді.[12][22][23]
2025 жылғы мамырда DeepSeek-R1 үлгісінің жетілдірілген нұсқасы шығарылды, оның параметрлер саны 671 миллиардтан 685 миллиардқа дейін артты.[24] Сонымен қатар Qwen3-8B тілдік моделін негіз еткен дистилляция әдісі арқылы жасалған жеңілдетілген нұсқа — DeepSeek-R1-0528-Qwen3-8B ұсынылды.[25]
V3.1
DeepSeek компаниясы 2025 жылы әзірлеген ірі тілдік модель. Модель шамамен 685 миллиард параметрден тұрады және диалог құру, логикалық пайымдау және бағдарламалау мүмкіндіктерін біріктіретін гибридті архитектураға негізделген. DeepSeek V3.1 128 000 токенге дейінгі контексті өңдей алады, бұл бірнеше жүз бет көлеміндегі мәтінді талдауға мүмкіндік береді.[26]
Сын және цензура
R1 моделі ресми API-нұсқасында сезімтал тақырыптар бойынша цензура механизмдерін қолданатыны байқалады, әсіресе Қытайда саяси мәні бар деп саналатын мәселелерге қатысты. Мысалы, модель 1989 жылғы Тяньаньмэнь алаңындағы оқиғалар туралы сұрақтарға жауап беруден бас тартады. Кей жағдайларда жасанды интеллект бастапқыда жауап құрастырады, бірақ оны дереу өшіріп, келесі мәтінмен алмастырады: «Sorry, that’s beyond my current scope. Let’s talk about something else.» (қаз. «Кешіріңіз, бұл менің мүмкіндіктерімнен тыс. Басқа тақырып туралы сөйлесейік.»).[27][28]
Дереккөздер
- ↑ Billions Going to China's Quants Takes Fight to Global Funds (ағыл.) (31 May 2020).
- ↑ a b Ottinger Deepseek: From Hedge Fund to Frontier Model Maker (ағыл.) (9 December 2024).
- ↑ a b c McMorrow. The Chinese quant fund-turned-AI pioneer (9 маусым 2024).
- ↑ Yu [Exclusive Chinese Quant Hedge Fund High-Flyer Won't Use AGI to Trade Stocks, MD Says] (ағыл.) (17 April 2023).
- ↑ a b c d e f g Jiang Meet DeepSeek: the Chinese start-up that is changing how AI models are trained (ағыл.) (1 January 2025).
- ↑ a b Schneider Deepseek: The Quiet Giant Leading China's AI Race (ағыл.) (27 November 2024).
- ↑ Liang Wenfeng: The force behind Chinese AI startup DeepSeek that has made US tech giants nervous and put India on edge (ағыл.) (28 January 2025).
- ↑ DeepSeek hit by cyberattack as users flock to Chinese AI startup (ағыл.). Reuters (27 January 2025).
- ↑ a b c Dennis Normile Chinese firm’s faster, cheaper AI language model makes a splash (ағыл.) (15 January 2025). doi:10.1126/science.z18lyzw.
- ↑ DeepSeek: новая языковая модель балансирует между прогрессом и цензурой (орыс.) (28 декабря 2024).
- ↑ a b Se Inside DeepSeek Models (ағыл.) (28 August 2024).
- ↑ a b China’s cheap, open AI model DeepSeek thrills scientists (en). — 2025-01-23. — ISSN 1476-4687. — doi:10.1038/d41586-025-00229-6
- ↑ DeepSeek Coder (en). — 2023-10-23.
- ↑ Sharma Meet DeepSeek Chat, China's latest ChatGPT rival with a 67B model (ағыл.) (1 желтоқсан 2023).
- ↑ Jiang Chinese start-up DeepSeek's new AI model outperforms Meta, OpenAI products (ағыл.) (27 December 2024).
- ↑ Sharma DeepSeek-V3, ultra-large open-source AI, outperforms Llama and Qwen on launch (ағыл.) (26 желтоқсан 2024).
- ↑ Wiggers DeepSeek's new AI model appears to be one of the best 'open' challengers yet (26 желтоқсан 2024).
- ↑ Shilov Chinese AI company's AI model breakthrough highlights limits of US sanctions (ағыл.) (27 December 2024).
- ↑ DeepSeek-AI; Liu, Aixin; Feng, Bei; Xue, Bing (2024-12-27), DeepSeek-V3 Technical Report, https://arxiv.org/abs/2412.19437, retrieved 2024-12-30
- ↑ Franzen DeepSeek's first reasoning model R1-Lite-Preview turns heads, beating OpenAI o1 performance (ағыл.) (20 қараша 2024).
- ↑ Huang Don't Look Now, but China's AI Is Catching Up Fast (ағыл.) (24 желтоқсан 2024).
- ↑ Chowdhury, Hasan KI aus China: Überholt dieses Startup jetzt OpenAI? (нем.) (25 Januar 2025).
- ↑ Sharma, Shubham Open-source DeepSeek-R1 uses pure reinforcement learning to match OpenAI o1 — at 95% less cost (ағыл.) (20 қаңтар 2025).
- ↑ Вышла улучшенная версия DeepSeek R1. Hi-tech Mail.ru (29 мамыр 2025).
- ↑ DeepSeek выпустила «дистиллированную» версию обновлённой ИИ-модели R1 — для работы ей хватит одной видеокарты. 3dnews.ru (29 мамыр 2025).
- ↑ DeepSeek Releases V3.1 Model: What’s New? (ағыл.) (20 August 2025).
- ↑ Steinschaden, Jakob DeepSeek: This is what live censorship looks like in the Chinese AI chatbot (ағыл.) (27 January 2025).
- ↑ Chinese AI has sparked a $1 trillion panic – and it doesn't care about free speech (ағыл.), The Daily Telegraph (27 қаңтар 2025).
Сыртқы сілтемелер
- deepseek.com DeepSeek — ресми сайты (ағыл.) (қыт.)
- DeepSeek чат-боты
- Nvidia компаниясы қытайлық DeepSeek табысына байланысты $600 млрд капитализация жоғалтты. «Forbes».
- DeepSeek R1: OpenAI-дың o1 моделіне тең өнімділік. «Habr».
- DeepSeek зерттеу мақалалары жинағы (ағыл.)
- DeepSeek-R1-Zero және DeepSeek-R1 бірінші буын ойлау модельдері (ағыл.)