NFT
Nothing Found! Ready to publish your first post? Get started here.
Latest Posts
News
Nothing Found! Ready to publish your first post? Get started here.
DeepSeek: Новий гравець на ринку штучного інтелекту
Ласкаво просимо до DeepSeek — платформи, яка змінює уявлення про штучний інтелект! Ми створюємо інноваційні мовні моделі, що розширюють можливості бізнесу, науки та технологій. Наша місія — зробити штучний інтелект доступним для кожного та максимально ефективним.
У листопаді 2024 року китайська компанія DeepSeek відкрила доступ до великої мовної моделі DeepSeek V3. Розробники стверджують, що чат-бот на базі моделі здатний конкурувати з ChatGPT, а засновники компанії взагалі націлилися на створення «надрозумного» ІІ. Розповідаємо, що є модель, які вона пропонує опції і як з нею працювати.
Завдяки своїм можливостям DeepSeek V3 може застосовуватися в різних сферах, зокрема у сфері розваг, онлайн-ігор та цифрового контенту. Наприклад, у таких сервісах, як Vegas Casino, штучний інтелект може використовуватися для персоналізації ігрового досвіду, аналізу користувацької поведінки та навіть створення унікального контенту для гравців. Це відкриває нові перспективи для взаємодії з користувачами та підвищення якості обслуговування.
Deep Seek що це?
DeepSeek V3 – це велика мовна модель з відкритим вихідним кодом , яка містить 671 млрд параметрів і навчена на 14800000000000 токенів. Вона здатна аналізувати тексти, робити переклади та писати есе, а також створювати код.
Особливості моделі криються в її архітектурі та методах навчання. Вона використовує:
- Архітектуру Multi-token Prediction (MTP). Це дозволяє моделі передбачати кілька слів замість одного, аналізуючи одночасно різні частини речення. Такий метод підвищує точність роботи моделі та її продуктивність;
- Mixture of Experts (MoE). Ця архітектура використовує кілька спеціалізованих та заздалегідь навчених нейромереж-«експертів» для аналізу різних вхідних даних. Це дозволяє прискорити навчання та підвищити ефективність ІІ. DeepSeek V3 працює з такими 256 нейромережами, з яких вісім активуються для обробки кожного токена;
- Технологія Multi-head Latent Attention (MLA) — це механізм уваги, який зазвичай використовується у великих мовних моделях і допомагає їм ідентифікувати найважливіші частини пропозиції. MLA дозволяє вилучати ключові деталі з фрагмента тексту кілька разів, а не лише один. Це означає, що ІІ з меншою ймовірністю проґавить важливу інформацію.
Завдяки цим особливостям модель зажадала всього 2,788 млн. годин або два місяці роботи графічних процесорів Nvidia H800 для навчання. Витрати на нього становили $5,5 млн. Для порівняння – OpenAI витратила на навчання GPT $78 млн.
Розробники стверджують, що в тестах нейромережа перевершила GPT-4о від OpenAI, Llama 3 від Meta (визнана екстремістською, заборонена в Росії) та Claude 3.5 Sonnet від Anthropic у завданнях програмування та обробки тексту.
Чому обирають Дип Сик Чат?
- Відкритий код: Наші моделі доступні для спільноти, що дозволяє інтегрувати їх у проєкти будь-якого масштабу.
- Інновації: Використання архітектури суміші експертів забезпечує високу продуктивність за мінімальних витрат на обчислення.
- Простота інтеграції: Наші рішення легко адаптуються до потреб бізнесу, наукових досліджень чи особистих проєктів.
- Глобальна спільнота: Ми підтримуємо співпрацю з розробниками, дослідниками та ентузіастами з усього світу.
Можливості DeepSeek V3
128 тис. токенів, як і GPT-4o, що дозволяє аналізувати до 300 сторінок тексту. Вона здатна:
- генерувати тексти різних обсягів та у різних жанрах;
- шукати інформацію в Інтернеті;
- розшифровувати діаграми та пояснювати картинки;
- писати код, коректно форматувати його та вирішувати складні завдання з програмування мовами C++, Go, Java, JavaScript, Python та Rust. Модель успішно інтегрується із редакторами коду;
- міркувати подібно до GPT-o1 і o1-mini в режимі DeepThink.
DeepSeek V3 пропонує мультимовність високого рівня, а її глибоке розуміння китайської та англійської дозволяє працювати з текстами без втрати якості перекладеного тексту та змісту. Модель також підтримує Українську мову.
Мінус нейромережі в тому, що поки що вона не дозволяє аналізувати матеріали за посиланнями, а підтримує лише завантаження або витримки з текстів.
Долучайтесь до майбутнього разом із DeepSeek
Приєднуйтесь до нашої спільноти вже сьогодні, щоб використовувати найкращі інструменти штучного інтелекту та будувати інноваційні рішення. Разом ми формуємо майбутнє технологій.
Можливості DeepSeek-V3
| Benchmark (Metric) | DeepSeek V3 | DeepSeek V2.5 | Qwen2.5 | Llama3.1 | Claude-3.5 | GPT-4o | |
|---|---|---|---|---|---|---|---|
| 0905 | 72B-Inst | 405B-Inst | Sonnet-1022 | 0513 | |||
| Architecture | MoE | MoE | Dense | Dense | – | – | |
| # Activated Params | 37B | 21B | 72B | 405B | – | – | |
| # Total Params | 671B | 236B | 72B | 405B | – | – | |
| English | MMLU (EM) | 88.5 | 80.6 | 85.3 | 88.6 | 88.3 | 87.2 |
| MMLU-Redux (EM) | 89.1 | 80.3 | 85.6 | 86.2 | 88.9 | 88.0 | |
| MMLU-Pro (EM) | 75.9 | 66.2 | 71.6 | 73.3 | 78.0 | 72.6 | |
| DROP (3-shot F1) | 91.6 | 87.8 | 76.7 | 88.7 | 88.3 | 83.7 | |
| IF-Eval (Prompt Strict) | 86.1 | 80.6 | 84.1 | 86.0 | 86.5 | 84.3 | |
| GPQA-Diamond (Pass@1) | 59.1 | 41.3 | 49.0 | 51.1 | 65.0 | 49.9 | |
| SimpleQA (Correct) | 24.9 | 10.2 | 9.1 | 17.1 | 28.4 | 38.2 | |
| FRAMES (Acc.) | 73.3 | 65.4 | 69.8 | 70.0 | 72.5 | 80.5 | |
| LongBench v2 (Acc.) | 48.7 | 35.4 | 39.4 | 36.1 | 41.0 | 48.1 | |
| Code | HumanEval-Mul (Pass@1) | 82.6 | 77.4 | 77.3 | 77.2 | 81.7 | 80.5 |
| LiveCodeBench (Pass@1-COT) | 40.5 | 29.2 | 31.1 | 28.4 | 36.3 | 33.4 | |
| LiveCodeBench (Pass@1) | 37.6 | 28.4 | 28.7 | 30.1 | 32.8 | 34.2 | |
| Codeforces (Percentile) | 51.6 | 35.6 | 24.8 | 25.3 | 20.3 | 23.6 | |
| SWE Verified (Resolved) | 42.0 | 22.6 | 23.8 | 24.5 | 50.8 | 38.8 | |
| Aider-Edit (Acc.) | 79.7 | 71.6 | 65.4 | 63.9 | 84.2 | 72.9 | |
| Aider-Polyglot (Acc.) | 49.6 | 18.2 | 7.6 | 5.8 | 45.3 | 16.0 | |
| Math | AIME 2024 (Pass@1) | 39.2 | 16.7 | 23.3 | 23.3 | 16.0 | 9.3 |
| MATH-500 (EM) | 90.2 | 74.7 | 80.0 | 73.8 | 78.3 | 74.6 | |
| CNMO 2024 (Pass@1) | 43.2 | 10.8 | 15.9 | 6.8 | 13.1 | 10.8 | |
| Chinese | CLUEWSC (EM) | 90.9 | 90.4 | 91.4 | 84.7 | 85.4 | 87.9 |
| C-Eval (EM) | 86.5 | 79.5 | 86.1 | 61.5 | 76.7 | 76.0 | |
| C-SimpleQA (Correct) | 64.1 | 54.1 | 48.4 | 50.4 | 51.3 | 59.3 |
Deep Seek останні новини
- ForkLog UA – Потужніший за Meta та OpenAI: китайський стартап DeepSeek презентував ШІ-модель
- Nature – Китайська дешева, відкрита AI-модель DeepSeek захоплює вчених
- The Guardian – Паніка навколо DeepSeek виявляє світ AI, готовий до вибуху
- BBC News – Китайський AI-чатбот DeepSeek спричиняє ринкові потрясіння для конкурентів
- CNBC – Дешевші моделі DeepSeek та слабші чипи ставлять під сумнів трильйони витрат на AI-інфраструктуру
- Computer Weekly – Розслідування Nvidia сигналізує про розширення чипової війни між США та Китаєм
- BBC News – Nvidia стала мішенню Китаю в новому розслідуванні чипової війни
- The New York Times – Що таке DeepSeek? І як він перевертає світ AI?
- CNBC – Китайський DeepSeek AI скидає ChatGPT з вершини App Store: ось що вам потрібно знати
- CBS News – Що таке Діп Сік Ші і чому він спричиняє падіння акцій Nvidia та інших компаній?
- ABC News – Акції Nvidia та Microsoft падають через китайський AI-додаток DeepSeek
- The New York Times – Чому DeepSeek може змінити уявлення Силіконової долини про AI
- Forbes – ChatGPT, DeepSeek або Llama? Лекун з Meta каже, що відкритий код є ключем
- The New York Times – Як китайський AI-стартап DeepSeek конкурує з гігантами Силіконової долини
- 36Kr – Як провідна китайська AI-модель подолала санкції США
- Financial Times – Китайський кількісний хедж-фонд перетворився на AI-піонера
- South China Morning Post – Знайомтесь з DeepSeek: китайський стартап, який змінює підхід до навчання AI-моделей
- Financial Times – Китайський кількісний фонд-стартап стає лідером у гонці AI
- The New York Times – DeepSeek: тихий гігант, який очолює гонку AI в Китаї







Comments