Nothing Found! Ready to publish your first post? Get started here.

Comments

Latest Posts

 

DeepSeek: Новий гравець на ринку штучного інтелекту

Ласкаво просимо до DeepSeek — платформи, яка змінює уявлення про штучний інтелект! Ми створюємо інноваційні мовні моделі, що розширюють можливості бізнесу, науки та технологій. Наша місія — зробити штучний інтелект доступним для кожного та максимально ефективним.

У листопаді 2024 року китайська компанія DeepSeek відкрила доступ до великої мовної моделі DeepSeek V3. Розробники стверджують, що чат-бот на базі моделі здатний конкурувати з ChatGPT, а засновники компанії взагалі націлилися на створення «надрозумного» ІІ. Розповідаємо, що є модель, які вона пропонує опції і як з нею працювати.

Завдяки своїм можливостям DeepSeek V3 може застосовуватися в різних сферах, зокрема у сфері розваг, онлайн-ігор та цифрового контенту. Наприклад, у таких сервісах, як Vegas Casino, штучний інтелект може використовуватися для персоналізації ігрового досвіду, аналізу користувацької поведінки та навіть створення унікального контенту для гравців. Це відкриває нові перспективи для взаємодії з користувачами та підвищення якості обслуговування.

 

Deep Seek що це?

DeepSeek V3 – це велика мовна модель з відкритим вихідним кодом , яка містить 671 млрд параметрів і навчена на 14800000000000 токенів. Вона здатна аналізувати тексти, робити переклади та писати есе, а також створювати код.

Особливості моделі криються в її архітектурі та методах навчання. Вона використовує:

  • Архітектуру Multi-token Prediction (MTP). Це дозволяє моделі передбачати кілька слів замість одного, аналізуючи одночасно різні частини речення. Такий метод підвищує точність роботи моделі та її продуктивність;
  • Mixture of Experts (MoE). Ця архітектура використовує кілька спеціалізованих та заздалегідь навчених нейромереж-«експертів» для аналізу різних вхідних даних. Це дозволяє прискорити навчання та підвищити ефективність ІІ. DeepSeek V3 працює з такими 256 нейромережами, з яких вісім активуються для обробки кожного токена;
  • Технологія Multi-head Latent Attention (MLA) — це механізм уваги, який зазвичай використовується у великих мовних моделях і допомагає їм ідентифікувати найважливіші частини пропозиції. MLA дозволяє вилучати ключові деталі з фрагмента тексту кілька разів, а не лише один. Це означає, що ІІ з меншою ймовірністю проґавить важливу інформацію.

Завдяки цим особливостям модель зажадала всього 2,788 млн. годин або два місяці роботи графічних процесорів Nvidia H800 для навчання. Витрати на нього становили $5,5 млн. Для порівняння – OpenAI витратила на навчання GPT $78 млн.

Розробники стверджують, що в тестах нейромережа перевершила GPT-4о від OpenAI, Llama 3 від Meta (визнана екстремістською, заборонена в Росії) та Claude 3.5 Sonnet від Anthropic у завданнях програмування та обробки тексту.

Чому обирають Дип Сик Чат?

  • Відкритий код: Наші моделі доступні для спільноти, що дозволяє інтегрувати їх у проєкти будь-якого масштабу.
  • Інновації: Використання архітектури суміші експертів забезпечує високу продуктивність за мінімальних витрат на обчислення.
  • Простота інтеграції: Наші рішення легко адаптуються до потреб бізнесу, наукових досліджень чи особистих проєктів.
  • Глобальна спільнота: Ми підтримуємо співпрацю з розробниками, дослідниками та ентузіастами з усього світу.

Можливості DeepSeek V3

128 тис. токенів, як і GPT-4o, що дозволяє аналізувати до 300 сторінок тексту. Вона здатна:

  • генерувати тексти різних обсягів та у різних жанрах;
  • шукати інформацію в Інтернеті;
  • розшифровувати діаграми та пояснювати картинки;
  • писати код, коректно форматувати його та вирішувати складні завдання з програмування мовами C++, Go, Java, JavaScript, Python та Rust. Модель успішно інтегрується із редакторами коду;
  • міркувати подібно до GPT-o1 і o1-mini в режимі DeepThink.

DeepSeek V3 пропонує мультимовність високого рівня, а її глибоке розуміння китайської та англійської дозволяє працювати з текстами без втрати якості перекладеного тексту та змісту. Модель також підтримує Українську мову.

Мінус нейромережі в тому, що поки що вона не дозволяє аналізувати матеріали за посиланнями, а підтримує лише завантаження або витримки з текстів.

Долучайтесь до майбутнього разом із DeepSeek

Приєднуйтесь до нашої спільноти вже сьогодні, щоб використовувати найкращі інструменти штучного інтелекту та будувати інноваційні рішення. Разом ми формуємо майбутнє технологій.

Можливості DeepSeek-V3

 Benchmark (Metric)DeepSeek V3DeepSeek V2.5Qwen2.5Llama3.1Claude-3.5GPT-4o
  090572B-Inst405B-InstSonnet-10220513
        
 ArchitectureMoEMoEDenseDense
        
 # Activated Params37B21B72B405B
        
 # Total Params671B236B72B405B
EnglishMMLU (EM)88.580.685.388.688.387.2
MMLU-Redux (EM)89.180.385.686.288.988.0
MMLU-Pro (EM)75.966.271.673.378.072.6
DROP (3-shot F1)91.687.876.788.788.383.7
IF-Eval (Prompt Strict)86.180.684.186.086.584.3
GPQA-Diamond (Pass@1)59.141.349.051.165.049.9
SimpleQA (Correct)24.910.29.117.128.438.2
FRAMES (Acc.)73.365.469.870.072.580.5
LongBench v2 (Acc.)48.735.439.436.141.048.1
CodeHumanEval-Mul (Pass@1)82.677.477.377.281.780.5
LiveCodeBench (Pass@1-COT)40.529.231.128.436.333.4
LiveCodeBench (Pass@1)37.628.428.730.132.834.2
Codeforces (Percentile)51.635.624.825.320.323.6
SWE Verified (Resolved)42.022.623.824.550.838.8
Aider-Edit (Acc.)79.771.665.463.984.272.9
Aider-Polyglot (Acc.)49.618.27.65.845.316.0
MathAIME 2024 (Pass@1)39.216.723.323.316.09.3
MATH-500 (EM)90.274.780.073.878.374.6
CNMO 2024 (Pass@1)43.210.815.96.813.110.8
ChineseCLUEWSC (EM)90.990.491.484.785.487.9
C-Eval (EM)86.579.586.161.576.776.0
C-SimpleQA (Correct)64.154.148.450.451.359.3

 

Deep Seek останні новини

  • ForkLog UA – Потужніший за Meta та OpenAI: китайський стартап DeepSeek презентував ШІ-модель
  • Nature – Китайська дешева, відкрита AI-модель DeepSeek захоплює вчених
  • The Guardian – Паніка навколо DeepSeek виявляє світ AI, готовий до вибуху
  • BBC News – Китайський AI-чатбот DeepSeek спричиняє ринкові потрясіння для конкурентів
  • CNBC – Дешевші моделі DeepSeek та слабші чипи ставлять під сумнів трильйони витрат на AI-інфраструктуру
  • Computer Weekly – Розслідування Nvidia сигналізує про розширення чипової війни між США та Китаєм
  • BBC News – Nvidia стала мішенню Китаю в новому розслідуванні чипової війни
  • The New York Times – Що таке DeepSeek? І як він перевертає світ AI?
  • CNBC – Китайський DeepSeek AI скидає ChatGPT з вершини App Store: ось що вам потрібно знати
  • CBS News – Що таке Діп Сік Ші і чому він спричиняє падіння акцій Nvidia та інших компаній?
  • ABC News – Акції Nvidia та Microsoft падають через китайський AI-додаток DeepSeek
  • The New York Times – Чому DeepSeek може змінити уявлення Силіконової долини про AI
  • Forbes – ChatGPT, DeepSeek або Llama? Лекун з Meta каже, що відкритий код є ключем
  • The New York Times – Як китайський AI-стартап DeepSeek конкурує з гігантами Силіконової долини
  • 36Kr – Як провідна китайська AI-модель подолала санкції США
  • Financial Times – Китайський кількісний хедж-фонд перетворився на AI-піонера
  • South China Morning Post – Знайомтесь з DeepSeek: китайський стартап, який змінює підхід до навчання AI-моделей
  • Financial Times – Китайський кількісний фонд-стартап стає лідером у гонці AI
  • The New York Times – DeepSeek: тихий гігант, який очолює гонку AI в Китаї