deepseek-releases.json 8.4 KB
Newer Older
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55
[
  {
    "date": "2023年7月",
    "title": "DeepSeek 公司成立",
    "feature": "致力于 AGI",
    "description": "由知名量化资管巨头幻方量化创立,其掌门人梁文锋是 DeepSeek 的创始人。"
  },
  {
    "date": "2023年11月",
    "title": "开源 DeepSeekLLM 7B 和 67B 的 Base 和 Chat 模型",
    "feature": "DeepSeek LLM 67B Base 在推理、代码、数学和中文理解等多个领域超越了 Llama2 70B Base。",
    "description": "DeepSeek Coder 是一系列从零在包含 87% 代码和 13% 自然语言的 2T tokens 数据集上从头开始训练的代码语言模型,它旨在提升代码编写的效率和质量,MIT 许可并允许商业用途。"
  },
  {
    "date": "2024年2月",
    "title": "开源 DeepSeek Coder 系列模型",
    "feature": "DeepSeek Coder 提供 1B、5.7B、6.7B 和 33B 等多种模型尺寸,用户可以根据自身需求和硬件条件选择合适的模型。",
    "description": "在 HumanEval, MultiPL-E, MBPP, DS-1000 和 APPS 基准测试中,性能在公开可用的代码模型中处于领先地位,MIT 许可并允许商业用途。"
  },
  {
    "date": "2024年2月",
    "title": "开源 DeepSeek Math 模型",
    "feature": "DeepSeekMath 7B 模型在 MATH 基准测试中取得了令人印象深刻的 51.7% 的成绩,接近 Gemini-Ultra 和 GPT-4 的水平,且未使用外部工具或投票技术。该模型包含 Base 、 Instruct 和 RL 三个版本。",
    "description": "DeepSeekMath 基于 DeepSeek-Coder-v1.5 7B 初始化,并在来自 Common Crawl 的数学相关 tokens 以及自然语言和代码数据上进行了 500B tokens 的持续预训练,MIT 许可并允许商业用途。"
  },
  {
    "date": "2024年3月",
    "title": "开源 DeepSeek-VL 系列模型",
    "feature": "该模型具备通用的多模态理解能力,能够处理包括逻辑图表、网页、公式识别、科学文献、自然图像以及复杂场景中的具身智能等多种任务。",
    "description": "DeepSeek-VL 系列模型,包括 7B 和 1.3B 参数两种尺寸,并分别提供 base 和 chat 版本,MIT 许可并允许商业用途。"
  },
  {
    "date": "2024年5月",
    "title": "开源 DeepSeek-V2 系列模型",
    "feature": "经济高效的混合专家 (MoE) 语言模型",
    "description": "该模型总参数量为 236B,在包含 8.1 万亿 token 的多样化、高质量语料库上进行了预训练,并经过 SFT 和 RL 过程进行优化。与 DeepSeek 67B 相比,DeepSeek-V2 实现了更强的性能,并分别提供 base 和 chat 版本,MIT 许可并允许商业用途。"
  },
  {
    "date": "2024年7月",
    "title": "开源 DeepSeek-Coder-V2 系列模型",
    "feature": "混合专家模型 (MoE) 代码语言模型",
    "description": "DeepSeek-Coder-V2 基于 DeepSeekMoE 框架,提供 16B 和 236B 总参数量的模型,并提供 Base 和 Instruct 模型,MIT 许可均可公开下载和商用。"
  },
  {
    "date": "2024年12月26日",
    "title": "开源 DeepSeek-V3 系列模型",
    "feature": "DeepSeek-V3 采用 MoE 架构,总参数 671B",
    "description": "DeepSeek-V3 在 14.8 万亿高质量 token 上进行了预训练,并通过监督微调和强化学习进一步提升性能。该模型在 DeepSeek-V2 的基础上进行了创新,采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,并引入了无辅助损失的负载均衡策略和多 token 预测训练目标,旨在实现高效推理和低成本训练。MIT 许可均可公开下载和商用。"
  },
  {
    "date": "2025年1月20日",
    "title": "开源推理模型 DeepSeek-R1",
    "feature": "性能比肩 OpenAI o1,成本低廉",
    "description": "2025年1月20日,DeepSeek推出了推理模型 DeepSeek-R1,并同步开源其模型权重,通过大规模强化学习技术显著提升推理能力,性能媲美顶尖闭源产品,迅速引发全球关注。MIT 许可均可公开下载和商用。"
  },
56 57 58 59 60 61
  {
    "date": "2025年1月27日",
    "title": "DeepSeek 在苹果应用商店中美英等157个国家登顶下载榜",
    "feature": "",
    "description": ""
  },
62 63 64 65 66
  {
    "date": "2025年1月28日",
    "title": "开源 Janus-Pro",
    "feature": "一个新颖的自回归框架,多模态理解与生成的统一",
    "description": "Janus-Pro 是 Janus 的升级版本,通过优化训练策略、扩展训练数据和扩大模型规模,在多模态理解和文本到图像的指令跟随能力上都得到了显著提升,同时增强了文本到图像生成的稳定性。"
67 68 69 70 71 72
  },
  {
    "date": "2025年1月31日",
    "title": "DeepSeek 日活突破 2000 万",
    "feature": "成为全球增长最快的 APP",
    "description": "DeepSeek 的 DAU 达到2215万,相当于同期 ChatGPT DAU(5323万)的41.6%,且超越了豆包的1695万日活"
73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90
  },
  {
    "date": "2025年2月21日",
    "title": "预告为期 5 天的开源周",
    "feature": "下周起,我们将开源 5 个仓库,以完全透明的方式分享我们取得的初步进展。",
    "description": "这些即将开源的 5 个仓库构成我们在线服务的基础模块,都经过了详细的文档记录、部署和生产环境的严格测试。"
  },
  {
    "date": "2025年2月24日",
    "title": "开源 FlashMLA",
    "feature": "FlashMLA 是一款高效 MLA (Multi-Layer Attention) 解码内核,专为 Hopper GPU 架构设计,并针对可变长度序列的服务场景进行了优化。其目标是提升在 Hopper GPU 上进行模型解码的效率,尤其是在处理不同长度序列时。",
    "description": "GitHub 地址:https://github.com/deepseek-ai/FlashMLA"
  },
  {
    "date": "2025年2月25日",
    "title": "开源 DeepEP",
    "feature": "DeepEP 是一个专为 混合专家模型 (MoE) 和专家并行 (EP) 设计的高效通信库。它旨在通过提供高性能的 GPU 通信内核,加速 MoE 模型的训练和推理过程。",
    "description": "Github地址:https://github.com/deepseek-ai/DeepEP"
91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108
  },
  {
    "date": "2025年2月26日",
    "title": "开源 DeepGEMM",
    "feature": "DeepGEMM 是一个专为 NVIDIA Hopper 架构 GPU 设计的库,旨在提供高效且简洁的 FP8 通用矩阵乘法 (GEMM) 内核,并采用了 DeepSeek-V3 中提出的细粒度缩放技术。",
    "description": "Github地址:https://github.com/deepseek-ai/DeepGEMM"
  },
  {
    "date": "2025年2月27日",
    "title": "开源 DualPipe、EPLB 和 Profile-data",
    "feature": "DualPipe - 一种双向流水线并行算法,用于 V3/R1 训练中的计算-通信重叠。EPLB - 一种用于 V3/R1 的专家并行负载均衡器。Profile-data - 分析 V3/R1 中的计算-通信重叠。",
    "description": "Github地址:https://github.com/deepseek-ai/DualPipe;https://github.com/deepseek-ai/eplb;https://github.com/deepseek-ai/profile-data"
  },
  {
    "date": "2025年2月28日",
    "title": "开源 3FS 和 smallpond",
    "feature": "Fire-Flyer File System (3FS) 是一款高性能分布式文件系统,专门为解决 AI 训练和推理工作负载的挑战而设计。smallpond 是一个轻量级的数据处理框架,它构建于 DuckDB 和 3FS 之上。该框架旨在提供高性能、可扩展且易于操作的数据处理能力,特别适用于处理 PB 级别的大规模数据集。",
    "description": "Github地址:https://github.com/deepseek-ai/3FS;https://github.com/deepseek-ai/smallpond"
109 110 111 112
  },
  {
    "date": "2025年3月24日",
    "title": "DeepSeek-V3-0324 模型发布",
113
    "feature": "推理能力增强、Web前端开发能力优化、中文写作能力升级、中文搜索能力优化、Function Calling 能力改进",
114
    "description": "HuggingFace地址:https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main"
115 116 117 118 119 120
  },
  {
    "date": "2025-04-30",
    "title": "DeepSeek-Prover-V2",
    "feature": "DeepSeek 推出了 DeepSeek-Prover-V2,一个用于 Lean 4 形式化定理证明的开源大语言模型。模型训练始于一个“冷启动”阶段,利用 DeepSeek-V3 通过递归证明流程生成初始数据,整合了非形式化推理(如思路链)和形式化证明步骤。随后通过强化学习进一步提升性能。DeepSeek-Prover-V2 在神经定理证明领域达到 SOTA 水平,特别是在 MiniF2F-test 上实现了 88.9 % 的通过率,并解决了 PutnamBench 中的 49 个问题。发布了两个尺寸的模型: 7B 和 671B 参数,可通过 Hugging Face Transformers 使用。",
    "description": "HuggingFace地址:https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B"
121 122
  }
]