2026 搬瓦工 VPS 调用 DeepSeek V4 API 教程:Pro / Flash 双模型 + 1M 上下文

DeepSeek 在 2026 年 4 月 24 日正式发布了 V4 系列,分 deepseek-v4-pro(1.6T 参数 / 49B 激活)和 deepseek-v4-flash(284B / 13B 激活)两个版本,默认 1M token 上下文 + 384K 最大输出,且兼容 OpenAI 和 Anthropic API 格式。这意味着你在搬瓦工 VPS 上跑的任何应用,比如 Dify、Open WebUI、LangChain、自研脚本等,只要原本支持 OpenAI 接口,把 base_url 一改、model 一换就能用上 V4。

搬瓦工 VPS 上原来跑 deepseek-chat 的 Dify、Open WebUI 的模型可以全部切到 V4-Pro,体感推理能力明显上来一截,价格反而下降。这篇教程把完整接入流程写出来,包括 curl 直调、Python OpenAI SDK、Node.js、Dify/Open WebUI 集成、Thinking mode 控制、缓存优化,一篇覆盖。

⚠️ 重要提醒:旧的 deepseek-chatdeepseek-reasoner 模型将在 2026 年 7 月 24 日 15:59 UTC 彻底下线,到时只能用 V4 系列。建议现在就开始迁移。

相关文章:

  1. 《搬瓦工 VPS 上构建私有化 AI Agent 智能体应用入门指南》
  2. 《2026 搬瓦工 VPS 部署 Dify AI 应用平台教程》

一、DeepSeek V4 概况

V4 是 DeepSeek 第一个从头围绕百万级上下文设计的开源模型家族,发布即开源(MIT 协议),权重在 Hugging Face 上免费下载。

模型 总参数 激活参数 上下文 最大输出 适用场景
deepseek-v4-pro 1.6T 49B 1M tokens 384K tokens 复杂推理、长文档分析、高质量代码生成
deepseek-v4-flash 284B 13B 1M tokens 384K tokens 高频对话、日常任务、成本敏感场景

两个模型都基于 MoE(专家混合)架构,激活参数远小于总参数,所以推理成本可控。

关键特性

  • 默认 1M 上下文:不需要任何特殊参数,输入再长也能直接吃下
  • 双模式:每个模型都支持 Thinking(推理模式,类似 R1)和 Non-Thinking(直答模式),通过 thinking 参数切换
  • OpenAI / Anthropic API 双兼容:base_url 不用改,只改 model 字段
  • MIT 开源:权重可以下载到自己服务器跑(但 1.6T 的 Pro 版需要顶级显卡集群,普通 VPS 跑不动)

Pro 还是 Flash:怎么选

直接看价格和场景:

1、价格对比(USD / 1M tokens)

模型 输入(缓存命中) 输入(缓存未命中) 输出
deepseek-v4-flash $0.028 $0.14 $0.28
deepseek-v4-pro(限时 75% off) $0.03625 $0.435 $0.87
deepseek-v4-pro(原价) $0.145 $1.74 $3.48

⚠️ V4-Pro 的 75% 折扣截止 2026 年 5 月 5 日 UTC 15:59,之后恢复原价。这段时间疯狂用 Pro 是最划算的。

2、场景推荐

场景 推荐模型 理由
Dify / Open WebUI 日常对话 flash 速度快、成本低,足够好用
RAG 知识库问答 flash 1M 上下文足够塞下大量文档
复杂代码生成 / 重构 pro Pro 在 agentic coding 上明显胜出
长文档摘要(500K+ tokens) pro 长文本理解能力 Pro 更强
数学推理 / 算法题 pro + thinking 模式 开 thinking 后接近 o1 水平
高频客服机器人 flash 成本敏感,flash 性价比无敌

站长的建议:默认用 flash,遇到复杂任务再切 pro。配合 Dify 的”模型路由”功能可以自动按问题难度分配。

二、为什么部署在搬瓦工 VPS 上

DeepSeek V4 的真实推理在 DeepSeek 服务器上完成,搬瓦工 VPS 主要是承载调用 V4 API 的应用——Dify、Open WebUI、LangChain Agent、自研 Bot 等。把这些应用部署在搬瓦工上的好处:

1、24 小时在线

API 调用方应用需要持续运行(比如 Telegram Bot、定时任务、Webhook 接收器)。本地电脑合上盖就停,VPS 不存在这个问题。

2、网络延迟低

DeepSeek API 主服务在国内,搬瓦工的 CN2 GIA-E 线路对国内服务的访问速度比海外网络好得多。从搬瓦工调 DeepSeek API,单次请求往返通常 100-200ms,体验流畅。

3、API Key 不暴露

把 API Key 放在 VPS 的环境变量里,前端只调用 VPS 上的接口,Key 永远不会出现在浏览器或客户端代码里,安全性比”本地 + 前端直调”高得多。

4、配置一次到处用

VPS 上配好 V4 接入后,Dify、Open WebUI、n8n 等所有应用共用一套配置,改 Key 改 base_url 都只改一处。

关于搬瓦工套餐和线路的选择,参考《2026 搬瓦工套餐选购指南》《2026 搬瓦工线路科普》

如果还没买搬瓦工 VPS,看文末套餐推荐。SSH 登录基础操作不熟练的话,先看《搬瓦工新手入门完全指南》

三、获取 DeepSeek API Key

1、注册 DeepSeek 账号

打开 https://platform.deepseek.com,用邮箱或者手机号注册账号。

2、充值

DeepSeek 按用量付费,需要预先充值。最低充值额度通常是 $1 起,配合 V4-Pro 的 75% 折扣,$5 能用很久。

3、创建 API Key

登录后进入”API Keys”页面,点”Create new API key”:

  • 给 Key 起个名字,比如 bandwagonhost-vps-1
  • 创建后会显示完整 Key,只显示一次,立刻复制保存
  • Key 格式:sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

⚠️ 安全提示:API Key 绝对不要写死在代码里,更不要提交到 GitHub。下面所有示例都用环境变量传递。

四、curl 直接调用

最简单的验证方式,看看你的 API Key 是否有效。

1、设置环境变量

SSH 登录搬瓦工 VPS 后:

export DEEPSEEK_API_KEY="sk-你的key"

要永久生效,写入 ~/.bashrc

echo 'export DEEPSEEK_API_KEY="sk-你的key"' >> ~/.bashrc
source ~/.bashrc

2、调用 deepseek-v4-flash

curl https://api.deepseek.com/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -d '{
    "model": "deepseek-v4-flash",
    "messages": [
      {"role": "system", "content": "你是一个简洁的助手"},
      {"role": "user", "content": "用一句话介绍搬瓦工"}
    ],
    "stream": false
  }'

正常会返回类似:

{
  "id": "...",
  "model": "deepseek-v4-flash",
  "choices": [{
    "message": {
      "role": "assistant",
      "content": "搬瓦工是一家美国老牌 VPS 服务商..."
    },
    "finish_reason": "stop"
  }],
  "usage": {
    "prompt_tokens": 25,
    "completion_tokens": 30,
    "total_tokens": 55
  }
}

3、调用 deepseek-v4-pro(开启 thinking 模式)

curl https://api.deepseek.com/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -d '{
    "model": "deepseek-v4-pro",
    "messages": [
      {"role": "user", "content": "证明:根号 2 是无理数"}
    ],
    "thinking": {"type": "enabled"},
    "stream": false
  }'

开启 thinking 后,返回结果会包含 reasoning_content 字段(推理过程)和 content 字段(最终答案)。

五、Python(OpenAI SDK)调用

DeepSeek API 完全兼容 OpenAI SDK,不用装 DeepSeek 专属库。

1、安装 OpenAI SDK

sudo apt update
sudo apt install -y python3 python3-pip python3-venv

# 创建虚拟环境(推荐)
python3 -m venv ~/deepseek-venv
source ~/deepseek-venv/bin/activate

# 安装 OpenAI SDK
pip install openai

2、基础调用脚本

创建 chat.py

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ.get("DEEPSEEK_API_KEY"),
    base_url="https://api.deepseek.com",
)

response = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[
        {"role": "system", "content": "你是一个简洁的助手"},
        {"role": "user", "content": "搬瓦工 VPS 适合做什么"},
    ],
    stream=False,
)

print(response.choices[0].message.content)
print(f"Tokens used: {response.usage.total_tokens}")

运行:

python chat.py

3、流式输出

实时打印 AI 的回复(像 ChatGPT 网页那样逐字出):

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ.get("DEEPSEEK_API_KEY"),
    base_url="https://api.deepseek.com",
)

stream = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "user", "content": "写一篇 200 字的搬瓦工 VPS 介绍"},
    ],
    stream=True,
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)
print()

4、长上下文调用(1M tokens)

V4 默认 1M 上下文,扔进去整本书都没问题:

with open("long_document.txt", "r") as f:
    long_text = f.read()

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "请基于以下文档回答问题"},
        {"role": "user", "content": f"文档内容:\n{long_text}\n\n问题:请总结要点"},
    ],
)

print(response.choices[0].message.content)

百万 token 大约对应 70-80 万字中文,普通技术文档堆几十份都能塞下。

六、Thinking 模式控制

V4 的双模式是它最有意思的设计——同一个模型,开关 thinking 切换”快答”和”深思”。

1、参数说明

{
  "thinking": {"type": "enabled"}    // 开启推理模式
}

或者:

{
  "thinking": {"type": "disabled"}   // 关闭(默认)
}

2、读取推理过程

开 thinking 后,响应里会多一个 reasoning_content 字段(推理过程),content 仍然是最终答案:

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "999 * 999 = ?"}],
    extra_body={"thinking": {"type": "enabled"}},
)

print("推理过程:")
print(response.choices[0].message.reasoning_content)
print("\n最终答案:")
print(response.choices[0].message.content)

⚠️ Thinking 模式会消耗更多输出 token(推理过程也算 output),所以成本会上升。简单任务别乱开。

七、集成到 Dify / Open WebUI

把搬瓦工 VPS 上跑的现成 AI 平台接入 V4。

1、Dify 接入 V4

打开 Dify 后台 → “设置” → “模型供应商” → 找到 DeepSeekOpenAI-API-compatible

字段 填写
API Key 你的 sk-xxx
Base URL https://api.deepseek.com
Model Name deepseek-v4-pro 或 deepseek-v4-flash
Context Size 1000000
Max Tokens 384000

保存后,所有 Dify 应用(聊天助手、Workflow、Agent)都能用 V4 了。Dify 部署教程参考《2026 搬瓦工 VPS 部署 Dify AI 应用平台教程》

2、Open WebUI 接入 V4

进入管理后台 → “Settings” → “Connections” → “OpenAI API”:

  • API Base URL:https://api.deepseek.com
  • API Key:你的 sk-xxx

保存后回到聊天界面,模型下拉框就能看到 deepseek-v4-flashdeepseek-v4-pro 了。

3、n8n 接入

n8n 的 OpenAI 节点也可以用:在节点配置里把 base_url 改成 https://api.deepseek.com,model 填 deepseek-v4-flash 即可。

4、Continue.dev(VSCode 插件)接入

{
  "models": [
    {
      "title": "DeepSeek V4 Pro",
      "provider": "openai",
      "model": "deepseek-v4-pro",
      "apiKey": "你的key",
      "apiBase": "https://api.deepseek.com"
    }
  ]
}

八、从 deepseek-chat 迁移到 V4

旧版 deepseek-chatdeepseek-reasoner2026 年 7 月 24 日 15:59 UTC 彻底下线。如果你的应用还在用旧模型,现在就该迁移。

1、模型 ID 对照

旧模型 推荐替换 备注
deepseek-chat deepseek-v4-flash 日常对话直接替换
deepseek-chat deepseek-v4-pro 需要更高质量回复时用
deepseek-reasoner deepseek-v4-pro + thinking 推理任务必须开 thinking

2、迁移步骤

  1. 代码里搜索 deepseek-chatdeepseek-reasoner,替换成 V4 模型
  2. base_url 不需要改,仍然是 https://api.deepseek.com
  3. API Key 不需要换,旧 Key 可以直接调 V4
  4. 推理任务原本用 deepseek-reasoner 的,现在改成 deepseek-v4-pro + thinking: {"type": "enabled"}
  5. 测试通过后部署上线

3、Dify / Open WebUI 迁移

直接在模型配置里改 model name 即可,其他配置不变。改完保存重启服务。

九、DeepSeek V4 常见问题

1、长上下文调用失败

虽然 V4 默认 1M 上下文,但要确保:

  • 输入 + 输出 token 总数不超过 1M
  • 单次输出不超过 384K
  • 客户端的 timeout 设置足够长(长上下文响应可能 30-60 秒)

OpenAI SDK 的 timeout 设置:

client = OpenAI(
    api_key=os.environ.get("DEEPSEEK_API_KEY"),
    base_url="https://api.deepseek.com",
    timeout=120.0,    # 单位:秒
)

2、搬瓦工 VPS 调 API 速度慢

可能原因:

  • VPS 机房离 DeepSeek 服务器太远 → 切到 CN2 GIA-E 机房,访问国内服务最快
  • 没用流式输出(stream=true)→ 长回复改流式,体感快很多
  • thinking 模式开了不必要的开 → 简单任务关掉 thinking

3、想本地跑 V4 开源权重

V4-Pro 和 V4-Flash 权重都在 Hugging Face 上:

但 Pro 需要顶级 GPU 集群(多张 H100/H200),Flash 也需要至少 4-8 张高端卡,搬瓦工 VPS 跑不动本地推理。直接调官方 API 是最现实的方案。

十、搬瓦工推荐套餐和新手教程

搬瓦工实时库存:https://stock.bwg.net

温馨提醒 如果您有选择困难症,直接选中间的 CN2 GIA-E方案,季付 $49.99,多达 12 个机房任意切换
方案内存CPU硬盘流量/月带宽推荐机房价格购买
KVM
(最便宜)
1GB2核20GB1TB1GbpsDC2 AO
DC8 ZNET
$49.99/年购买
KVM2GB3核40GB2TB1Gbps$52.99/半年
$99.99/年
购买
CN2 GIA-E
(最推荐)
1GB2核20GB1TB2.5Gbps美国 DC6 CN2 GIA-E
美国 DC9 CN2 GIA
日本软银 JPOS_1
荷兰 EUNL_9
美国圣何塞 CN2 GIA
加拿大 CN2 GIA
$49.99/季度
$169.99/年
购买
CN2 GIA-E
(AI 部署)
2GB3核40GB2TB2.5Gbps$89.99/季度
$299.99/年
购买
SLA
(SLA 保障)
1GB独享2核20GB1TB2.5Gbps美国 DC5 SLA
99.99% 在线率保证
每两周免费换 IP 一次
$65.89/季度
$239.99/年
购买
SLA
(外贸建站)
2GB独享3核40GB2TB2.5Gbps$116.99/季度
$399.99/年
购买
HK
(高端首选)
2GB2核40GB0.5TB1Gbps中国香港 CN2 GIA
日本东京 CN2 GIA
日本大阪 CN2 GIA
新加坡 CN2 GIA
$89.99/月
$899.99/年
购买
HK
(高端建站)
4GB4核80GB1TB1Gbps$155.99/月
$1559.99/年
购买
OSAKA
(高端性价比)
2GB2核40GB0.5TB1.5Gbps日本大阪 CN2 GIA$49.99/月
$499.99/年
购买
OSAKA4GB4核80GB1TB1.5Gbps$86.99/月
$869.99/年
购买
搬瓦工优惠码:暂无搬瓦工购买教程:《2026 年最新搬瓦工购买教程和支付宝支付教程
最新补货通知:点击查看2026 搬瓦工补货通知群200475672 | 280724862 | 852461608

选择建议:

  • 入门:KVM 套餐,目前最便宜,可选 CN2 GT 机房,入门之选。
  • 推荐:CN2 GIA-E 套餐,速度超快,可选机房多(DC6、DC9、日本软银、荷兰联通等),性价比最高。
  • 高端:香港 CN2 GIA 套餐,价格较高,但是无可挑剔。大阪 CN2 GIA 套餐也是非常不错的高端选择。

搬瓦工新手教程

  1. 搬瓦工新手入门:《搬瓦工新手入门完全指南:方案推荐、机房选择、优惠码和购买教程(推荐阅读)
  2. 搬瓦工购买教程:《2026 年最新搬瓦工购买教程和支付宝支付教程
  3. 搬瓦工补货通知:《欢迎订阅搬瓦工补货通知(补货提醒)/ 加入搬瓦工交流群
  4. 搬瓦工方案推荐:《搬瓦工高性价比 VPS 推荐:目前哪款方案最值得买?

搬瓦工补货通知

渠道名称ID / 群号说明
QQ 群(禁言)搬瓦工补货通知群 5200475672全员禁言,仅发送通知
QQ 群(禁言)搬瓦工补货通知群 11280724862全员禁言,仅发送通知
QQ 群(禁言)搬瓦工补货通知群 12852461608全员禁言,仅发送通知
TG 频道搬瓦工补货通知 TG 频道@BandwagonHostNews补货推送频道
微信微信公众号搬砖部落补货会发推送
微信微信号bwgvps补货通知会发在朋友圈
实时库存搬瓦工实时库存网站stock.bwg.net实时刷新库存状态
补货通知欢迎订阅搬瓦工补货通知(补货提醒)/ 加入搬瓦工交流群

未经允许不得转载:Bandwagonhost中文网 » 2026 搬瓦工 VPS 调用 DeepSeek V4 API 教程:Pro / Flash 双模型 + 1M 上下文