Kubernetes GPU 资源调度实战：从单卡到多卡的完整方案

这套方案已经在我们生产环境稳定运行了很长时间，希望能帮到正在为 GPU 资源分配头疼的朋友们。前期准备：给节点贴上身份标签在开始资源调度之前，我们得先给每个节点打上对应的 GPU 类型标签，这就像给每台机器贴个身份证一样： # 给不同节点标记不同的GPU类型 kubectl label node

Administrator 发布于 2025-08-08

人工智能（AI）

kubernetes算力调度 - 支持异构卡

传统的 Docker 容器在 GPU 使用上存在明显的局限性：无法对显存进行精确切分，也无法控制 GPU 利用率分配，这在多任务并行的场景下会造成资源浪费和性能瓶颈，通过 Kubernetes 的 HAMI插件调度机制，我们可以实现更精细化的 GPU 资源管理。 Project-HAMi 异构 AI

Administrator 发布于 2025-08-08

人工智能（AI）

Kubernetes GPU集群部署方法 - 3

初始化 k8s Master 节点初始化集群执行以下命令初始化 Kubernetes 集群，指定 Pod 网络 CIDR 为 10.244.0.0/16： sudo kubeadm init --pod-network-cidr=10.244.0.0/16 -v=5 等待完成后，根据提示创建配

Administrator 发布于 2025-08-08

人工智能（AI）

Kubernetes GPU集群部署方法 - 2

kubectl 自动补全配置指南本章将详细介绍如何为 kubectl 命令行工具配置自动补全功能，包括安装依赖、配置方法和常见问题排查。自动补全可以显著提高使用 kubectl 的效率，减少输入错误。 1. 安装 bash-completion（为 kubectl 命令提供自动补全支持） sudo

Administrator 发布于 2025-08-08

人工智能（AI）

Kubernetes GPU集群部署方法 - 1

1. Kubernetes 运行时安装与配置 Containerd 是 Kubernetes 集群的核心容器运行时组件，它负责管理容器的完整生命周期。当 kubelet 需要创建 Pod 时，会通过 CRI（Container Runtime Interface）接口与 containerd 通信，

Administrator 发布于 2025-08-08

人工智能（AI）

Kubernetes GPU集群部署方法 - 0

本章节主要解决 Kubernetes 框架的安装部署问题 1. Kubernetes 搭建方法本文采用 k8s v1.28 进行搭建，并使用 Ubuntu22.04 系统承载，以下是详细安装步骤： 2.1 k8s 安装 # 更新系统并安装依赖 sudo apt-get update sudo ap

Administrator 发布于 2025-08-08

人工智能（AI）

Docker容器GPU运行时配置完整指南

容器GPU运行时配置完整指南 1. 安装 Docker 和 Docker Compose # 更新系统包索引 sudo apt update # 安装必要的依赖包 sudo apt install -y \ apt-transport-https \ ca-certificates

Administrator 发布于 2025-08-08

人工智能（AI）

LLM大推理 CUDA驱动完整安装教程

LLM大推理 CUDA驱动完整安装教程 1. 环境准备和检查 1.1 系统要求检查 # 检查系统版本 lsb_release -a cat /etc/os-release # 检查是否有NVIDIA显卡 lspci | grep -i nvidia 检查结论：系统版本：确认为Ubu

Administrator 发布于 2025-08-08

杂谈

本地存储桶出现问题，数据已被覆盖

以前存储的图片已经无法访问了, 请关注公众号找历史文章

Administrator 发布于 2025-04-30

nextjs 实战开发2024

nextjs 实战开发4 Mercury 实现主页内容展示

由于存储桶数据被覆盖，图片异常，请查看https://mp.weixin.qq.com/s/1j1PhQZo9rFQ0gLO5zkEGA https://mp.weixin.qq.com/s/MHlxbAzXehNi4E79OWR9vA 书接上回，上回我们已经实现了网站的导航栏，接下来我们要实现网页

Administrator 发布于 2024-11-07

菜单

作者：Administrator

Kubernetes GPU 资源调度实战：从单卡到多卡的完整方案

kubernetes算力调度 - 支持异构卡

Kubernetes GPU集群部署方法 - 3

Kubernetes GPU集群部署方法 - 2

Kubernetes GPU集群部署方法 - 1

Kubernetes GPU集群部署方法 - 0

Docker容器GPU运行时配置完整指南

LLM大推理 CUDA驱动完整安装教程

本地存储桶出现问题，数据已被覆盖

nextjs 实战开发4 Mercury 实现主页内容展示