NVIDIA CWE 2025 上海直击：从 GPU 集群到 NeMo 2.0，企业 AI 智能化的加速引擎

8 月 8 日，我受邀参加了在上海举办的 NVIDIA CWE 大会。作为一个正在企业内部推动 AI 落地的从业者，这场会议对我来说不仅是“充电”，更像是一场“解题会”。

Swift社区

2505人浏览 · 2025-08-18 18:08:06

Swift社区 · 2025-08-18 18:08:06 发布

前言

8 月 8 日，我受邀参加了在上海举办的 NVIDIA CWE 大会。作为一个正在企业内部推动 AI 落地的从业者，这场会议对我来说不仅是“充电”，更像是一场“解题会”。

参会感受

在分享干货之前，我先谈谈这次参会的不同感受。给我感受特别深的是不像我过去参加的那些技术大会那样“泛泛而谈”，NVIDIA 的闭门会更像是一场深入企业内核、直击痛点的技术诊疗。以往我参加的会议，更多是技术趋势的分享和厂商产品展示，干货虽有，但落地性偏弱，很少能直接映射到我当前的业务场景里。

不只是“告诉你可以做什么”，还“告诉你怎么做”，包括代码结构、集群配置、性能优化细节，这些内容过去在公开会议上很少会讲到。

会中我能直接和 NV 的技术专家、其他企业的实践者面对面讨论方案细节，获得的是即时且可执行的建议，而不是事后再去翻资料。

会议现场干货密集，其中企业 AI 专场的两个模块让我印象最深：

从 GPU 集群开启 AI 之旅
从基础模型构建你的专属模型（NeMo 2.0）

这两个模块，一个帮我看清底层逻辑，一个帮我找到快速落地的路径。

企业 AI 的现实痛点

在聊收获之前，先说说现实中的困境。
我们公司虽然已经有了一些 AI 应用的探索，但一到大规模落地，问题就开始冒头：

资源不够用
训练大模型和推理服务抢 GPU，用完一个任务才能跑下一个。任务一多，大家都在排队。
运维太复杂
不同团队用不同框架、不同版本的依赖，环境冲突不断；集群状态一旦出问题，排查起来耗时耗力。
更新跟不上
AI 技术日新月异，软硬件版本升级很快，兼容性、稳定性都要重新验证。对非 IT 核心业务的企业来说，维护成本很高。

这些痛点和会议上讲的内容高度契合，让我听得格外有共鸣。

从 GPU 集群开启 AI 之旅

在企业 AI 落地的第一步，就是搞定算力和调度。NVIDIA 的方案围绕 BCM（Base Command Manager） 展开，它的核心目标是让 GPU 集群的管理和使用变得稳定、灵活、易维护。

场景化解读

想象一下，你有一个几十台甚至几百台 GPU 节点的集群，要满足不同团队的训练、推理、测试需求：

数据科学团队在调优模型
算法工程师在跑实验
产品团队需要推理 API 稳定服务用户

如果没有好的调度系统，就像一个厨房只有一个炉子，所有厨师都要排队炒菜，效率极低。
BCM 在这里就像一个智能厨房管理系统，不仅能灵活分配炉子，还能随时监控每个炉子的状态，哪里坏了马上通知维修。

BCM 的三个亮点：

多调度系统并存
支持 Kubernetes、Slurm、Jupyter Notebook 同时部署，方便不同团队按需选择。
混合架构管理
不管是本地集群、公有云还是边缘设备，只要能联网就能纳入统一管理。
全链路监控
管理员能看到资源使用情况，运维能精准定位问题位置，减少故障排查时间。

用 NeMo 快速构建专属模型

第二个让我刚到收获满满的主题是 NeMo 2.0。它是 NVIDIA 推出的端到端生成式 AI 框架，让企业可以用更低的成本、更快的速度定制自己的大模型。

现实中的难点

在公司内部做大模型定制时，最大的问题是：

数据处理流程复杂，清洗、标注、筛选都很耗人力
训练周期长，GPU 资源利用不充分
部署环节优化不到位，推理速度慢

NeMo 针对这些痛点给出了“全套武器”：

数据处理工具：批量高效筛选高质量数据
分布式训练：自动高效利用多节点 GPU
模型定制：支持 P-tuning、SFT、Adapter 等多种微调方式
部署加速：与 Triton 推理服务器无缝衔接，支持 TensorRT-LLM

配置 NeMo 任务执行环境

会议上展示的部分代码我整理如下，假设你要通过 Slurm 集群执行 NeMo 训练任务，可以先声明环境变量，再配置执行器：

# 声明 NeMo 主目录
export NEMO_HOME=/path/to/nemo

# Python 代码示例：定义 Slurm 执行器
def slurm_executor(
    user: str,
    host: str,
    remote_job_dir: str,
    account: str,
    partition: str,
    nodes: int,
    devices: int,
    time: str = "02:00:00",
    custom_mounts: Optional[list[str]] = None,
    custom_env_vars: Optional[dict[str, str]] = None,
    container_image: str = "nvcr.io/nvidia/nemo:25.02.01",
    retries: int = 0,
) -> run.SlurmExecutor:

    if not all([user, host, remote_job_dir, account, partition, nodes, devices]):
        raise RuntimeError("请设置 user, host, remote_job_dir, account, partition, nodes 和 devices 参数")

    mounts = custom_mounts or []

    env_vars = {
        "TORCH_NCCL_AVOID_RECORD_STREAMS": "1",
        "NCCL_NVLS_ENABLE": "0",
        "NTE_DP_AMAX_REDUCE_INTERVAL": "9",
        "NTE_ASYNC_AMAX_REDUCTION": "1",
    }
    if custom_env_vars:
        env_vars.update(custom_env_vars)

    executor = run.SlurmExecutor(
        account=account,
        partition=partition,
        tunnel=run.SSHTunnel(
            user=user,
            host=host,
            job_dir=remote_job_dir
        ),
        nodes=nodes,
        ntasks_per_node=devices,
        mem="0",
        exclusive=True,
        packager=run.Packager(),
    )

    executor.container_image = container_image
    executor.container_mounts = mounts
    executor.env_vars = env_vars
    executor.retries = retries
    executor.time = time

    return executor

这段代码的作用就是帮你快速在 Slurm 集群上启动 NeMo 训练任务，免去反复配置环境的麻烦。

我的收获与落地思路

这次闭门会中分享的案例和方案几乎都是围绕企业级 AI 落地过程中的真实挑战展开，很多场景和我们现在遇到的情况高度契合。结合 BCM 和 NeMo 的方案，我的落地思路也更加明确：

集群管理要智能化，借鉴 BCM 的多调度、多架构管理思路，让 GPU 资源分配更加灵活，解决我们当前“排队跑任务”的痛点。
模型定制要快，将 NeMo 的数据处理工具与分布式训练方案引入到内部项目，缩短从数据准备到模型上线的时间。
部署要高效，提前规划推理优化方案，引入 TensorRT-LLM 和 Triton，提高用户访问时的响应速度，降低长期算力成本。