智匠MindCraft 1.2.11版本发布：全面提升多模态能力，新增视频识别功能

用户现可直接上传视频至智匠MindCraft平台，选择GLM4-V-PLUS或Qwen-VL-Max进行视频识别。支持最大8K和32K tokens上下文长度的视频处理，但建议上传较短视频，以优化识别效果。本次更新中，智匠MindCraft推出全新的视频识别功能，进一步强化了其多模态能力，支持视频/图片合成及多模态智能体的API接口调用。升级通用语音模型识别接口，增加阿里SenseVoice支持，

智匠MindCraft Al

343人浏览 · 2024-09-23 09:51:32

智匠MindCraft Al · 2024-09-23 09:51:32 发布

本次更新中，智匠MindCraft推出全新的视频识别功能，进一步强化了其多模态能力，支持视频/图片合成及多模态智能体的API接口调用。以下是新功能亮点：

视频上传识别功能：

用户现可直接上传视频至智匠MindCraft平台，选择GLM4-V-PLUS或Qwen-VL-Max进行视频识别。支持最大8K和32K tokens上下文长度的视频处理，但建议上传较短视频，以优化识别效果。

视频生成优化：

新增MiniMax模型，优化视频合成效果。新增“帮我想”功能，用户可选择由AI自动生成提示词或输入初步思路，由AI进一步完善。

文生图应用功能：

平台新增文生图功能，支持三种领先的模型：flux.1, DALL-E 3, 和Cogview-3-Plus。用户可以使用“帮我想”功能，生成高质量图像提示词。

开发者平台新智能体接口：

引入多模态智能体接口chat_bot_v1，支持语音输入及文字+语音输出，具备情绪识别能力。

语音识别模型升级：

升级通用语音模型识别接口，增加阿里SenseVoice支持，实现多国语言、情绪识别及音频状态（如说话、笑声、掌声等）的准确识别。

NVIDIA AI技术专区

分享最新的 NVIDIA AI Software 资源以及活动/会议信息，精选收录AI相关技术内容，欢迎大家加入社区并参与讨论。

更多推荐

NVIDIA 推出开放推理 AI 模型系列，助力开发者和企业构建代理式 AI 平台

SAP 全球 AI 负责人 Walter Sun 表示，“这些先进的推理模型将优化和重写用户查询请求，使我们的 AI 能够更好地理解问题，并提供更智能、更高效的 AI 体验，从而推动业务创新。“推理和代理式 AI 的采用速度非常惊人，” NVIDIA 创始人兼首席执行官黄仁勋表示，“NVIDIA 的开放推理模型、软件和工具为世界各地的开发者和企业构建高效的代理式 AI 团队提供了坚实基础。推理性能

NVIDIA AI技术专区

NVIDIA Dynamo 开源库加速并扩展 AI 推理模型

作为 NVIDIA Triton™ 推理服务器的后续产品，NVIDIA Dynamo 是一款全新的 AI 推理服务软件，旨在为部署推理 AI 模型的 AI 工厂最大化其 token 收益。”NVIDIA 创始人兼首席执行官黄仁勋表示，“为了实现自定义推理 AI 的未来，NVIDIA Dynamo 可以在这些模型上进行规模化部署，从而为 AI 工厂实现降本增效”。然后，它会将新的推理请求路由到与所需

NVIDIA AI技术专区

NVIDIA 发布连接 AI 智能体的 AI-Q Blueprint，开启未来工作新范式

使用这些工具的企业将能够更轻松地连接跨解决方案的 AI 智能体团队，例如 Salesforce 的 Agentforce，Confluence 和 Jira 中的 Atlassian Rovo，以及用于业务转型的 ServiceNow AI 平台，以打破孤岛，简化任务，并将响应时间从几天缩短到几个小时。通过使用 AI-Q 的分析器功能，Visa 可以优化智能体的性能和成本，更大限度地发挥 AI 在