本次更新中,智匠MindCraft推出全新的视频识别功能,进一步强化了其多模态能力,支持视频/图片合成及多模态智能体的API接口调用。以下是新功能亮点:

  • 视频上传识别功能:

用户现可直接上传视频至智匠MindCraft平台,选择GLM4-V-PLUS或Qwen-VL-Max进行视频识别。支持最大8K和32K tokens上下文长度的视频处理,但建议上传较短视频,以优化识别效果。

  • 视频生成优化:

新增MiniMax模型,优化视频合成效果。新增“帮我想”功能,用户可选择由AI自动生成提示词或输入初步思路,由AI进一步完善。

  • 文生图应用功能:

平台新增文生图功能,支持三种领先的模型:flux.1, DALL-E 3, 和Cogview-3-Plus。用户可以使用“帮我想”功能,生成高质量图像提示词。

  • 开发者平台新智能体接口:

引入多模态智能体接口chat_bot_v1,支持语音输入及文字+语音输出,具备情绪识别能力。

  • 语音识别模型升级:

升级通用语音模型识别接口,增加阿里SenseVoice支持,实现多国语言、情绪识别及音频状态(如说话、笑声、掌声等)的准确识别。

Logo

分享最新的 NVIDIA AI Software 资源以及活动/会议信息,精选收录AI相关技术内容,欢迎大家加入社区并参与讨论。

更多推荐