
智匠MindCraft 1.2.11版本发布:全面提升多模态能力,新增视频识别功能
用户现可直接上传视频至智匠MindCraft平台,选择GLM4-V-PLUS或Qwen-VL-Max进行视频识别。支持最大8K和32K tokens上下文长度的视频处理,但建议上传较短视频,以优化识别效果。本次更新中,智匠MindCraft推出全新的视频识别功能,进一步强化了其多模态能力,支持视频/图片合成及多模态智能体的API接口调用。升级通用语音模型识别接口,增加阿里SenseVoice支持,
·
本次更新中,智匠MindCraft推出全新的视频识别功能,进一步强化了其多模态能力,支持视频/图片合成及多模态智能体的API接口调用。以下是新功能亮点:
-
视频上传识别功能:
用户现可直接上传视频至智匠MindCraft平台,选择GLM4-V-PLUS或Qwen-VL-Max进行视频识别。支持最大8K和32K tokens上下文长度的视频处理,但建议上传较短视频,以优化识别效果。
-
视频生成优化:
新增MiniMax模型,优化视频合成效果。新增“帮我想”功能,用户可选择由AI自动生成提示词或输入初步思路,由AI进一步完善。
-
文生图应用功能:
平台新增文生图功能,支持三种领先的模型:flux.1, DALL-E 3, 和Cogview-3-Plus。用户可以使用“帮我想”功能,生成高质量图像提示词。
-
开发者平台新智能体接口:
引入多模态智能体接口chat_bot_v1,支持语音输入及文字+语音输出,具备情绪识别能力。
-
语音识别模型升级:
升级通用语音模型识别接口,增加阿里SenseVoice支持,实现多国语言、情绪识别及音频状态(如说话、笑声、掌声等)的准确识别。
更多推荐
所有评论(0)