多模态图片理解prompt

1、识别代码中的**文字类型**，类型有"内容"、"注释"。- 1、识别表格的**元信息**，即表格的头部（columns）信息，数据只允许来源于表格识别，识别不出则输出"无法识别"- 3、识别图表的**标题**，假如图表上方出现加粗的字体，则为图表的标题，若没有图表上方加粗字体，则输出"无"- 5、识别图表的**内容**，即图表的完整具体数据，数据只允许来源于图表识别，识别不出则输出"无法识别"

codeshare1135

388人浏览 · 2025-07-31 17:45:41

codeshare1135 · 2025-07-31 17:45:41 发布

ALI_USER_PROMPT = """
    ##任务
    ### 任务1：提取图表类型的对应信息
        - 1、特别仔细的观察图片，图表的背景和报告的背景颜色明显不同
        - 2、识别图表的**图表类型**，可通过图表展示或者图表的上下文提示来进行识别，如柱状图、折线图、饼图等等
        - 3、识别图表的**标题**，假如图表上方出现加粗的字体，则为图表的标题，若没有图表上方加粗字体，则输出"无"
        - 4、识别图表的**元信息**，例如：柱状图需要识别x、y轴信息，饼图需要识别每个扇区的名称等等
        - 5、识别图表的**内容**，即图表的完整具体数据，数据只允许来源于图表识别，识别不出则输出"无法识别"
        - 6、识别结果输出表格形式的markdown格式
    
    ### 任务2：提取表格类型的对应信息
        - 1、识别表格的**元信息**，即表格的头部（columns）信息，数据只允许来源于表格识别，识别不出则输出"无法识别"
        - 2、识别表格的**内容**，即表格的具体数据，数据只允许来源于表格识别，识别不出则输出"无法识别"
        - 3、识别的表格数据输出为markdown格式
        
    ### 任务3：提取代码类型的对应信息
        - 1、识别代码中的**文字类型**，类型有"内容"、"注释"。注释一般是较小的字体，有可能伴随着斜体，颜色会比正常内容更浅
        - 2、识别代码中的**内容**，需要识别图上除了图表标题以外的所有问题
    
    ### 输出格式
        输出结果按照文档内容顺序以markdown格式输出
        Markdown规范：
            标题使用#符号分级
            列表项用-或数字编号
            代码块用```包裹
            错误处理：
            表格结构损坏时改用代码块包裹原始文本
            请按原始文档顺序输出结构化Markdown，保留完整数据的同时确保格式可直接渲染,输出结果中请勿包含该字符串```markdown```，请勿包含该字符串```plaintext```。
"""

NVIDIA AI 技术专区

分享最新的 NVIDIA AI Software 资源以及活动/会议信息，精选收录AI相关技术内容，欢迎大家加入社区并参与讨论。

更多推荐

历史性合作！英伟达 50 亿美元联手英特尔，边缘 AI 要变天了！

从NVIDIA Jetson AGX Orin模组的高达275 TOPS的AI性能，功率可在15瓦到60瓦之间进行配置，到Jetson Orin Nano系列模组的高达40 TOPS的AI性能，功率可在5瓦到15瓦之间进行选择，提供至高可达NVIDIA Jetson Nano 80倍的性能，英伟达已经构建了完整的边缘AI计算生态。最关键的技术突破在于，两家公司将用英伟达NVLink连接英伟达和英特

NVIDIA AI 技术专区

AI 术语通俗词典：AIGC（人工智能生成内容）

不同于传统的“人写—机助”模式，AIGC 由机器主导生成，人类更多承担提示（Prompt）设计、审校与应用的角色。让机器成为内容创作的“合作者”，极大提高效率、降低成本，并推动全行业的工作方式与产业形态发生深刻变革。AIGC 就像一支“智能乐队”，数据是乐谱，模型是乐手，而用户的提示（Prompt）就是指挥棒。（人工智能生成内容）。在社交媒体、游戏、影视、教育等领域，内容需求越来越大，人工创作难以