遏制 AI 幻觉:苹果 DeepMMSearch-R1 论文揭秘“图像裁剪”搜索术

今天12:07
针对现有AI模型在处理复杂视觉信息时常出现的“答非所问”或“漏看”问题,苹果推出了DeepMMSearch-R1模型。传统模型在面对“图中左上角那只鸟的最高时速是多少”这类复合问题时,往往因无法聚焦局部细节而给出错误的平均数据。DeepMMSearch-R1引入了独特的“视觉定位工具(GroundingTool)”,能够主动裁剪图片以剔除干扰信息,先精准识别微小目标,再进行针对性的网络搜索验证,从而确保答案的事实准确性。为确保模型仅在必要时才启用裁剪功能以节省算力,研究人员采用了“监督微调(SFT)+在线强化学习(RL)”的组合训练法。SFT负责教会模型“不乱剪”,而RL则提升了工具调用的效率。测试数据显示,该模型在处理需精准图文对应的问题上,表现显著优于目前的RAG(检索增强生成)工作流及基于提示词的搜索智能体,成功解决了AI在常识性事实检索中的“偷懒”现象。亚汇网附上参考地址广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,亚汇网所有文章均包含本声明。
免责声明:本文章仅代表作者个人观点,不代表亚汇网立场,亚汇网仅提供信息展示平台。

更多行情分析及广告投放合作加微信: hollowandy

相关新闻

下载APP,查看更多新闻


请扫码或添加微信: Hollowandy