MMSearch:释放大模型作为多模态搜索引擎的潜力
你是否曾思考过,像GPT-4V、Gemini等多模态大模型(LMMs)能否像人类一样,根据图片或文字去互联网上主动搜索、筛选并总结信息?MMSearch 的出现,旨在系统性地探索和评估这种可能性。它是一个开创性的多模态搜索基准测试框架与引擎管道,旨在将任何LMM转化为一个功能强大的多模态AI搜索引擎。本文将带你全面了解这个来自ICLR 2025的潜力新星。
截至收录:
MMSearch项目stars数:482
MMSearch项目forks数:33
MMSearch项目目录截图

MMSearch项目核心亮点
- 🔬 首创性基准测试:作为首个专门为评估LMM多模态搜索能力而设计的全方位基准,填补了该领域的空白。
- ⚙️ 一体化引擎管道:提供了完整的
MMSearch-Engine实现,可将任何LMM轻松接入,构建一个端到端的搜索系统。 - 📊 渐进式评估策略:通过“查询重构”、“结果重排”、“信息摘要”和“端到端搜索”四个渐进任务,深入剖析模型的搜索能力短板。
- 🌐 真实无污染数据:包含300个精心收集的跨14个领域的搜索实例,确保答案无法从训练数据中直接获得,必须通过真实搜索来获取。
MMSearch项目快速开始
只需几步,你就能使用 MMSearch 来评估你的多模态大模型或体验搜索演示:
- 环境准备:
bash
# 克隆仓库并安装依赖
git clone https://github.com/CaraJ7/MMSearch.git
cd MMSearch
pip install -r requirements.txt
playwright install # 用于网页交互 - 接入你的模型:
- 方式A(使用VLMEvalKit中的模型):安装VLMEvalKit后,在模型名前加
vlmevalkit_前缀即可调用。 - 方式B(自定义模型):参照
models/llava_model.py实现一个infer函数接口,即可轻松集成。
- 方式A(使用VLMEvalKit中的模型):安装VLMEvalKit后,在模型名前加
- 开始评估:
bash
# 分别运行三个核心任务的评估脚本
bash scripts/run_end2end.sh
bash scripts/run_rerank.sh
bash scripts/run_summarization.sh
# 计算最终得分
bash scripts/run_get_final_score.sh - 体验命令行搜索演示:
bash
# 编辑 demo/query_cli.json 文件,填入你的查询(可带图片)
# 运行演示脚本
bash demo/run_demo_cli.sh
MMSearch项目应用场景
- 大模型能力测评:为研究机构和公司提供标准工具,量化评估不同LMM在复杂多模态搜索任务上的真实表现。
- 搜索引擎增强:开发者可以利用其管道,将先进的LMM能力集成到现有搜索引擎中,实现更智能的“以图搜图”和“多轮问答式搜索”。
- 智能助手开发:为构建能够主动联网获取、整合信息的下一代多模态AI助手提供核心框架和评估依据。
- 学术研究:为多模态理解、推理、信息检索等交叉领域的研究提供高质量的数据集和可复现的实验平台。
MMSearch项目链接
CaraJ7 / MMSearch项目地址:https://github.com/CaraJ7/MMSearch
本文地址:https://www.tgoos.com/40515
声明:本站资源均整理自互联网,版权归原作者所有,仅供学习交流使用,请勿直接商用,若需商用请购买正版授权。因违规使用产生的版权及法律责任由使用者自负。部分资源可能包含水印或引流信息,请自行甄别。若链接失效可联系站长尝试补链。若侵犯您的权益,请邮件(将 # 替换为 @)至 feedback#tgoos.com,我们将及时处理删除。转载请保留原文链接,感谢支持原创。
