在图像检索领域,传统模型处理复杂文本描述时常常力不从心。以CLIP为代表的现有技术面对"白色福特F250皮卡配备有色车窗和超大轮胎"这类包含多个细节的查询时,往往难以精准匹配目标图像。这种"描述越详细匹配越差"的现象,成为制约技术发展的关键瓶颈。
中国联通数据科学与人工智能研究院团队推出的HiMo-CLIP模型,通过创新性的动态语义指纹技术破解了这一难题。该模型搭载的HiDe模块采用统计学方法,能在海量文本中自动识别最具区分度的特征。例如在汽车检索场景中,系统会优先捕捉"超大轮胎"这类核心特征,而非泛化的"有色车窗"描述,使匹配准确率提升至89.3%。
研发团队设计的MoLo损失机制构建了双重保障体系,既确保整体语义匹配,又强化核心特征对齐。这种设计使模型在处理长文本时得分随信息量增加而提升,彻底改变了"多说多错"的行业痛点。在MSCOCO-Long测试集上,新模型的mAP指标较前代提升近20%,同时在Flickr30K短文本测试中保持98.3%的原始性能。
技术落地应用已显现显著成效。京东商品搜索系统接入该模型后,用户使用"黑色连帽卫衣带白色抽绳和刺绣logo"等复杂描述时,搜索转化率提升27%。自动驾驶领域正探索将其用于解析"前方施工区域有黄色警示牌和穿橙色背心的工人"等场景描述,帮助车载系统更精准识别环境要素。
这个开源项目在GitHub上线半年即获得2.3k星标,字节跳动、商汤科技等企业已开展技术验证。当前版本在处理"碳纤维车身包围"等专业术语时仍存在局限,研发团队计划2026年第三季度推出多语言版本,届时将支持外语描述的精准匹配。该成果标志着中国团队在AI基础研究领域取得重要突破,其模拟人类认知逻辑的创新思路,为多模态智能发展提供了新方向。












