近日,明略科技与北京大学、吉林大学合作的最新研究成果《PRE-MAP: Personalized Reinforced Eye-tracking Multimodal LLM for High-Resolution Multi-Attribute Point Prediction》被ACM MM 2025正式接收。该研究为解决现有视觉注意力模型在个性化注视点预测中的局限性,提出了一种新的方法(PRE-MAP)和一个大规模多模态数据集(SPA-ADV),以更好地捕捉个体差异并提高高分辨率视频中的多属性注视点预测精度。
ACM MM 2025(ACM International Conference on Multimedia)计划将于2025年10月27—31日在爱尔兰都柏林举办。该会议由国际计算机学会(ACM)主办,是全球多媒体技术领域的旗舰会议,同时也是中国计算机学会(CCF)推荐的A类国际学术会议。

论文标题: PRE-MAP: Personalized Reinforced Eye-tracking Multimodal LLM for High-Resolution Multi-Attribute Point Prediction
(中文标题:PRE-MAP:用于高分辨率多属性注视点预测的个性化眼动追踪多模态大语言模型)
论文作者:吴寒冰*、姜平*、苏安炀*、赵晨旭、傅天宇、吴明辉、谭北平、李慧盈(*为共同第一作者)
研究成果简述:
1. 直击行业核心痛点
在当今的数字广告领域,理解消费者的目光焦点至关重要。然而,不同背景的观众(如年龄、性别各异)在观看同一视频广告时,其注意力分布也大相径庭,传统技术却无法捕捉这种个性化差异。传统的显著性预测模型通常采用分割方法,依赖于降采样的低分辨率图像来生成显著性热图,随后将其放大到原生分辨率,这限制了它们捕捉个性化注意力模式的能力。
2. 构建高质量数据底座
为攻克这一难题,研究团队开创性地建立了业界领先的大规模个性化注视行为数据集(SPA-ADV),首次记录了超过4500名不同年龄与性别背景用户的真实视觉行为。该数据集提供精确的个体级注视点坐标,为个性化显著性建模提供了高质量的基准数据支持。
3. 研发高精度预测模型
基于此数据集,团队研发了PRE-MAP创新AI预测模型。该模型能结合用户的个人特征,利用最前沿的多模态大模型技术,增强模型的泛化能力和个性化预测效果,精准预测出“某一类人会看哪里”。有效解决现有AI模型预测不准、难以聚焦个性化热点的问题,帮助品牌方和广告商更科学地优化广告创意、评估投放效果,实现真正的“精准触达”。
明略的多模态实践:从脑电到眼动,补齐广告预测模型的关键拼图
此次成果并非孤立的突破,而是明略科技在多模态领域长期且深度耕耘的必然结果,彰显了公司在前沿AI技术探索与大模型应用落地上的前瞻性布局:
早在2023年,明略科技率先成为国内首家基于多模态大语言模型(MLLM)实现智能社交媒体内容分析和策略生成的企业,首度将多模态大语言模型(MLLM)应用于识别并预测能带来最佳营销效果的多样化内容类型,开辟了广告领域全新的多模态技术应用赛道。
2024年,明略科技推出超图多模态大型语言模型(HMLLM),进一步整合了脑电等非标模态数据,支持企业对广告素材中的实体、情绪、效果、场景及受众等多样化元素进行深度分析,从而提升营销效果,生成预测效果良好的有效营销内容,并为企业视频广告提供多维度优化建议。超图多模态大型语言模型(HMLLM)的相关成果曾荣获ACM MM 2024最佳论文提名。
今年6月,基于自研的超图多模态大型语言模型(HMLLM),协同混合专家(MoE)模型,明略科技再推创新成果——AI驱动的全球化广告测试及优化平台AdEff。该平台专为全球广告创意测量打造,可快速、准确预测消费者对广告的主观反应和广告效果,并给出优化建议。在测试效率大幅提升的同时,显著降低广告测试成本,让企业有机会对每一支广告进行测试,在 “创意感性” 与 “商业理性” 之间找到平衡。
直至7月本次研究成果被接收,标志着明略科技在多模态学习这一人工智能前沿方向取得了又一突破性进展,补齐了广告预测模型中“用户个性化视点追踪”这一关键拼图。它既是推动广告预测模型高质量发展的重要一环,也昭示着机器理解人类感知的精度即将迈上新的台阶。
在数字化内容日益碎片化的今天,AI驱动的科学预测已成为提升内容触达效率的关键引擎。明略科技在多模态学习领域的系统性实践,将在品效提升、成本优化和内容创新层面展现出广阔的应用价值。
立足于此,明略科技的视野不止于多模态领域的深耕。未来,公司将会面向更广阔的AI大模型及Agent技术领域持续探索,致力于把前沿科研成果转化为强大的产业动能,驱动广告营销乃至更多行业的智能化升级,为构建高效、智能的技术生态贡献力量。