果博(中国区)官方网站-综合赛事平台TAG标签主页

AI生图可“量身定制”了华为清华打造个性果博官方网站化多模态生成方法PMG

作者:小编    发布时间:2024-06-23    浏览量:

  果博相比而言,非个性化生成不会考虑每个用户之前的行为偏好,对用户无差别对待,就没那么懂用户了。

  PMG不仅限于即时通信软件,还可以广泛应用于电商、在线广告、游戏、创作辅助等领域,实现个性化背景、人体形态、颜色、表情、角色等内容的生成。

  用户的观影和对话历史作为用户历史行为,电影泰坦尼克号真实的电影海报作为目标物品。研究团队利用大语言模型的推理能力,从用户历史行为中提取用户偏好。

  同时,他们将目标物品也通过大模型转换为显式关键词(称为“目标物品关键词”)作为目标项的描述信息。

  最终,生成器(例如扩散模型或多模态大语言模型)通过整合和加权用户偏好和目标项关键词来生成既反映用户个性偏好、又符合目标物品的多模态内容,例子中为更具有灾难、惊悚风格的泰坦尼克号电影海报。

  整个过程中有三个关键技术点:关键词生成、隐式向量生成、用户偏好和目标项的平衡。

  首先需要构造提示词指导大模型将用户偏好提取为关键词,该提示词主要包含三个组成部分:任务指令p、属性ai和任务示例e。

  属性a=[a1,a2…]针对每个场景进行了定制,例如对于服装可以是“颜色、材质、形状”,对于电影可以是“类型、地区、导演”等等。

  在每个问题中,大语言模型被指派回答与特定属性相关的用户偏好,并将这些答案进行组合。

  示例e提供了期望的输出格式和示例关键词(例如“可爱”、“卡通”等),不仅有助于指导模型的回答,还使其遵循了标准化的输出格式,从而便于从生成的输出中提取关键词。利用这个提示,可以将模型为属性ai生成的用户偏好关键词kpi表示为:

  接下来,将每个属性的输出组合起来,并消除重复项,得到用户偏好关键词kp:

  生成目标项目关键词kt的过程类似,但只有一个目标交互物品ht和相应的总结信息xt,同时在这种情况下,没有涉及到对话,其生成过程可以表示为:

  利用提取出的用户偏好关键词kp和目标项关键词kt,已经可以用于后续多模态内容生成,然而,作为一种离散化形式,自然语言表达能力有限。

  另一方面,利用连续的隐向量能提供更丰富和精确的表示却需要大量的训练资源。因此我们采取以关键词为主,隐向量为辅两者结合的方式表征用户偏好,这些用户偏好向量有助于解决自然语言与实际用户偏好之间的不匹配问题,其训练过程如图3所示。

  在用户行为与提示词的基础上,研究团队引入P-Tuning V2微调的偏差校正大模型,在其中使用额外长度为L的多模态表征M=[m1,m2…mL]来学习多模态生成能力。

  这些多模态表征会被传递给大语言模型,并且它们在向量层中的对应参数是可训练的。

  同时按照P-Tuning V2的方法,在每个Transformer层的自注意力机制中,将S个可训练的前缀向量t=[t1,t2…tS]前置到向量序列中。偏差校正大模型正向传播操作的结果输出向量可以表示为:

  其中Eprompt和Em表示大语言模型的两部分输出,其中多模态表征的输出Em被作为偏好隐向量用于后续多模态内容的生成过程。生成器结合偏好隐向量、用户关键词生成的多模态内容会与监督信号计算MSE损失,并反向传播到偏差校正大模型中的可训练参数中进行训练。

  然而,生成器往往具有较大的随机性,简单地组合可能导致对某一个条件的过度侧重,而忽略了另一个条件。为了解决这一问题,研究团队使用生成内容与偏好关键词之间的相似度来衡量个性化程度,称之为“个性化水平”。

  这两个指标的计算方式为利用预训练的多模态网络(如CLIP),将生成结果M和关键词kp、kt转换为向量eM、ep、et,计算它们之间的余弦相似度,作为个性化水平dp和准确度dt。

  超参数α通常设置为0.5,可以根据使用场景和需求进行调整,以实现不同程度的个性化。

  考虑到当前多模态生成器具有强大的并行生成能力,研究团队使用多个预定义的权重集合wp、wt进行生成,并选择得分z最高的一个作为最终生成结果。

  研究人员使用POG和MovieLens数据集对服装和电影海报这两个场景进行了量化评估。

  评估方式是通过图像相似度指标LPIPS和SSIM计算生成结果与用户交互历史以及与目标物品图像之间的相似度,从而衡量其个性化程度以及与目标物品的符合程度。

  当只提供关键词“鞋子,卡通”时,有一定可能形生成鞋子的卡通风格画。然而,在加入偏好隐向量后,模型始终生成带有卡通图案的逼真鞋子。

  研究团队通过用户调研对该技术进行了评估,结果显示,PMG生成的内容得分远高于非个性化生成内容。

  最后,团队表示,个性化多模态生成技术目前处于早期探索阶段,近期重量级的OpenAI与苹果Siri合作的核心竞争力之一就是通过Siri的用户数据来让AI生成加入个性化,个性化多模态生成技术将成为AI的关键热点趋势。

  我们相信这项技术将在未来拥有广阔的应用前景和巨大的商业潜力,很快迎来爆发式增长。

推荐新闻

在线客服 :

服务热线:400-123-4567

电子邮箱: admin@hfslpds.com

公司地址:广东省广州市天河区工业园88号

深圳服饰有限公司一家集品牌女装 男装 童装 中老年装 批发及加盟于一体的大型专业品牌服饰折扣公司,成立于2005年,在长期的公司经营中,和客户形成了良好而坚定的联系

Copyright © 2012-2025 果博(中国区)官方网站-综合赛事平台 版权所有   粤ICP备2021067041号