AG直营第一品牌,K8凯发

谢赛宁等新作统一多模态BLIP3-o登场！先理解后生成端掉VAE刷新SOTA

发布时间2025-05-25 05:23:25 来源：小编阅读次数：次

谢赛宁等新作统一多模态BLIP3-o登场！先理解后生成端掉VAE刷新SOTA

　　BLIP3-o采用「先理解后生成」训练策略★◆◆★◆，实现了图像理解与生成的有效统一，并基于GPT-4o构建了BLIP3o-60k数据集。

　　在这种框架下，最优架构方案仍不明确。自回归模型负责生成连续的中间视觉特征，用以逼近真实的图像表示，但这带来了两个关键问题■★◆■：

　　潜在扩散模型通过学习建模压缩潜在表示的分布而不是原始图像像素来构建在这个框架上。通过在VAE潜在空间中操作，这些模型显著降低了输出空间的维度◆★★，从而降低了计算成本并使训练更加高效。

　　相比之下，流匹配框架使模型能够继承扩散过程的随机性。这使得模型能够在相同的提示条件下生成多样化的图像样本，从而有助于更广泛地探索输出空间。

　　因为研究团队的重点是自回归+扩散框架，所以研究团队排除了VAE+MSE方法，因为它们没有包含任何扩散模块。

　　研究团队跳过了图像理解训练阶段，直接在Qwen 2◆◆◆★■★.5 VL上构建研究团队的图像生成模块★■■★◆■。

　　在训练过程中，扩散解码器被微调以使用来自EVA-CLIP的视觉嵌入作为条件，从高斯噪声中恢复原始图像，而EVA-CLIP保持冻结。

　　研究团队建议使用流匹配FlowMatching，这是一种扩散框架★◆，可以通过迭代地从前一个分布（例如高斯分布）中传输样本■■◆★◆■，从目标连续分布中采样◆◆★■◆■。

　　CLIP模型已成为图像理解任务的基础编码器，因为它通过大规模图像-文本对的对比训练能够从图像中提取丰富、高级的语义特征。

　　05月15日，浙江义乌首次发现珍稀濒危物种时珍兰，im体育下载地址，公海赌船，有没有线上德州app◆■■■，澳门威斯尼斯人备用

　　其中θ是扩散变换器的参数，而θ⁢(t,■■■,t) 表示基于实例 (1◆★,) ★◆、时间步t和噪声0预测的速度◆★◆。

　　05月15日吉林长春：二月二萌娃“剃龙头”必威亚洲官网入口ku娱乐真人体育平台客服环球外围官网开云手机版登录

　　传李嘉诚7.6折抛售北京物业，空军红鹰飞行表演队最新训练大片加快完善银发经济支持政策体系重视科技第一动力作用葡京体育电竞开运官网app下载安装新宝gg快速登陆足球比分365bet

　　为了比较各种设计选择★★★◆，研究团队使用Llama-3.2-1B-Instruct作为自回归模型。研究团队的训练数据总计约2500万个样本。

　　对于流匹配损失，研究团队保持自回归模型冻结★◆★◆，仅微调图像生成模块以保留模型的语言能力★◆■■◆。

　　具体来说■★◆★★，在基于MSE的训练目标下★■★，对于给定的提示■★，预测的视觉特征几乎变得确定性■★■。

　　·图像表示方式：将图像编码为高层级的语义特征（例如CLIP图像编码器）■◆★◆，而不是低层级的像素特征（例如基于VAE的编码器）

　　实验显示，CLIP特征配合Flow Matching损失在训练效率与生成质量方面表现最佳。

　　这表明自回归和扩散模型可结合起来★★★■■◆。受这种混合设计的启发，研究团队在研究中采用了自回归+扩散框架。

　　杨巡给梁思申下跪，中方将给予瑞士单方面免签助力雪域高原教育事业提质增效（深聚焦）信誉最好的pt老虎平台九州网址球探体育appios版本买球

　　变分自编码器（VAE）是一类生成模型★★◆★◆◆，它们学习将图像编码到一个结构化的连续潜在空间中。编码器近似给定输入图像的潜在变量的后验分布，而解码器从这个潜在分布中抽取样本重建图像。

　　然而◆★■★■，这种灵活性是以增加模型复杂性为代价的■★★◆。与MSE相比■■◆◆★，流匹配引入了额外的可学习参数。

　　尽管这些类别在预训练时本应被涵盖，但由于研究团队的预训练语料库规模有限，它们没有得到充分处理■◆◆■★。

　　为了解决这些问题，研究团队在后续部分中对不同的架构设计■★■★◆■、特征表示方式和建模策略进行了系统性探索◆★◆◆。

　　然而■★■★■■，利用这些特征进行图像生成仍然是一个不小的挑战◆★◆★■◆，因为CLIP最初并不是为重建任务设计的。

　　偷哭时被室友塞了好多零食◆★◆，aespaC榜实时年冠“五一★◆■◆◆”假期重庆民众乐享近郊游所有电子娱乐游戏网址现金网游戏手机版mg国际官方网站火狐体育官网地址

　　研究团队开发了两种不同大小的模型：一个是在专有数据上训练的8B参数模型，另一个是仅使用开源数据的4B参数模型■◆◆。

　　05月15日◆■，中国银行浙江省分行原党委书记、行长郭心刚被开除党籍，ag亚游开户，ag娱乐登录◆■■，1591网址，千赢国际官方网站app

　　生成的被解释为由自回归模型生成的中间视觉特征或潜在表示，并被训练以逼近真实图像特征。

　　这种确定性突显了MSE的一个关键限制◆◆：它限制了模型为每个提示生成单一、固定的输出，从而限制了生成多样性。

　　家族荣耀之继承者，美国滞留太空宇航员瘦成锥子脸美国警察暴力执法无法无天◆■★■■：去年杀害1232人，创10年来之最7m比分电子游艺网站有哪些另解码图欧亿下载

　　05月15日■★★■★★，AI绘两会 “新质生产力”★◆★■，如何把“Made in China”重新定义，马会图◆★■★，亚娱官网，沙巴在哪开户，球探足球比分

　　在联合训练设置中■★★■，尽管图像理解和生成任务可能互相受益■◆，但两个关键因素影响它们的协同效应：总数据量和图像理解和生成数据之间的数据比例★◆■◆。

　　为了提高对不同提示长度的泛化能力，研究团队还包括了大约 10%（600万）的较短标题，每个标题大约20个标记■◆。

　　当组合序列[;]通过自回归Transformer处理时，学会关注并从提示中提取相关的语义信息。

　　研究团队利用Lumina-Next模型的架构来构建研究团队的DiT。Lumina-Next模型基于改进的Next-DiT架构，这是一种可扩展且高效的扩散Transformer◆■■，专为文本到图像和一般的多模态生成而设计。

　　这一过程有效地将CLIP和扩散模型结合成一个图像自编码器：CLIP编码器将图像压缩为语义丰富的潜在嵌入■★，而基于扩散的解码器则从这些嵌入中重建图像。

　　给定由自回归模型生成的预测视觉特征和真实图像特征，研究团队首先应用一个可学习的线性投影来对齐和的维度。然后将MSE损失公式化为：

　　·训练策略：采用顺序训练策略效果最佳，先用图像理解任务训练自回归模型，再在图像生成阶段保持其参数冻结★■■◆。

　　这篇论文系统性探索了混合自回归与扩散架构在统一多模态建模中的应用，重点评估了图像表示、训练目标和训练策略三大核心要素。

　　与离散标记不同■★■■◆，离散标记天生支持基于采样的策略来探索多样的生成路径◆◆■，而连续表示缺乏这一属性。

　　研究团队使用CLIP将图像编码为64个固定长度的语义丰富的视觉嵌入■■◆◆。如上图 (a) 所示。在推理过程中■■◆★◆◆，给定文本提示★■★，自回归模型预测潜在的视觉特征，随后将其传递给基于扩散的视觉解码器以重建真实图像。

　　书写新时代的金融答卷——省部级主要领导干部推动金融高质量发展专题研讨班侧记

　　05月15日事关2024年国家药品目录调整国家医保局公开征求意见韦德娱乐平台好玩的炸金花手游ca888亚汌城皇室国际官网

　　接下来，研究团队介绍两个训练目标并进行了对比：均方误差和流匹配◆★★★，使与真实图像嵌入对齐。

　　因此，无论视觉解码器是基于VAE还是CLIP+Diffusion架构，输出图像在多次推理运行中几乎保持相同。

　　在图像理解任务中，研究团队在多个数据集上评估基准性能。如表1所示■★★◆★，研究团队的BLIP3-o 8B在大多数基准测试中达到了最佳性能。

　　在此能力的基础上★■■，研究团队将收集指令调优数据集，以使模型适应各种下游应用。

　　结果显示★◆，BLIP3-o在视觉质量和提示对齐上都显著优于Janus Pro，尽管后者在表2的DPG分数更高。

　　两个维度的统计显著性分别为5.05e-06和1.16e-05，说明BLIP3-o的优势可信度非常高。

　　05月15日，韩媒：尹锡悦接受国防部长辞呈提名新防长◆■◆★◆，在哪儿赌欧洲杯球■◆■，188终身网站◆■★，6329开元棋牌网页版■■◆，千亿体育官方

　　9号秘事第九季■★，逆水寒新衣服探访上海首个■★“新时代城市建设者管理者子女爱心寒托班”电竞竞猜网址明博体育平台端口必赢亚洲手机端官网下载威廉体育官方app下载

　　本质上，推理流程包括两个扩散阶段★◆★：第一阶段使用条件视觉特征逐步去噪为CLIP嵌入。

　　05月15日沪宁合高铁项目扬州东站道岔现浇梁完成浇筑龙8国际在线开户凯发app官网登录新萄京娱乐下载线上正规葡京开户

　　给定用户提示（比如「一个戴着草帽的年轻雀斑女子」），研究团队首先使用自回归模型的输入嵌入层将提示编码为嵌入向量序列，并将可学习的查询向量附加到 ■■■◆★◆，其中是随机初始化并在训练中优化的■■◆◆■★。

　　在推理时，给定提示，自回归模型生成视觉特征。然后◆◆◆★，以为条件并在每一步迭代去除噪声，真实图像由VAE解码器生成★★。

　　中国女游客在泰国遭假摩的司机性侵，新加坡门将桑尼下月将受邀来中国以军称打死一名哈马斯指挥官哈马斯暂未回应快手聚星平台登录澳门威斯网ope体育g足球完美体育下载入口

　　对于每个类别◆◆■★，研究团队提示GPT-4o生成大约10k个提示-图像对，创建一个有针对性的数据集◆■★◆■，以提高模型处理这些情况的能力。

　　在研究团队的实现过程中★◆■，研究团队使用了扩散Transformer（DiT），通过经验发现增加其容量可以显著提高性能★■★◆★。

　　使用CLIP + Flow Matching进行图像生成模块的开发。由于图像理解也在CLIP的嵌入空间中运行，在相同的语义空间内对齐这两个任务，从而实现它们的统一★■◆◆◆■。

　　陈梦压力，美国宇航员将乘龙飞船返回地球美媒：特朗普刑事案特别检察官或将辞职亚博网APP纸牌二八杠做牌手法亚洲城app金宝博亚洲体育

　　05月15日，宁夏农垦集团有限公司原党委书记张戈接受审查调查 ◆★★◆★，MG真人在哪注册◆■★■★■，ag体育下载，pg大奖爆分视频★★，bet8九州体育

　　作为一种替代MSE损失的方法■■◆★■，研究团队使用流匹配损失来训练模型以预测真实CLIP嵌入，如上图 (b)所示。

　　05月15日更“新★★★◆★■”更“绿”更“智能” 看老工厂如何焕新升级365体育直播在线九州备用网八方体育网址乐博手机APP

　　联合训练图像理解和图像生成是最为常见做法，这些方法采用了不同的图像生成架构◆■◆◆，但都通过混合用于图像生成和理解的数据来进行多任务学习。

　　05月15日，中国官方调整分年龄组失业率统计★◆★■■◆：更准确完整反映青年就业失业情况★★★◆◆★，在线斗地主游戏，凯时国际最新★★■◆◆，澳门皇冠皇版，博狗扑克

　　关于OpenAI的GPT-4o架构的猜测中，最有可能的一种是采用了一种混合管道结构：

　　其次，如何建模和对齐这些生成的视觉特征与真实特征之间的分布？是采用简单的MSE损失，还是使用更复杂的扩散方法？

　　05月15日上海■◆◆：“国粹”破圈融合岐黄丹青推动中华文明创造性转化九游会足球365体育平台专业正规网址AOA网站是什么万博官网网页版首页登陆入口

　　对于8B模型，研究团队将大约2500万开源数据与额外的3000万专有图像结合。所有图像标题由Qwen2.5-VL-7B-Instruct生成，平均长度为120个标记。

　　针对这个问题，团队通过将基于CLIP的编码器与基于扩散的解码器配对，提出使用EVA-CLIP将图像编码为连续的视觉嵌入，并通过从初始化的扩散模型进行重建。

　　由于基于模型的DPG-Bench评估可能不可靠，研究团队在下一节通过继续研究补充这些结果■★◆◆★。

　　05月15日■★■★，俄方称俄军用运输机系被美制“爱国者★★◆◆”导弹击落，米乐免费试玩，龙8国际入口，必发网址登录★★◆，立博快速注册

　　相比之下，顺序训练提供了更大的灵活性：能够冻结自回归主干并保持图像理解能力★★◆★■。研究团队可以将所有训练能力专门用于图像生成★★，避免联合训练中的任何任务间影响。

　　首先◆■★★，如何定义「真实」的图像嵌入？应该选择VAE还是CLIP来将图像编码为连续特征■■？

　　就在最近，来自Salesforce、UMD■■★■、VT、NYU、UW等机构的研究人员，发布了一组完全开源的统一多模态模型BLIP3-o。

　　·训练目标函数：使用Flow Matching代替MSE■◆★★■，提升图像生成质量■◆◆■。

　　图像生成通常首先使用编码器将图像编码为连续的潜在嵌入■■◆★◆◆，然后使用解码器从该潜在嵌入中重建图像■◆。这种编码-解码流程可以有效地降低图像生成中输入空间的维度■★，从而提高训练效率。研究讨论了两种目前广泛使用的方式■◆◆：

　　研究团队推出了统一模型系列BLIP3-o，并构建了包含60k条指令的微调数据集BLIP3o-60k◆■◆，显著提升了模型的提示对齐能力和图像美学质量◆★。

　　仅使用MSE损失只能使预测的图像特征与目标分布的均值对齐。理想的训练目标应能建模连续图像表示的概率分布。

　　05月15日，佘诗曼三封TVB视后《新闻女王》获最佳剧集，金新国际真人赌场，麻将二八杠大小排序◆★，vwin德赢官网，九游会平台网址

　　BLIP3-o的架构包括两部分，理解部分使用CLIP对图像进行编码；生成部分，自回归模型生成中间视觉特征■★★◆◆，作为DiT的输入，采用CLIP+Flow Matching策略生成图像特征★■◆。

　　OpenAI的GPT-4o最近展示的高质量图像生成和强大的多模态理解能力，激发了人们对于多模态范式的兴趣◆★■。。

　　与其同时训练图像理解和生成■■■，研究团队采用两阶段方法。在第一阶段◆■■，研究团队仅训练图像理解模块。在第二阶段，研究团队冻结MLLM主干，并仅训练图像生成模块。

　　给定一个线和由自回归模型编码的条件，在每个训练步骤中，研究团队采样一个时间步 t∼⁢(0★★◆■,1) 和噪声 0∼⁢(0,1) 。

　　研究团队首先探讨如何通过编码器-解码器架构将图像表示为连续嵌入，这在学习效率和生成质量方面起着基础性作用。

　　目前作为第一步■★■，研究团队将专注于图像重建，将图像输入到图像理解视觉编码器中，然后通过图像生成模型进行重建★■◆■◆★，以无缝连接图像理解和生成。

　　05月15日第六届福建文创市集登场剪纸花灯、拓印等文化体验吸睛亚娱怎么注册188比分在线大富豪游戏怎么样在线买球app……

　　下图显示，CLIP+流匹配在GenEval和DPG-Bench上都达到了最佳的提示对齐得分，而VAE+流匹配产生了最低（最佳）的FID◆★■◆◆，表明其具有优越的美学质量◆■■◆◆■。

　　基于研究团队的研究结果，研究团队采用CLIP+Flow Matching和顺序训练来开发先进的统一多模态模型BLIP3-o■■◆★★。

　　05月15日空中客车直升机中国位于横琴的新总部开业澳门宝马游戏网站金百利国际娱乐真人在线澳门金年会app下载官网万赢国际教育

　　【新智元导读】BLIP3-o是一个全开源统一多模态模型■◆★★■，结合自回归与扩散架构，采用「先理解后生成」策略，创新地使用CLIP特征与Flow Matching训练，显著提升生成图像质量与多样性。BLIP3-o不仅在多个评测中表现领先，也正拓展至图像编辑和视觉对话等多模态任务。

　　在图像生成研究基础上★■★◆◆，下一步是开发一个统一的模型，该模型可以同时执行图像理解和图像生成。