当前位置: 首页 > news >正文

怎么自己改自己做的网站的图片合肥seo网站建设

怎么自己改自己做的网站的图片,合肥seo网站建设,原则网站设计版式,自己做的网页可以上传网站吗介绍 论文地址:https://arxiv.org/abs/2105.05964 源码地址:https://github.com/facebookresearch/connect-caption-and-trace 在过去,计算机视觉和自然语言处理领域的模型和算法的发展只有偶尔的重叠,但近年来,这两…

介绍

论文地址:https://arxiv.org/abs/2105.05964
源码地址:https://github.com/facebookresearch/connect-caption-and-trace

在过去,计算机视觉和自然语言处理领域的模型和算法的发展只有偶尔的重叠,但近年来,这两个领域的想法逐渐趋同。

特别是,重点是建立多模态模型来协调视觉和语言,这些模型的目标是模仿人类压缩信息和跨模态翻译的非凡能力

然而,尽管取得了这些进展现有的图像标题数据集只提供简短的名词或短语级别的标题,并且而且,到目前为止,图像标题和视觉定位模型无法联合生成长篇自然语言标题和高度精确的词级视觉定位

本文介绍了一个使用新颖的Transformer架构解决上述问题的论文,该架构对图像、标题和追踪这三种模式进行联合建模。

数据集和新任务概述

首先,描述了本文中使用的本地化叙事数据集和使用它的新任务。

本地化叙述数据集是通过同时记录注释者描述图像内容时的声音和鼠标痕迹来收集的。该数据集将由三种模式组成:图像、标题和追踪。

虽然关于这个数据集的原始论文只处理了一个任务**–从图像和痕迹中生成标题**–但本文提出了两个额外的、具有挑战性的新任务

  1. 以图像和标题作为输入,生成痕迹。
  2. 只用图像作为输入就能生成标题和痕迹。

这在下图中得到了体现。(表中第1行和第3行是新任务)

虽然这三项任务乍看之下是分开的,但本文提出了一个新颖的模型架构并提出了一个统一的框架对这三项任务进行联合建模。

MRL(Mirrored TransformeR)

本文没有为上述三个任务建立三个独立的模型,而是提出了一个模型,在一个统一的框架内有效地学习,并共享参数,由于其对称结构,本文将这个模型架构命名为Mirrored TransformeR(MITR)。该模型架构因其对称的结构而被命名为镜像传输(MITR)。(见下图)

特征值

模型的输入是一个图像特征、文本特征和痕迹特征的子集,每个特征都是

  • 图像特征使用预先训练好的Faster R-CNNs来计算检测区域的视觉特征。
  • 对于文本特征,与现有的研究一样,总和位置嵌入和词嵌入
  • 在轨迹特征中,位置嵌入和输入轨迹对d个隐藏维度的投影被加在一起。

模型结构

该模型由三个模块组成:1)图像编码器,2)字幕编码-解码器和3)轨迹编码-解码器。(见下图)

让我们分别用xv、 xw和 xr来表示输入的图像特征、文本特征和痕迹特征。图像编码器hv定义如下。

这里,按照现有的研究,前馈网络(FFN)被定义为两个线性转换层,中间有一个ReLU激活函数,MultiHead定义如下。

标题编码器-解码器hw跟踪编码器-解码器hr也定义如下。

这些模块被设计成具有镜像结构,在标题生成和跟踪生成这两项任务中,两种模式是对称的。

另外,通过执行现有研究中提出的屏蔽操作,即编码器指的是所有输入,而解码器只指部分过去的信息 ,上述两个模块的特点是能够在编码器和解码器的角色之间无缝切换。这两个模块可以在编码器和解码器的角色之间无缝切换。

总损失功能

最终的损失函数可以表述如下

其中,**L[trace]**是trace生成中预测的trace盒与地面真实trace盒之间的L1损失,L[caption]是caption生成中的cross-entropy损失,**Lr~→w→r是循环损失,而L[联合]**是联合字幕和追踪生成任务中的追踪损失和字幕损失之和。

实验

本文在四个数据集上进行了实验,COCO、Flickr 30k、ADE 20k和Open Images。

痕迹和标题的生成

使用本文提出的方法,跟踪生成(任务1)和标题生成(任务2)的结果如下图所示。结果显示在图2中。

如图所示,所提出的方法能够为这两项任务获得准确的生成结果。

联合字幕和痕迹生成

同时生成字幕和追踪的结果(任务3)如下图所示。

与只对字幕进行建模的基线相比,同时对痕迹和字幕进行建模,使字幕生成性能得到了显著提高。

然而,在没有人为痕迹注释生成标题的情况下,有时会观察到诸如同一对象或描述在一个标题中重复多次的缺陷,这表明需要采取一些措施,如保留所有参考对象的记录,以便在未来的发展中避免这种重复。有人建议,在未来的发展中,应采取诸如保留所有参考对象的记录的措施,以避免这种重复。

总结

提出了Mirrored TransformeR(MITR),这是一个新颖的转化器架构,它对图像、标题和追踪三种模式进行联合建模。

由于该模型有可能被用来解决各种社会问题,例如为社交媒体上的视障人士自动生成图片的本地化描述。未来的发展将受到密切关注。

http://www.pjxw.cn/news/25875.html

相关文章:

  • 辽阳低价网站建设公司东莞seo网站排名优化公司
  • 沈阳制作网站的人网站建设案例
  • 某学校网站建设方案seo方法培训
  • 免费网站开发源代码新闻热点最新事件
  • 网站没有域名百度seo发包工具
  • 做百科的网站百度首页排名优化公司
  • 全国代理网百度seo公司
  • 福州网站建设招商seo搜索引擎优化案例
  • 做企业网站用什么cms好网站优化哪个公司好
  • 网站开发怎么做网页设计框架
  • 做化工贸易要用那些网站推广西安seo网络推广
  • 公司网站制作策划软文广告经典案例300
  • 给网站做推广网页制作教程步骤
  • 网站 网址 域名seo软件代理
  • 简单个人网站设计廊坊百度推广seo
  • 响应式商品展示的网站网站推广计划书范文500字
  • 长沙做网站找谁网络营销工具包括
  • 网站url1688的网站特色
  • 企业网站的网络营销功能包括电商数据分析
  • 自己在家怎么学编程广州优化公司哪家好
  • 电商网站产品模块微信公众号怎么做文章推广
  • 网站主题页优化师的工作内容
  • 龙游发布紧急提示搜索引擎优化是做什么
  • 那个比特币网站可以做杠杆seo站内优化培训
  • 零售管理系统哪个软件好安卓手机优化神器
  • 应用软件开发工程师文登seo排名
  • 有需求或做任务赚钱的网站么黄页网络的推广软件
  • 做刷单网站违法吗网络推广一般都干啥
  • 南宁市有哪些做网站的外包企业关键词优化公司费用多少
  • 忠县网站制作销售渠道