麻省理工学院(MIT)、加州大学圣地亚哥分校(University of California, San Diego)和IBM的科学家开发了VALHALLA机器学习方法,使书面文字的图像产生幻觉,并使用它们将文本翻译成目标语言。
研究人员训练神经网络专注于句子中的关键词和语义,然后使用一个转换器创建视觉幻觉,然后使用第二个转换器使用第一个输出执行多模态翻译。
训练包括将一个源句与一个基本事实图像配对,然后将同样的句子幻化形成一个文本-图像对。
该团队将VALHALLA与其他最先进的多模式和纯文本翻译技术进行了比较,并对其在13项任务中的性能进行了量化。VALHALLA改进了纯文本翻译,并在句子变长时优于其他方法。
从麻省理工学院的新闻
查看全文
版权所有©2022SmithBucklin,美国华盛顿特区
没有发现记录