公告: 极客数据面向大数据行业从业人员及爱好者分享行业最新资讯以及各种工具使用教程,行业资深大佬可移步至行业专业交流社区 “穹顶喵”!

如何限制人工智能的"谎言"?

3658


虽然说谎传统上是人的事,但发表复杂口头陈述的人工智能系统正变得越来越普遍。这就提出了一个问题,即我们应该如何限制人工智能"谎言"(即被积极选择的谎言)造成的伤害。
人类的真实性受社会规范和法律(反对诽谤、伪证和欺诈)的制约。人工智能和人类之间的差异为人工智能提供了一个更精确的真实性标准的机会,并随着时间的推移使这些标准上升。这可能为公众认识和经济带来重大利益,并降低最坏情况下的人工智能期货的风险。
建立人工智能真实性规范或法律需要做大量工作:
(1)确定明确的真实性标准:
(2)设立能够判断遵守这些标准情况的机构
(3)开发非常真实的AI系统

一、语言模型
变压器模型在许多 NLP 和序列建模任务中产生令人印象深刻的结果。值得注意的是,变形金刚可以处理长序列,从而产生长相干输出:GPT-3 制作的完整段落或 DALL-E 制作的结构良好的图像。这些大型语言模型令人印象深刻,但也非常低效和昂贵,这限制了他们的应用和可访问性。本文假设具有明确的分层结构是变压器高效处理长序列的关键。
为了验证这一说法,研究人员首先研究了不同的方法来降低变形金刚的活性,使其具有等级。性能最好的上扬和下采样层用于创建沙漏 - 分层变形金刚语言模型。沙漏在计算量相同时改进变形金刚基线,并能更高效地产生与变形金刚相同的结果。特别是,沙漏在 ImageNet32 生成任务中为变形金刚模型设置了新的最先进的型号,并在广泛研究的 enwik8 基准上提高了语言建模效率。
已证明,关注编码器解码器网络是解决许多序列到序列任务的有力方法。在这些网络中,注意力对齐编码器和解码器状态,并经常用于可视化网络行为。然而,网络用来引起适当关注的机制仍然神秘。此外,这些机制如何因编码器和解码器(经常性、馈送式等)所使用的特定架构而异,也不太了解。本文探讨编码器解码器网络如何解决不同的序列到序列任务。
引入是将序列中的隐藏状态分解为时间(独立于输入)和输入驱动(独立于序列位置)组件的一种方式。这揭示了注意力矩阵是如何形成的:根据任务要求,网络更严重地依赖于时间组件或输入驱动组件。这些发现在经常性和馈送式结构中都存在,尽管它们在形成时间组件方面存在差异。总体而言,这些结果为关注编码器解码器网络的内部工作提供了新的见解。
何等人设计的影响性残余网络仍然是众多科学出版物中的黄金标准架构。它们通常作为研究中的默认架构,或在提出新架构时用作基线。然而,自 2015 年 ResNet 架构启动以来,在培训神经网络的最佳实践方面取得了重大进展。新颖的优化和数据增强提高了培训配方的有效性。本文重新评估香草 ResNet-50 的性能,当训练与程序,集成这样的进展。
在 Timm 开源库中共享竞争性培训设置和预先培训的模型,希望它们能够成为未来工作的更好基线。例如,随着我们更苛刻的训练设置,香草 ResNet-50 达到 80.4% 前 1 精度在分辨率 224×224 在 ImageNet-val 上没有额外的数据或蒸馏。
GPT-3 等近期工作通过扩展模型大小、数据集大小和计算量,在许多自然语言处理 (NLP) 任务中展示了零射击和少射学习的出色性能。然而,训练像GPT-3这样的模型需要大量的计算资源,这使得它对研究人员具有挑战性。本文提出了将大规模分布式培训性能纳入模型架构设计的方法。采用这种方法,目前最大的单调语言模型元1.0在培训期间在数千个GPU上取得了优异的成绩,在NLP任务上也取得了最先进的成绩。数据处理方法旨在高效过滤大量原始数据。目前最大的高品质中文语料库与5TB高品质文本是建立在这种方法的基础上。此外,还提出了校准和标签扩展方法,以提高零射击和少射性能,并观察到各种任务的准确性稳步提高。元1.0具有很强的自然语言生成能力,所生成的文章很难与人写文章区分开来。