首页 科技内容详情
不用亲手搭建型了!华人博士提出few-shot NAS,效率提升10倍

不用亲手搭建型了!华人博士提出few-shot NAS,效率提升10倍

分类:科技

网址:

反馈错误: 联络客服

点击直达

Allbet客户端下载

欢迎进〖jin〗入Allbet客户端下载(www.aLLbetgame.us),欧博官网是欧博集团的官方网站。欧博官网开放Allbet注册、Allbe代理、Allbet电脑客户端、Allbet手机版下载等业务。

,

新智元报道

泉源:ICML 2021

编辑:LRS

【新智元导读】你能找到最优的深度学习模子吗?照样说你会「聚积木」?最近,伍斯特理工学院华人博士在ICML 2021上揭晓了一篇文章,提出一个新模子few-shot NAS,效率提升10倍,准确率提升20%!看来「调参侠」们又要主要了!

神经网络模子经常被研究职员戏称为「聚积木」,通过将各个基础模子堆成更大的模子,更多的数据来取得更好的效 xiao[果。

为了『liao』减轻人工构建模子的事情量,用AI手艺来搜索最优“聚积木”方式就很有需要了。神经架构搜索 (NAS) 就是{shi}这样一种手艺,在深度学习领域逐渐受到关注,随着研究的生长,NAS能够辅助研究职员快速搭建合适的深度学习模子。

Vanilla NAS 使用搜索算法来遍历探索搜索空间,并通过重新最先训练新的架构来评估它们的性《xing》能。暴力搜索和深度学习的通病就是需要更多的时间,例如完整搜索可能需要数千小时的 GPU 时间,导致在许多研究应用中盘算成本异常高,无法现实应用。

另一种方式构建流程 one-shot NAS,使用一个预训练的超网络(supernet, supernetwork),从而大大降低盘(pan)算成本。这个网络能够在搜索空间中估量神经结构的准确性,而不需要重新最先训练。然而,由于操作之间的协同顺应,性能估量可能异常禁绝确,若是是禁绝确的{de}展望会影响它的搜索历程,并导致很难找到合适的模子架构。

伍斯特理工 gong[学院和Facebook AI Research最近推出了一个全新的模子few-shot NAS,这个方式「shi」平衡了Vanilla NAS 和 one-shot NAS的时间消耗的盘算损失,研究效果解释,从卷积神经网络到天生匹敌性网络,它都能够有“you”用 yong[地设计sota模子。

与one-shot NAS 相比,few-shot NAS 提高了系统结构评估的准确性,评估成本增添不大(da)。大量的实验解释,少镜头 NAS 能够显着地改善种种单镜头方式,包罗 NasBench-201和 NasBench1-shot-1中的4种基于梯度的方式和6种基于搜索的方式

文章已被ICML 2021录取为long oral。

这篇论文的第一作者是赵一阳,伍“wu”斯特理工学院(WPI)的一名博士生,导师是郭甜教授。他的本科是西安电子科技大学的电子与信息工程专业,并在美国东北大学获得盘算机工程的硕士学位。主要研究兴趣是在一样平常生涯和人工智能(AI)领域之间构建应用,通过使用自念头器学习(Auto-ML)使【shi】 AI (深度学习)模子的构建更容易,同时也对机械学习和高性能盘算的应用感兴趣。

few-shot NAS 通过将搜索空间划分为差其余自力区域,然后使用多个(ge)子超网(sub-supernets)笼罩这些区域,从而提高「gao」了模子性能。

为了合理地划分搜索空间,研究职员选择行使原始超网“wang”的结构,划分挑选每个边缘毗邻来选『xuan』择一种方式来划分搜索空间,这种方式与超网的组织方式相一致。

在【zai】设计 few-shot NAS时,研究职员主要面(mian)向这三个问题提出解决方案:

1、若何将one-shot 模子示意的搜索空间划分为子超网,以及在给定搜索时间预{yu}算的情形下若何选择子超网的数目?

如下表所示《shi》,增添划分复合边(split compound edge)的数目会导致更高的秩相关性。给定相同数目的复合边举行划分,选择哪条复合‘he’边举行支解对低尺度误差所示意的秩相关性的影响可以忽略不计。因此,研究职员随机选摘要支解的复合边,并关注要支解若干复合边。

在这项事情中,预先界说了一个训练时间预算T。若是超网和所有当前训练的子超网的训练总时间跨越T,将住手划分以阻止训练更多的子超网。一样平常来说,T是一次超网训练时间的两倍。

usdt支付接口

菜宝钱包(www.caibao.it)是使用TRC-20协议的Usdt第三方支付平台,Usdt收款平台、Usdt自动充提平台、usdt跑分平台。免费提供入金通道、Usdt钱包支付接口、Usdt自动充值接口、Usdt无需实名寄售回收。菜宝Usdt钱包一键生成Usdt钱包、一键调用API接口、一键无实名出售Usdt。

2、若何削减多个子超网的训练时间?

子超网的数目随着划分复合边的数目呈指数增进。直接训练所有发生的子超网在盘算上很难题,而且也失去了one-shot NAS的优势。以是研究职员连系迁徙学习手艺来加速子超网的训练历程。

3、few-shot NAS若何与现有NAS算法集成?

基于梯度的算法需要运行在一个延续的搜索空间,可以从有向无环图(DAG)转换。基于梯度的算法将NAS视为一个团结优化问题,通过训练同时优化权重和架构漫衍参数,也就是说,基于梯《ti》度的算法是为one-shot NAS设计和使用的。

为了将基于梯度的算法用于few-shot NAS,首先训练超网直到收敛。然后根据第一个解决的问题那样将超网拆划分为几个子超网,并使用从父超网传输的权重和架构漫衍参数初始化这些子超网。

接下来训练这些子超网收敛并选择子超网 ′ 所有子超网的验证损失最低《di》。最后选择了最好的架构漫衍参数。

对于基于搜索的【de】算法,需要一个候选结构的值函数来指导搜索。值函数可以是不能微的,通常由单次或单次函数提供。对于【yu】vanilla NAS,不必严酷地训练这些模子架构来收【shou】敛,可以使用提前住手的方式来获得中央效果。基于搜索的算法从几个初始的模子架构最先,基于前一个采样的系统结构和搜索算法在搜索空间中对下一个系统结构举行采样,直到找到一个性能知足的系统结构。

为了研究使用多个超级网络是否能够同时行使 one-shot NAS 和Vanilla NAS 的优势,他们设计了一个包罗近1296个网络的搜索空间。

首先,他们对网络举行训练,凭证 CIFAR10数据集上的现实准确度对网络举行排名。然后行使6个、36个和216个子超网展望了1296个网络。最后,他们将展望的排名与现实排名举行了对照。效果证实,纵然只增添几个「ge」子超网,排名也『ye』有显著〖zhu〗提高。

而且他们在真实天下的义务上测试了他们的想法,发现与one-shot NAS 相比,few-shot NAS 提高了模子架构评估的准确性。

在 ImageNet 上,few-shot NAS 发现模子在600 MFLOPS 上到达近80.5% 的 top-1准确率,在238 MFLOPS 下到达77.5% 的 top-1准确率。

在 AutoGAN 中,few-shot NAS 的性能比以前的效果凌驾快要20% ,而在 CIFAR10中,它在不使用任何分外数据或传输学习的情形下到达了98.72% 的 top-1准确率。

实验解释,few-shot NAS 可以显着地改善种种one-shot 方式,例如 NasBench-201和 NasBench1-shot-1中的四种基于梯度的方式和六种基于搜索的方式。

而且 few-shot NAS 相比one-shot NAS 能够极其有用地改善排名展望。此外,它还可以普遍适用于所有现有的 NAS 方式。当团队将这些场景作为详细 xi[的例子「zi」来展示时,他们开发的手艺可以有普遍的应用,例如,当候选架构需要快速评估以寻找更好的架构时。

few-shot NAS 有助于设计准确和快速的模子。应用这种few-shot的方式可以提高使用超网络(如 AttentiveNAS 和 AlphaNet)的种种神经结构搜索算法的搜索效率。Facebook的研究团队希望他们的方式可以用在更普遍的场景中。

论文的通讯作者是导师郭甜,她是伍斯特理工学院盘算机科学系的一名助理教授,也是 Cake Lab 的一名成员!她对设{she}计系统机制和战略感兴趣,以处置新泛起的应用程序在成本、性能和效率方面的平衡。详细来说,我介入过与【yu】云/边缘资源治理、大数据框架、深度学习推理、漫衍式训练、神经架构搜索和 AR/VR 相关的项目。最近的事情主要集中在改善深度学习的系统支持和深度学习在 AR/VR 中的现实应用。

第{di}三作者是田渊栋,是Facebook AI Research (FAIR)的研究科学家和司理,主要研究兴趣是深度强化学习、表征学习和优化。他是 ELF OpenGo 项目的首席科学家和工程师。

参考资料:

发布评论