洱源| 北辰| 瑞昌| 维西| 济南| 温县| 惠东| 顺德| 冠亚娱乐 manbetx 兰考| 3344222 带岭| 佳木斯| 合阳| 冠亚br88 会昌| 洛南| 石河子| dafa888娱乐 仁寿| 饶河| FUN乐天使 高碑店| manbetxapp娱乐 BR88 江城| betway必威 肃宁| 南漳| 石景山| 宁波| 亚洲城兑换积分的网址 ManBetx苹果客户端 鸡东| 银川| 壤塘| bwin88 清水| 道县| 绍兴县| 黄岩| 皮山| 息县| 万博体育3.0 三河| 曲水| manbetx uedbet客户端 三台| 兴隆| 都匀| 蒲县| 麻阳| BR88 旬邑| 冠亚br88 青神| 双牌| 乐天堂fun88 遵化| 亚洲城客户端下载官网 wanbetx登入 本溪市| 五家渠| 闽侯| 黄岩| w88 老河口| 莱阳| 万博app进不去 bwin888 星子| 海晏| 什邡| 冠亚br88 陇县| 宜黄| 普格| 冠亚彩票 manbetx客户端 湾里| 富阳| 临江| 静宁| 大发888bet 亚洲城vip积分登陆 荔浦| 嘉祥| 阜阳| 左权| 灵山| 蒙阴| 繁昌| 肇东| 武穴| 老河口| 抚顺市| 亚洲城vip登录 连江| 兴安| 甘洛| 梁山| 西平| 蚌埠| 珠海| 丰都| 万博赞助奥运会 泰兴| 冠亚娱乐 抚顺县| BR88 友好| 肃宁| 南江| 万博体育图片 诸城| 武胜| 皮山| 大发手游上分 托克逊| 歙县| 冠亚娱乐 汤旺河| 玛多| 和政| 顺平| 新版uedbet 万博体育app 道县| 冠亚娱乐 二道江| 营山| 黄埔| 平川| www.3344666.com 江达| 南岳| 五营| br88冠亚 科尔沁右翼中旗| wanbet论坛 祥云| 狗万滚球App下载 陵水| 万博体育网站 扎赉特旗| 崂山| 贵池| 张家口| 亚洲城游戏 雷州| 北海| 上思| 万博官网 五峰| 井冈山| betway 双流| 封开| 沁水| 海盐| 新邵| 费县| ued体育官网 br88冠亚 青神| 无为| manbetx客户端2.0 闽清| 莎车| 大奖888 且末| 朗县| bet365中国官网 沾化| 韦德1946 怀柔| 隆子| 洪洞| 达日| 襄垣| 莱芜| 韦德1946 吴忠| 万博官网manbetx 冠亚娱乐城 manbetx手机版 酉阳| 茂名| 策勒| 潞西| 枣庄| br88冠亚 阳新| 广德| bwin 永新| 方城| 万博体育 新荣| 亚洲城官方网站 万博体育在线 88bifa 射阳| 乌马河| 茶陵| 万博体育最新 3344222 苍梧| 招远| 阳高| 射阳| 辽阳县| dafa888.com 茶陵| 冠亚娱乐 景县| bwin88官网 manbetx手机版 赫章| 樟树| 必发88手机版 dafa888.casino 南康| manbetx 冕宁| 辉县| 阳谷| 集美| 张北| FUN乐天使 下陆| 寰宇浏览器打不开 清水| 吴桥| 云浮| 德安| 东乡| 开县| 新万博体育登录 万博2.0下载地址 万博manbetx官方 新万博体育 manbetx娱乐 韦德1946官网 碌曲| 万博体育最新 泽普| 卫辉| 南岔| 哈尔滨| 河池| 永清| 优德w88 敖汉旗| 乌达| 静海| 正阳| 罗山| 最新ag客户端下载 龙南| br88 dafa888bet 夏河| manbetx登录 千阳| 延长| 迭部| 金平| 民权| 钦州| 大奖888 成都| fun88 新万博体育登录 崇明| 长岭| 安图| 吴川| dafa888娱乐场官网 巴中| BR88 河间| 新万博manbetx客户端 大发游戏dafabet888 万博官网app体育 BR88 辛集| 祁连| 冠亚彩票娱乐 dafa888bet 万博manbetx体育 bwin888 黄石| 新竹县| 万博app 下载 西和| bfun88 宜阳|

日本人士呼吁为“精日”正名,什么情况?

2019-01-17 13:16 来源:IT168

  日本人士呼吁为“精日”正名,什么情况?

  ca881亚洲城娱乐党魁科尔宾直斥坏协议或无协议的说法是假选项,草案本身亦属巨大失败,违背政府此前承诺,促请梅收回方案。  现年46岁的巴克利是坚定的脱欧派,曾在英国卫生与社会保障部任职。

14日,特朗普在采访中表示,他将会在近日就开除尼尔森一事做出决定,他同时还称,现在正在考虑白宫幕僚长凯利的去留问题。房间内部的空气质量通常比室外要好10倍。

    26日,在赴比利牛斯山区参加活动时,马克龙对法新社记者表示,关于贝纳拉事件我已经说了我应该说的,我认为这是一起水杯里的风暴。  洛特-加龙省农业工会主席塞尔日布斯凯-卡萨涅称,这批疑似感染病毒的鸭子自12月1日起被隔离,菲尼斯太尔省国家检验所12月3日的检测报告则确认了疫情。

    问:13日,刚果(金)卫生部发表公报,宣布今年5月爆发的埃博拉疫情正式结束。    在部长会议上,围绕削减关税、制定知识产权保护规则等各国意见分歧未谈拢的领域,各方将就能否达成一定水平的协议推进磋商。

纵观2017年的国民消费状况,新加坡人仍未养成使用电子钱包的习惯。

  2008年12月13日,三国首次在10+3框架外举行中日韩领导人会议。

    其中一个名为巨蛋惊喜的视频,记录了赖安从一个迪士尼盒子里拿出超过100件玩具的全过程。然而,这个友好的手势似乎并不能代表加拿大对俄罗斯的态度。

    山重水复疑无路,柳暗花明又一村。

    彭博社报道,莫格已向保守党普通国会议员委员会的主席布拉迪(GrahamBrady)递交信件,要求英国首相特雷莎梅下台。去年我们举办第一届,大家强烈要求我们继续举办下去,所以我们决定在明年4月份举办第二届高峰论坛,欢迎亚太工商界朋友们积极参与。

    英国工党影子内阁办公室部长乔恩·特里克特(JonTricket)对英国媒体表示,“普遍信贷制度已经是一片混乱,任命这样一个有着丑闻历史、被迫辞职时间并不太长的官员,简直是一个执政能力虚弱的首相做出的绝望之举。

  w88.com他是我们去年晚些时候抓获一名预谋恐袭嫌疑人的兄弟。

  阅读更多内容请参见今日出版的《环球时报》或下载登录新版环球TIME客户端。  英国首相卡梅伦日前在首相府举行的春节招待会上盛赞当代中国的崛起和非凡的中国故事。

  韦德1946 BR88 w88top优德官网中文版

  日本人士呼吁为“精日”正名,什么情况?

 
责编:
炼数成金 门户 商业智能 深度学习 查看内容

日本人士呼吁为“精日”正名,什么情况?

狗万体育网站   韩媒纽西斯通讯社盘点说,普京迟到的新闻并不少见。

2018-8-10 13:40| 发布者: 炼数成金_小数| 查看: 33929| 评论: 0|原作者: Raul Puri等|来自: 机器之心

摘要: 近年来,深度学习已经成功应用到多种问题中。迁移学习在计算机视觉问题上的成功运用使得许多应用成为可能:VGG 和 ResNets 等大型 CNN 在 ImageNet 等大型图像数据集上进行预训练 然后在计算机视觉任务中作为骨干 ...

网络 模型 神经网络 分布式 GPU

近日,英伟达发表了一篇大规模语言建模的论文,他们使用 128 块 GPU 在 4 小时内使得 mLSTM 可以收敛,值得注意的是,他们使用的 Amazon Reviews 数据集包含 40GB 的文本,这在以前通常需要花费数周的时间进行训练。这样的大规模语言模型能作为一种预训练模型迁移大量的语言知识,也就是说如果将其应用到机器翻译、机器阅读理解和情感分析等 NLP 任务,数据需求量和计算量都能得到大幅度的降低。

近年来,深度学习已经成功应用到多种问题中。迁移学习在计算机视觉问题上的成功运用使得许多应用成为可能:VGG[6] 和 ResNets [7] 等大型 CNN 在 ImageNet 等大型图像数据集上进行预训练 [8,9] 然后在计算机视觉任务中作为骨干网络架构。这些模型可以为新任务提取有用的特征,而无需在执行每个任务时都从头开始训练 [2], [10]–[12]。

最近的研究已经从无监督语言建模中得出了很有潜力的结果,随后人们将迁移学习应用到自然语言任务 [3], [13]。然而,与卷积图像模型不同,神经语言模型还没有从大规模和迁移学习中受益。神经语言模型往往通过在大型语料库上使用词嵌入预训练来实现大规模迁移学习 [14]– [16]。仅迁移词嵌入会限制迁移的范围,因为词嵌入不会捕获文本中的序列信息。英伟达的研究者想要迁移的是具备处理文本序列能力的整个 NLP 模型。

然而,由于在大型数据集上训练大型语言模型非常耗时,因此上述情况下的迁移学习非常困难。最近发表的几篇论文试图发挥分布式深度学习及可用高性能计算(HPC)资源的内存和计算能力的优势,通过利用分布式数据并行并在训练期间增加有效批尺寸来解决训练耗时的问题 [1],[17]– [20]。这一研究往往聚焦于计算机视觉,很少涉及自然语言任务,更不用说基于 RNN 的语言模型了。由于基于 RNN 的语言模型具有序列性,这些模型在数值上很难训练,且并行性差。有证据表明,用于语言建模、语音识别和神经机器翻译的 RNN 在大型数据集上训练时,准确率还有提升的空间 [21]。相应的,高效训练大型 RNN 模型的技术将在许多神经语言任务中带来准确率的提升。

研究人员专注于在亚马逊评论数据集上训练一个单层 4096 神经元乘法 LSTM(multiplicative LSTM,mLSTM)字符级语言模型,这个数据集是目前开源的较大自然语言处理数据集之一,他们将该模型迁移到 Binary Stanford Sentiment Treebank (SST) 和 IMDB 电影评论数据集的情感分类的下游任务中。然后用混合精度 FP16/FP32 算术运算来训练循环模型,它在单个 V100 上的训练速度比 FP32 快了 4.2 倍。

接着研究人员通过 128GPU 的分布式数据并行,使用 32k 的批大小训练了混合精度模型。这比起使用单个 GPU,训练的数据量增加了 109 倍。然而,由于批大小变大,需要额外的 epoch 来将模型训练至相同准确率,最终总训练时长为 4 小时。

此外,他们还训练了一个有 8192 个神经元的 mLSTM,它在亚马逊评论语言模型中的表现超越了当前最优模型,取得了每字符位数(BPC)为 1.038,SST 分类准确率为 93.8% 的性能。

研究人员分析了分布式数据并行是如何随着模型增大而扩展的。在使用分布式数据并行训练 RNN 时,他们观察到一些训练时批量过大会出现的常见问题。他们研究数据集大小、批大小和学习率方案之间的关系,以探索如何有效地利用大批量来训练更为常见的大型自然语言处理(NLP)数据集。

在这篇论文中,作者们表示这项工作为商业应用以及深度学习研究提供了大规模无监督 NLP 训练的基础。作者在 GitHub 项目中展示了实现无监督情感分析的实验,其中大规模语言模型可以作为情感分析的预训练模型。

项目地址:https://github.com/NVIDIA/sentiment-discovery

论文:Large Scale Language Modeling: Converging on 40GB of Text in Four Hours 

论文地址:https://arxiv.org/pdf/1808.01371v1.pdf

摘要:近期有许多研究关注如何在大型数据集上快速训练卷积神经网络,然后将这些模型学习到的知识迁移到多种任务上。跟随 [Radford 2017] 研究的方向,在这项研究中,我们展示了循环神经网络在自然语言任务上相似的可扩展性和迁移能力。通过使用混合精度算术运算,我们在 128 块英伟达 Tesla V100 GPU 使用 32k 的批大小进行分布式训练,因此可以在 40GB 的亚马逊评论(Amazon Reviews)数据集上针对无监督文本重建任务训练一个字符级 4096 维乘法 LSTM(multiplicative LSTM, mLSTM),并在 4 个小时完成 3 个 epoch 的训练。这个运行时相比于之前在相同数据集、相同大小和配置上花费一个月训练一个 epoch 的工作很有优势。大批量 RNN 模型的收敛一般非常有挑战性。近期的研究提出将学习率作为批大小的函数进行缩放,但我们发现在这个问题中仅将学习率作为批大小的函数缩放会导致更差的收敛行为或立刻发散。我们提供了一个学习率方案,允许我们的模型能在 32k 的批大小下收敛。由于我们的模型可以在数小时内在亚马逊数据集上收敛,并且尽管我们的计算需求是 128 块 Tesla V100 GPU,这个硬件规模很大,但在商业上是可行的,这项工作打开了在大多数商业应用以及深度学习研究中实现大规模无监督 NLP 训练的大门。一个模型可以一夜之间就在大多数公开或私人文本数据集训练好。

3. 大批量训练
鉴于亚马逊语料库的规模,预训练大型当前最优神经语言模型是一个非常耗时的过程。在单个 GPU 上运行这么大的工作负载不切实际,因为当前最优模型一般会比较大,且每个 GPU 能够承担的训练批量大小有限。为了保证有效的训练和迁移大型语言模型,我们使用多 GPU 并行化训练。我们专注于多 GPU 数据并行化,这意味着我们在训练过程中将批次分割并分配给多个 GPU。我们没有使用模型并行化(这种方法把神经网络分割成多个处理器),因为该方法灵活性较差,且对软件限制较多,不过它仍然是进一步并行化的有趣选择。

我们使用同步数据并行化,其中大批量数据被均匀分布给所有参与其中的工作进程,工作进程处理前向和反向传播、相互通信产生的梯度,以及在获取新的数据批量之前更新模型。鉴于模型大小和通信延迟,数据并行化通过可用 GPU 的数量与批量大小的线性扩展来实现近似线性加速。

为保证任意语言模型的大批量预训练,明确分析使用基于 RNN 的语言模型进行大批量预训练的效果非常重要。循环神经网络的连续性使得训练过程很难优化,因为 RNN 计算过程中存在鞍点、局部极小值和数值不稳定性 [35]–[37]。这些复杂性使得使用 RNN 进行大批量训练的分析非常有必要。

为了保证 RNN 语言模型的大批量训练,我们探索了线性缩放规则和 Hoffer 等人 [40] 提出的平方根缩放规则  的影响。

4. 混合精度训练
FP16 不仅能减少通信成本,还对直接加速处理器上的训练起到关键作用,如支持较高吞吐量混合精度运算的 V100。V100 的单精度浮点运算性能可达 15.6 TFlops,而混合精度运算(FP16 存储和相乘,FP32 累加)的浮点运算性能达到 125 TFlops。

5. 实验

图 2:a 为混合精度(MP)和单精度(SP)的训练曲线,b 为单精度和混合精度的测试集评估对比,其中评估指标为亚马逊 BPC 和 Radford 等人实现的二元情感分类准确率基线集。

图 3: a) 亚马逊评论数据集一次 epoch 的训练时间与 GPU 数量具有线性关系。b) 有(无)无限带宽的分布式数据并行训练的平均每个迭代次数和相对加速度。

图 4:在特定维度和批大小的亚马逊评论数据集上,训练 mLSTM 模型完成一个 epoch 的训练过程。虚线表示经过一个 epoch 的训练后的评估 BPC,以及由 Gray 等人 [34] 得到的当前较佳评估结果(SoTA)。

图 5:在多种初始学习率下使用 1 epoch 内衰减到零的学习率方案的评估结果。某些初始学习率按照基于 128 批大小的 5e-4 衰减率的线性或平方根缩放规则进行缩放。Div 表示训练出现发散。

声明:文章收集于网络,如有侵权,请联系小编及时处理,谢谢!

欢迎加入本站公开兴趣群
商业智能与数据分析群
兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754

相关阅读

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2019-01-17 15:59 , Processed in 0.150750 second(s), 24 queries .