王串场容彩里栋| 乌奎高速| 下港乡| 王府街道| 望台镇| 汪清| 五家曾| 五指峰林场| 五尧乡| 西堡乡| 五里河街道| 西兰乡| 吴畔| 卫东| 西斋堂| 西四北三条旧称报子胡同| 西溪坪街道| 霞光道翠湖里| 望楚村| 瓦甸| 西窖| 五营| 温泉圩| 西屯街道| 西厅胡同| 西江乡| 乌坭坑| 亡头窝| 下都村| 西郊中心学校| 梧埏街道| 文萃路| 五里渡村| 王史山村| 溪心村| 巫溪| 望京利泽西园二区居委会| 王集乡| 西南交大| 土溪镇| 五显镇| 湾塘乡| 西南社区| 王庄村村委会| 西山瑶族乡| 五环路| 西海| 西涝山| 王串场一路永明里| 希插村| 洼底乡| 温波| 伍涛| 西街鑫泰小区| 外碧| 西石塘路| 王庄子大街喜德里| 西餐厅| 西辛力屯村| 魏家桥镇| 五十里铺| 西北橡胶研究所| 瓦沙| 托普软件园| 王府庄| 万辛庄四马路| 魏公村南区社区| 乌龙桥| 西海| 五里店村| 五马路| 五社| 卧凤沟乡| 务川仡佬族苗族自治县| 西城岚湾| 乌拉泊| 魏家台乡| 汪场镇| 霞光道天桥| 西山庙| 西客站| 五股乡| 魏公村路东口| 团溪镇| 西门里街道| 西大庄| 乌海市乌达区| 王沟村| 西市场| 乌龙| 万盛中央一品| 西四镇| 文峰南路| 西上庄街道| 翁墩乡| 碗窑乡| 五连点| 图瓦卢| 温州| 西孙孟| 望龙镇| 吴淞煤气厂| 瓦子峪镇| 吴川市| 西大圐圙村| 王家埭| 吴家窑乡| 西罗圈胡同| 望燕名居| 武夷山镇| 西庄店| 汪岗乡| 卫工街道| 文山街道| 五老胡同| 西红门地区| 西区| 西瓦窑文康德脑病医院| 王昆| 王家村委会| 闻韶街道| 文昌胡同| 魏家峁乡| 汶上县| 文家坡乡| 闻喜市| 文井镇| 卫东区| 万集镇| 湾弄| 夏河| 沱江里| 西义堂村| 西苑医院社区| 西新街道| 西安道| 五堡四区| 万源市| 溪洛米乡| 无棣县| 万寿塔| 五字湾| 王史山村| 西山角| 五家站镇| 屯军营村| 西坝村| 旺清门镇| 西牛峪村| 文理学院| 瓦房镇| 午城镇| 西黄垡村| 王家荆阳| 乌江路| 溪口| 望高| 稳坪镇| 西八家户| 西万年| 万丰镇| 乌管处| 乌什镇| 西坑林场场屋山工区| 王城寺| 王尹乡| 五爱家园| 无锡新加坡工业园| 西子岸村委会| 望狐乡| 五宝镇| 温泉路口| 卧力图| 勿布林苏木| 乌兰区| 梧桐乡| 五牌村委会| 西便门| 雾溪畲族乡| 西长安街| 溪口镇| 西大坨| 五垒岛湾| 温泉之乡| 位庄乡| 尉犁县| 万幸庄| 西唐新村| 洗脑壳| 五四乡| 未来城| 西阎村委会| 西丰县| 文新路西| 万寿寺街| 西红门二村| 文升乡| 下都| 乌海市| 土兴乡| 五家寮| 外语学院| 西安福胡同| 望峰林场| 西陈各庄村| 围墙巷| 溪河镇| 万有农厂| 梧桐社区| 下河坝街| 西安联合学院| 万源街西口| 武穴街道| 虾公塘| 卫国道翠郁里| 淅川| 西张堂村委会| 温泉风景区| 西马坊| 托林镇| 武川县| 乌海市海勃湾区| 西湖大道| 瓦岗| 王家岗乡| 尉庄乡| 文家坡乡| 五间厅| 吴家湾| 五峰农场| 五马路| 五建| 温迪路口| 五大连池镇| 乌鲁木齐东路街道| 西台上村| 西夏亭镇| 西留村乡| 席里| 乌兰察布| 五定门| 王石镇| 息冢乡| 西坑林场暗径工区| 西大新区| 五斗斋| 王村村| 习水县| 乌云山| 王三里村委会| 万春镇| 西府营村| 五和南路| 万荣县| 西江乡| 位无大小在于勤| 万荣县| 武水镇| 万通大厦| 西湖镇| 王五沟| 吾宗村| 王店乡| 武泰闸| 下陈街道| 伍各庄| 西美村| 王峪沟| 五里乡| 习家店镇| 王八脖子| 魏公村南区社区| 浯潭| 吴窑| 百度

腾讯视频qlv格式转换成mp4图文教程(附一键转换工具)

2018-08-15 05:33 来源:中原网

  腾讯视频qlv格式转换成mp4图文教程(附一键转换工具)

  百度然而,关于烈士关押、牺牲地的表述中,有的文章说是在枫林桥,有的则介绍在龙华。大兴大建的背后,隐藏着诸多问题。

与之前曝光的纽约热恋照不同的是,这组北京故事照讲述男女主角在花样般的年纪相遇,开启如梦似幻的少年之恋,在北京相恋,在纽约相守。  信息互联难解“同床异梦”  《通知》要求各地推动城市出租汽车服务管理信息系统与手机软件召车服务系统实现信息共享和互联互通,逐步实现各类出租汽车电召需求信息通过统一的城市出租汽车服务管理信息平台运转、全过程记录和播报。

    财务经理  岗位职责:  1、负责财务部日常工作,包括日常会计核算、预算、财务指标设定及监控,审核和编制各项对内对外财务报表。对于剧中密集上演的重口味“推倒”桥段,片方曾坦言就是以此为噱头和看点。

    机上人员包括驾驶员郑某和朴某、维修人员安某、搜救人员申某和李某。  动力方面,国产凯迪拉克ATSL搭载了涡轮增压引擎,推出了低功率和高功率两个版本,低功率车型最大输出为164KW(223ps),而高功率车型最大输出达到了200KW。

图为1990年开设在中山西路上的上海华亭副食品交易市场一景。

    由于射程为5500千米,这种导弹能够覆盖中国任何地方的目标,对印度的核威慑战略具有极其重要的意义。

  ”站在重症监护室的门外,袁伟的爱人一度不想进门,几次差点流下泪来,“这下可怎么办?医药费怎么办?”  她带来了家里仅有的1000元,但这对肌腱已经被切断的丈夫来说是杯水车薪。  对俄罗斯和美国的洲际弹道导弹来说也同样如此,少量导弹的有限打击将不再能够保证真正的成功。

    哥特里戈夫带着妻子和4个孩子隐身丛林中生活,他们在偏远地区建立帐篷和营地,自己建造小木屋,里面没有电。

  深圳的职业足球,坎坷20年,如果没有完善的产业链和现金流支撑,悲剧还会继续发生。中心亦已即时暂停该品牌上述三款产品进口,并发出快速警报知会业界有关事件。

  当时,她们的事迹曾感动了无数的上海市民。

  百度大约五点多的样子,奶奶窸窸窣窣起床,朦胧中我一个激灵醒过来。

  ”当记者以组织公务活动为由咨询时,该山庄一名经理称,度假山庄并未受到“八项规定”和最近严查培训中心奢靡腐败现象的影响。“去年冬天我第一次见到她,非常冷,我看她的手都长了冻疮了。

  百度 百度 百度

  腾讯视频qlv格式转换成mp4图文教程(附一键转换工具)

 
责编:
炼数成金 门户 商业智能 深度学习 查看内容

腾讯视频qlv格式转换成mp4图文教程(附一键转换工具)

百度 随后有消息称该飞机是被击落的。

2018-2-7 11:19| 发布者: 炼数成金_小数| 查看: 37691| 评论: 0|原作者: Julius|来自: 机器学习炼丹记

摘要: BN 独立地规范化每一个输入维度 x_i ,但规范化的参数是一个 mini-batch 的一阶统计量和二阶统计量。这就要求 每一个 mini-batch 的统计量是整体统计量的近似估计,或者说每一个 mini-batch 彼此之间,以及和整体数 ...

网络 工具 模型 神经网络 框架 权重

“ 深度神经网络模型训练之难众所周知,其中一个重要的现象就是 Internal Covariate Shift. Batch Normalization 大法自 2015 年由Google 提出之后,就成为深度学习必备之神器。自 BN 之后, Layer Norm / Weight Norm / Cosine Norm 等也横空出世。本文从 Normalization 的背景讲起,用一个公式概括 Normalization 的基本思想与通用框架,将各大主流方法一一对号入座进行深入的对比分析,并从参数和数据的伸缩不变性的角度探讨 Normalization 有效的深层原因。”

本文是该系列的第二篇。

03、主流 Normalization 方法梳理
在上一节中,我们提炼了 Normalization 的通用公式:
对照于这一公式,我们来梳理主流的四种规范化方法。

3.1  Batch Normalization —— 纵向规范化



Batch Normalization 于2015年由 Google 提出,开 Normalization 之先河。其规范化针对单个神经元进行,利用网络训练时一个 mini-batch 的数据来计算该神经元 x_i 的均值和方差,因而称为 Batch Normalization。
其中 M 是 mini-batch 的大小。

按上图所示,相对于一层神经元的水平排列,BN 可以看做一种纵向的规范化。由于 BN 是针对单个维度定义的,因此标准公式中的计算均为 element-wise 的。

BN 独立地规范化每一个输入维度 x_i ,但规范化的参数是一个 mini-batch 的一阶统计量和二阶统计量。这就要求 每一个 mini-batch 的统计量是整体统计量的近似估计,或者说每一个 mini-batch 彼此之间,以及和整体数据,都应该是近似同分布的。分布差距较小的 mini-batch 可以看做是为规范化操作和模型训练引入了噪声,可以增加模型的鲁棒性;但如果每个 mini-batch的原始分布差别很大,那么不同 mini-batch 的数据将会进行不一样的数据变换,这就增加了模型训练的难度。

因此,BN 比较适用的场景是:每个 mini-batch 比较大,数据分布比较接近。在进行训练之前,要做好充分的 shuffle. 否则效果会差很多。

另外,由于 BN 需要在运行过程中统计每个 mini-batch 的一阶统计量和二阶统计量,因此不适用于 动态的网络结构 和 RNN 网络。不过,也有研究者专门提出了适用于 RNN 的 BN 使用方法,这里先不展开了。

3.2 Layer Normalization —— 横向规范化


层规范化就是针对 BN 的上述不足而提出的。与 BN 不同,LN 是一种横向的规范化,如图所示。它综合考虑一层所有维度的输入,计算该层的平均输入值和输入方差,然后用同一个规范化操作来转换各个维度的输入。
其中 i 枚举了该层所有的输入神经元。对应到标准公式中,四大参数 μ, σ , b, g均为标量(BN中是向量),所有输入共享一个规范化变换。

LN 针对单个训练样本进行,不依赖于其他数据,因此可以避免 BN 中受 mini-batch 数据分布影响的问题,可以用于 小mini-batch场景、动态网络场景和 RNN,特别是自然语言处理领域。此外,LN 不需要保存 mini-batch 的均值和方差,节省了额外的存储空间。

但是,BN 的转换是针对单个神经元可训练的——不同神经元的输入经过再平移和再缩放后分布在不同的区间,而 LN 对于一整层的神经元训练得到同一个转换——所有的输入都在同一个区间范围内。如果不同输入特征不属于相似的类别(比如颜色和大小),那么 LN 的处理可能会降低模型的表达能力。

3.3 Weight Normalization —— 参数规范化

前面我们讲的模型框架
中,经过规范化之后的 y 作为输入送到下一个神经元,应用以 w 为参数的f_w() 函数定义的变换。最普遍的变换是线性变换,即 


BN 和 LN 均将规范化应用于输入的特征数据 x ,而 WN 则另辟蹊径,将规范化应用于线性变换函数的权重 w ,这就是 WN 名称的来源。

具体而言,WN 提出的方案是,将权重向量 w 分解为向量方向 v 和向量模 g 两部分:

其中 v 是与 g 同维度的向量, ||v||是欧式范数,因此 v / ||v|| 是单位向量,决定了 w 的方向;g 是标量,决定了 w 的长度。由于 ||w|| = |g| ,因此这一权重分解的方式将权重向量的欧氏范数进行了固定,从而实现了正则化的效果。

乍一看,这一方法似乎脱离了我们前文所讲的通用框架?

并没有。其实从最终实现的效果来看,异曲同工。我们来推导一下看。 
对照一下前述框架:
我们只需令:

就完美地对号入座了!

回忆一下,BN 和 LN 是用输入的特征数据的方差对输入数据进行 scale,而 WN 则是用 神经元的权重的欧氏范式对输入数据进行 scale。虽然在原始方法中分别进行的是特征数据规范化和参数的规范化,但本质上都实现了对数据的规范化,只是用于 scale 的参数来源不同。

另外,我们看到这里的规范化只是对数据进行了 scale,而没有进行 shift,因为我们简单地令 μ = 0. 但事实上,这里留下了与 BN 或者 LN 相结合的余地——那就是利用 BN 或者 LN 的方法来计算输入数据的均值 μ。

WN 的规范化不直接使用输入数据的统计量,因此避免了 BN 过于依赖 mini-batch 的不足,以及 LN 每层转换器的限制,同时也可以用于动态网络结构。

3.4 Cosine Normalization —— 余弦规范化
Normalization 还能怎么做?

我们再来看看神经元的经典变换 

对输入数据 x 的变换已经做过了,横着来是 LN,纵着来是 BN。

对模型参数 w 的变换也已经做过了,就是 WN。

好像没啥可做的了。

然而天才的研究员们盯上了中间的那个点,对,就是 ·

他们说,我们要对数据进行规范化的原因,是数据经过神经网络的计算之后可能会变得很大,导致数据分布的方差爆炸,而这一问题的根源就是我们的计算方式——点积,权重向量 w 和 特征数据向量 x 的点积。向量点积是无界(unbounded)的啊!

那怎么办呢?我们知道向量点积是衡量两个向量相似度的方法之一。哪还有没有其他的相似度衡量方法呢?有啊,很多啊!夹角余弦就是其中之一啊!而且关键的是,夹角余弦是有确定界的啊,[-1, 1] 的取值范围,多么的美好!仿佛看到了新的世界!

于是,Cosine Normalization 就出世了。他们不处理权重向量 w ,也不处理特征数据向量 x ,就改了一下线性变换的函数:

其中 θ 是 w 和 x 的夹角。然后就没有然后了,所有的数据就都是 [-1, 1] 区间范围之内的了!

不过,回过头来看,CN 与 WN 还是很相似的。我们看到上式中,分子还是 w 和 x 的内积,而分母则可以看做用 w 和 x 二者的模之积进行规范化。对比一下 WN 的公式:

一定程度上可以理解为,WN 用 权重的模 ||v|| 对输入向量进行 scale,而 CN 在此基础上用输入向量的模 ||x|| 对输入向量进行了进一步的 scale.

CN 通过用余弦计算代替内积计算实现了规范化,但成也萧何败萧何。原始的内积计算,其几何意义是 输入向量在权重向量上的投影,既包含 二者的夹角信息,也包含 两个向量的scale信息。去掉scale信息,可能导致表达能力的下降,因此也引起了一些争议和讨论。具体效果如何,可能需要在特定的场景下深入实验。

现在,BN, LN, WN 和 CN 之间的来龙去脉是不是清楚多了?

04、Normalization 为什么会有效
我们以下面这个简化的神经网络为例来分析。


4.1 Normalization 的权重伸缩不变性
权重伸缩不变性(weight scale invariance)指的是,当权重 W 按照常量 λ 进行伸缩时,得到的规范化后的值保持不变,即:

其中 W' = λW 。

上述规范化方法均有这一性质,这是因为,当权重  W 伸缩时,对应的均值和标准差均等比例伸缩,分子分母相抵。

权重伸缩不变性可以有效地提高反向传播的效率。由于

因此,权重的伸缩变化不会影响反向梯度的 Jacobian 矩阵,因此也就对反向传播没有影响,避免了反向传播时因为权重过大或过小导致的梯度消失或梯度爆炸问题,从而加速了神经网络的训练。

权重伸缩不变性还具有参数正则化的效果,可以使用更高的学习率。由于

因此,下层的权重值越大,其梯度就越小。这样,参数的变化就越稳定,相当于实现了参数正则化的效果,避免参数的大幅震荡,提高网络的泛化性能。进而可以使用更高的学习率,提高学习速度。

4.2 Normalization 的数据伸缩不变性
数据伸缩不变性(data scale invariance)指的是,当数据 x 按照常量 λ 进行伸缩时,得到的规范化后的值保持不变,即:

其中 x' = λx 。

数据伸缩不变性仅对 BN、LN 和 CN 成立。因为这三者对输入数据进行规范化,因此当数据进行常量伸缩时,其均值和方差都会相应变化,分子分母互相抵消。而 WN 不具有这一性质。

数据伸缩不变性可以有效地减少梯度弥散,简化对学习率的选择。

对于某一层神经元而言,展开可得
每一层神经元的输出依赖于底下各层的计算结果。如果没有正则化,当下层输入发生伸缩变化时,经过层层传递,可能会导致数据发生剧烈的膨胀或者弥散,从而也导致了反向计算时的梯度爆炸或梯度弥散。

加入 Normalization 之后,不论底层的数据如何变化,对于某一层神经元 而言,其输入 x_l 永远保持标准的分布,这就使得高层的训练更加简单。从梯度的计算公式来看:
数据的伸缩变化也不会影响到对该层的权重参数更新,使得训练过程更加鲁棒,简化了对学习率的选择。

参考文献
[1] Sergey Ioffe and Christian Szegedy. Accelerating Deep Network Training by Reducing Internal Covariate Shift.(https://arxiv.org/abs/1502.03167 )

[2] Jimmy L. Ba, Jamie R. Kiros, Geoffrey E. Hinton. [1607.06450] Layer Normalization.(https://arxiv.org/abs/1607.06450 )

[3] Tim Salimans, Diederik P. Kingma. A Simple Reparameterization to Accelerate Training of Deep Neural Networks.(https://arxiv.org/abs/1602.07868 )

[4] Chunjie Luo, Jianfeng Zhan, Lei Wang, Qiang Yang. Using Cosine Similarity Instead of Dot Product in Neural Networks.(https://arxiv.org/abs/1702.05870 )

[5] Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning.(http://www.deeplearningbook.org.maroc-canada.com/ )

欢迎加入本站公开兴趣群
商业智能与数据分析群
兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2018-8-9 07:04 , Processed in 0.183787 second(s), 23 queries .

百度