神经网络参数初始化的方法和装置与流程

文档序号：20150207发布日期：2020-03-24 19:59阅读：278来源：国知局

导航： X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术

本申请涉及人工智能领域，并且更具体地，涉及一种神经网络参数初始化的方法和装置。

背景技术：

神经网络的研究分化为两个方向。其中，一个研究方向专注于生物信息处理的过程，称为生物神经网络；另一个研究方向专注于工程应用，称为人工神经网络。直到2006年深度网络(deepnetwork)和深度学习(deeplearning)概念的提出，神经网络又开始焕发一轮新的生命。

深度神经网络(deepneuralnetworks，dnn)是指深度神经网算法，是近几年在工业界和学术界新型的一个机器学习领域的流行话题。dnn算法成功的将以往人工神经网络的识别率提高了一个显著的档次。

目前深度神经网络作为机器学习的热点之一，可以学习训练数据高层次的抽象特征义特征。近年来深度神经网络已经在图像处理、语音识别、文本分类等方面得到了很好的验证和应用。具体地，神经网络起源于上世纪40年代，神经网络可以实现一些逻辑运算的功能。

在利用反向传播算法对深度神经网络进行的训练的过程中，由于深度神经网络的网络层数众多，极易出现梯度消失或者梯度爆炸。因此，神经网络参数的初始化显得至关重要，好的神经网络参数初始化的方法，有利于提升神经网络参数初始化的性能和训练神经网络的收敛速度。

现有技术中的，在深度神经网络参数初始化时采用随机化方法以及迁移学习的方法，导致训练深度神经网络时收敛速度慢以及深度神经网络参数初始化的性能差。因此，如何提高训练神经网络的收敛速度和神经网络参数初始化的性能成为亟待解决的问题。

技术实现要素：

本申请提供一种神经网络参数初始化的方法和装置，能够提高训练神经网络的收敛速度和神经网络参数初始化的性能。

第一方面，提供了一种神经网络参数初始化的方法，包括：为所述神经网络的每一局部网络分别确定与之对应的特征训练集，其中，所述神经网络包括多个局部网络，所述多个局部网络中的每个局部网络覆盖所述神经网络的一部分；对每一局部网络分别使用与之对应的特征训练集训练以得到该局部网络的参数；确定所述神经网络的初始化参数，其中，所述神经网络的初始化参数包括：所述多个局部网络的参数的全部或部分。

根据本申请实施例提供的神经网络参数初始化的方法，通过为多个局部网络确定多个特征训练集，基于局部网络对应的特征训练集分别训练多个局部网络，并将训练完成的局部网络中的参数的全部或部分参数作为所述神经网络的初始化参数。由于，上述的多个局部网络中的每个局部网络覆盖所述神经网络的一部分，相当于对神经网络的多个部分分别进行参数初始化，能够提高训练神经网络的收敛速度和神经网络参数初始化的性能。

应理解，上述将训练完成的多个局部网络的参数作为神经网络的初始化参数为：多个局部网络中每个局部网络覆盖神经网络的一部分，在该局部网络训练完成后，该局部网络的参数作为对应的覆盖部分的神经网络的参数。

其中，每个局部网络覆盖神经网络的一部分指的是该局部网络为神经网络中的一部分。

结合第一方面，在第一方面的某些实现方式中，所述确定所述神经网络的初始化参数包括：所述神经网络的第一部分的初始化参数为第一局部网络集合中，最后一个训练完成的局部网络的参数的全部或部分，所述第一局部网络集合包括一个或多个训练完成的局部网络，所述一个或多个训练完成的局部网络覆盖所述神经网络的第一部分。

根据本申请实施例提供的神经网络参数初始化的方法，在神经网络的第一部分被多个局部网络覆盖时，在确定该第一部分的初始化参数时，可以将覆盖第一部分的多个局部网络中的最后一个训练完成的局部网络的参数的部分或全部作为第一部分的初始化参数。进而能够将最优的参数作为第一部分的初始化参数，提高神经网络参数初始化的性能。

其中，第一部分被多个局部网络覆盖，可以是第一部分被多个局部网络的部分或全部网络覆盖，当第一部分被局部网络的全部网络覆盖时，第一部分的初始化参数为该局部网络的参数的全部；当第一部分被局部网络的部分网络覆盖时，第一部分的初始化参数为该局部网络的参数的部分，而该局部网络的参数的部分为覆盖第一部分的部分网络对应的参数。

结合第一方面及其上述实现方式，在第一方面的另一种实现方式中，所述为所述神经网络的每一局部网络分别确定与之对应的特征训练集包括：为所述神经网络的每一局部网络分别确定与之对应的训练子集及特征训练集生成网络；基于每一局部网络的特征训练集生成网络以及训练子集生成所述与之对应的特征训练集。

根据本申请实施例提供的神经网络参数初始化的方法，基于训练子集及特征训练集生成网络为所述神经网络的每一局部网络分别确定与之对应的特征训练集。

下面从多个局部网络中的任意一个局部网络出发，详细说明上述的确定特征训练集。

例如，确定第一特征训练集，所述第一特征训练集为用于训练第一局部网络的特征训练集，所述第一局部网络为所述多个局部网络中的任意一个局部网络。首先为第一局部网络分配第一训练子集以及确定用于生成第一局部网络的特征训练集的第一特征训练集生成网络。在根据第一训练子集以及第一特征训练集生成网络确定第一特征训练集。能够准确地确定用于训练局部网络的特征训练集。

结合第一方面及其上述实现方式，在第一方面的另一种实现方式中，所述训练子集包括：预设训练集，或者预设训练集的一部分。

根据本申请实施例提供的神经网络参数初始化的方法，训练子集可以是预设训练集或者预设训练集的一部分。为确定训练子集提供多种方案。

结合第一方面及其上述实现方式，在第一方面的另一种实现方式中，所述局部网络的特征训练集生成网络包括后部网络的全部或部分，其中所述后部网络为所述局部网络与所述神经网络的输入之间的网络。

根据本申请实施例提供的神经网络参数初始化的方法，可以基于局部网络与神经网络的输入之间的后部网络确定特征训练集生成网络。当后部网络的全部或部分网络被训练完成的局部网络覆盖时，局部网络的特征训练集生成网络包括后部网络的全部或部分。

应理解，本申请中当后部网络的全部未被覆盖时，训练子集即为特征训练集。

结合第一方面及其上述实现方式，在第一方面的另一种实现方式中，所述局部网络的特征训练集生成网络的初始化参数包括：覆盖所述局部网络的特征训练集生成网络的至少一个训练完成的局部网络中，最后一个训练完成的局部网络的参数的全部或部分；或者，覆盖所述局部网络的特征训练集生成网络的至少一个训练完成的局部网络的参数的全部或部分经过预设计算得到的参数。

根据本申请实施例提供的神经网络参数初始化的方法，特征训练集生成网络的初始化参数可以是覆盖特征训练集生成网络的至少一个训练完成的局部网络中，最后一个训练完成的局部网络的参数的全部或部分，还可以是盖特征训练集生成网络的至少一个训练完成的局部网络的参数的全部或部分经过预设计算得到的。为确定特征训练集生成网络的初始化参数提供多种灵活方案。

结合第一方面及其上述实现方式，在第一方面的另一种实现方式中，所述局部网络的特征训练集包括：数据和标签，其中，所述数据为所述局部网络的训练子集通过所述局部网络的特征训练集生成网络正向传播，输出的数据，所述标签为所述神经网络的标签。

结合第一方面及其上述实现方式，在第一方面的另一种实现方式中，所述多个局部网络中的每个局部网络覆盖所述神经网络的一部分包括：第一局部网络覆盖所述神经网络的第二部分；第二局部网络覆盖所述神经网络的第三部分；其中，所述第一局部网络和所述第二局部网络为所述多个局部网络中的两个局部网络，且所述第二部分与所述第三部分的部分或全部相同。

根据本申请实施例提供的神经网络参数初始化的方法，上述的多个局部网络在覆盖神经网络的不同的部分时，可能会发生局部网络之间的覆盖。能够提供多种局部网络覆盖神经网络的方式。

结合第一方面及其上述实现方式，在第一方面的另一种实现方式中，所述对每一局部网络分别使用与之对应的特征训练集训练包括：在所述神经网络的正向方向上，按照所述多个局部网络的前后顺序，从后往前依次训练所述多个局部网络。

根据本申请实施例提供的神经网络参数初始化的方法，训练多个局部网络时，可以按照局部网络所位于神经网络的正向方向上的前后顺序，从后往前依次训练。能够保证局部网络之间的连续性，进而提高神经网络参数初始化的性能。

结合第一方面及其上述实现方式，在第一方面的另一种实现方式中，在对每一局部网络分别使用与之对应的特征训练集训练之前，所述方法还包括：为所述多个局部网络中，不包括输出层的局部网络添加辅助输出层，所述辅助输出层用于支持所述局部网络的输出符合预设条件。

根据本申请实施例提供的神经网络参数初始化的方法，在某些局部网络不包括输出层时，可以为这些局部网络添加辅助输出层，使得这些局部网络的输出符合预设条件。能够准确地进行神经网络的参数初始化。

第二方面，提供了一种神经网络参数初始化的装置。该神经网络参数初始化的装置可以用来执行第一方面及第一方面的任意可能的实现方式中的神经网络参数初始化的方法。具体地，神经网络参数初始化的装置包括用于执行上述第一方面所描述的步骤或功能相对应的部件(means)。所述步骤或功能可以通过软件实现，或硬件实现，或者通过硬件和软件结合来实现。

第三方面，提供了一种服务器，服务器的结构中包括处理器。该处理器被配置为支持通信设备执行上述第一方面及第一方面的任意可能的实现方式中的功能，在一个可能的设计中，该服务器还可以包括收发器，用于支服务器接收或发送信息。

在一个可能的设计中，该服务器还可以包括存储器，该存储器用于与处理器耦合，保存通信设备中必要的程序指令和数据。

或者说，该服务器包括存储器和处理器，该存储器用于存储计算机程序，该处理器用于从存储器中调用并运行该计算机程序，使得服务器执行上述第一方面及第一方面的任意可能的实现方式中的任一种神经网络参数初始化的方法。

第四方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序(也可以称为代码，或指令)，当所述计算机程序被运行时，使得计算机执行上述第一方面及第一方面的任意可能的实现方式中的任一种神经网络参数初始化的方法。

第五方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有程序，所述程序使得计算机中的服务器执行上述第一方面及第一方面的任意可能的实现方式中的任一种神经网络参数初始化的方法。

或者说，该计算机可读存储介质用于储存为上述服务器所用的计算机软件指令，其包含用于执行上述第一方面及第一方面的任意可能的实现方式中的任一种神经网络参数初始化的方法所设计的程序。

第六方面，提供了一种芯片系统，该芯片系统包括处理器，用于支持计算机中的服务器实现上述第一方面及第一方面的任意可能的实现方式中所涉及的功能。

本申请实施例的神经网络参数初始化的方法和装置，通过训练覆盖神经网络的多个局部网络，并训练完成的局部网络中的参数的部分或者全部作为神经网络的初始化参数，能够提高训练神经网络的收敛速度和神经网络参数初始化的性能。

附图说明

图1是本申请实施例适用的深度神经网络100示意图。

图2是本申请实施例提供的一种神经网络参数初始化方法的示意图。

图3是申请实施例提供的一种局部网络的示意图。

图4是申请实施例提供的另一种局部网络的示意图。

图5是本申请实施例提供的一种确定特征训练集的示意图。

图6是本申请实施例提供的一种确定特征训练集生成网络的示意图。

图7是本申请实施例提供的一种局部网络位置的示意图。

图8中a是本申请实施例提供的一种生成特征训练集的示意图；b是本申请实施例提供的另一种生成特征训练集的示意图；c是本申请实施例提供的又一种生成特征训练集的示意图。

图9是本申请实施例提供的一种训练局部网络的流程图。

图10是本申请实施例提供的一种具体实施例示意图。

图11是本申请实施例提供的一种包括辅助输出层的局部网络示意图。

图12是本申请实施例提供的另一种包括辅助输出层的局部网络示意图。

图13是本申请实施例提供的一种特征训练集生成网络的示意图。

图14是本申请实施例提供的一种局部网络示意图。

图15是本申请实施例提供的另一种特征训练集生成网络示意图。

图16是本申请实施例提供的一种参数迁移示意图。

图17是本申请实施例提供的另一种具体实施例示意图。

图18是本申请实施例提供的一种包括辅助输出层的局部网络示意图。

图19是本申请实施例提供的一种局部网络参数初始化的示意图。

图20是本申请实施例提供的另一种包括辅助输出层的局部网络示意图。

图21是本申请实施例提供的一种确定特征训练集生成网络的示意图。

图22是本申请实施例提供的一种生成特征训练集的示意图。

图23是本申请实施例提供的一种局部网络参数初始化的示意图。

图24是本申请实施例提供的一种局部网络示意图。

图25是本申请实施例提供的一种确定特征训练集生成网络的示意图。

图26是本申请实施例提供的一种生成特征训练集的示意图。

图27是本申请实施例提供的一种参数迁移示意图。

图28是本申请实施例提供的神经网络参数初始化的装置2800的示意性框图。

图29是本申请实施例提供的服务器2900示意图。

图30是本申请实施例提供的一种神经网络处理器的结构示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

本申请实施例的技术方案可以应用于深度神经网络，例如：图1所示的深度神经网络100。

图1是本申请实施例适用的深度神经网络100示意图。该示意图包括输入层、隐层以及输出层。

深度神经网络，从字面上理解就是深层次的神经网络。深度神经网络包括多个层，如图1所示的最左边的一层称为输入层，位于输入层的神经元称为输入神经元。图1所示的最右边的一层称为输出层，位于输出层的神经元称为输出神经元，图1中示出的输出层只有一个输出神经元。输入层与输出层中间的层称为隐层，位于隐层的神经元既不是输入神经元也不是输出神经元。

应理解，上述输入层、输出层以及隐层仅为了便于区分深度神经网络不同的层，而不应对本申请构成任何限定。在现有技术中称为输入层、输出层以及隐层，在神经网络的技术的后续发展过程中可能会有其他的叫法，本申请对此并不限定。例如，隐层也可以称为隐藏层。

到目前为止，我们所讨论的神经网络都是上一层的输出作为下一层的输入。这样的网络被称为前馈神经网络(feedforwardneuralnetworks)。这意味着在神经网络中没有环状，信息总是往前走的，不会反向。因此，也可以将神经网络从输入层到输出层的方向，称为是神经网络的前向方向。

例如，图1中所示的输入层的输出作为第一个隐层的输入、第一个隐层的输出作为第二个隐层的输入以及第二个隐层的输出作为输出层的输入。

然而，在有些人造神经网络中存在反馈回路是可能的。这种神经网络模型称为递归神经网络。递归神经网络的思想是让神经元在有限时间里激活，然后保持激活状态。这种激活的神经元，可以刺激递归神经网络中的其他神经元在稍后一段时间激活。从而导致多个神经元激活，随着时间推移，将激活一串神经元。在递归神经网络模型中，循环不会引起问题，因为一个神经元的输出只会在稍后的时间影响它的输入，而不是马上就影响。

递归神经网络的影响力比前馈神经网络的小，一部分原因是到目前为止，递归网络的学习算法不那么强大。但是递归网络仍然很有研究意义。比起前馈网络，它更接近我们大脑的思维方式。递归网络可能解决一些前馈网络很难解决的问题。

应理解，本申请实施例中所涉及的神经网络参数初始化的方法除了可以应用于目前广泛使用的前馈网络，也可以应用于上述的递归神经网络。本申请中提供的神经网络参数初始化的方法，具体应用于哪种神经网络并不限制。

图1所示的深度神经网络100中包括两个隐层。其中，与输入层相连接的隐层称为第一个隐层，与输出层相连接的隐层称为第二个隐层。进一步地，应理解深度神经网络中还可以包括两个以上的隐层，或者深度神经网络中仅仅包括一个隐层，图1只是一种示例，不能限制本申请的保护范围。

上面结合图1简单介绍了深度神经网络，为了更清楚地理解本申请中即将介绍的技术方案，下面首先介绍本申请中涉及的基本概念。

1、反向传播算法。

示例性地，以监督学习来解释反向传播算法，其中，监督学习指的是为了训练一个模型，需要提供多个训练样本：每个训练样本既包括输入特征x，也包括对应的输出y。其中，输出y也叫做标记(label)。

例如，要找到很多人，神经网络既需要获取他们的特征。其中，每个人的特征包括：工作年限、行业或收入等。神经网络将获取的每个人的特征，作为样本。再基于该样本去训练模型。使得该模型既已知提出的每个问题(输入特征x)，也已知对应问题的答案(标记y)。当模型看到足够多的样本之后，神经网络就能总结出其中的一些规律。然后，就可以预测某些神经网络未知的输入特征x所对应的标记y了。

示例性地，假设神经元的激活函数f为多层感知机(sigmoid)函数。应理解，不同激活函数所对应的反向传播算法中的计算公式不同。

示例性地，假设每个训练样本为其中，是训练样本的特征，而是样本的目标值。

基于sigmoid函数，用样本的特征计算出神经网络中每个隐层神经元的输出ai，以及输出层每个节点的输出yi。然后，按照下式计算出输出层每个神经元的误差项δi：

δi＝yi(1-yi)(ti-yi)

其中，δi是输出层神经元i的误差项，yi是输出层神经元i的输出值，ti是样本对应于输出层神经元i的目标值。

对于隐藏层每个神经元的误差项δi：

δi＝ai(1-ai)∑kwkiδk

其中，ai是隐藏层神经元i的输出值，wki是隐藏层神经元i到它的下一层节点k的连接的权重，δi是隐藏层神经元i的下一层节点k的误差项。

最后，更新每个连接上的权值：

wij←wij+ηδixij

其中，wij是节点i到节点j的权重，η是一个成为学习速率的常数，δi是隐藏层神经元j的误差项，xij是神经元i传递给神经元j的输入。

上面介绍了神经网络每个神经元误差项的计算和权重更新方法。由此可知，计算一个神经元的误差项，需要先计算每个与该神经元相连的下一层神经元的误差项。这就要求误差项的计算顺序必须是从输出层开始，然后反向依次计算每个隐藏层的误差项，直到与输入层相连的那个隐藏层。这就是反向传播算法的名字的含义。当所有神经元的误差项计算完毕后，我们就可以根据上述更新每个连接上的权值公式来更新所有的权重。

2、梯度不稳。

梯度不稳包括梯度消失或者梯度爆炸。

其中，梯度消失指的是在某些神经网络中，通过隐层从后往前看，梯度会变的越来越小。这就意味着，前面层的学习会显著慢于后面层的学习。

梯度爆炸指的是在某些神经网络中，通过隐层从后往前看，梯度会变的越来越大。这就意味着，前面层的学习会显著快于后面层的学习

为了让神经网络在训练过程中学习到有用的信息，这意味着参数梯度不应该为0。而在全连接的神经网络中，参数梯度和反向传播得到的状态梯度以及入激活值有关。那么神经网络参数初始化应该满足以下两个条件：

数初始化必要条件一：各层激活值不会出现饱和现象；

数初始化必要条件二：各层激活值不为0。

由上述的基本概念可知，在利用反向传播算法对深度神经网络进行的训练的过程中，在网络层数众多的情况下，极易出现梯度消失或者梯度爆炸。而，导致梯度消失或者梯度爆炸的因素主要是深度神经网络的初始化参数。

因此，深度神经网络参数的初始化显得至关重要，好的深度神经网络参数初始化方法有利于提升模型性能和训练的收敛速度。

为了解决现有技术中深度神经网络参数初始化方法的缺陷。本申请提出一种神经网络参数初始化方法，能够大幅提升神经网络训练的收敛速度和泛化性能。

示例性地，本申请提供的神经网络参数初始化方法能够应用于图1所示的深度神经网络。

示例性地，本申请提供的神经网络参数初始化方法还能够应用于非全连接的神经网络等。

应理解，本申请中，所涉及的神经网络的具体概念是：一种运算模型，由大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数(activationfunction)。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。网络的输出则依网络的连接方式，权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。本申请中对神经网络的具体形式并不限制，可以是现有技术中的任意一种神经网络。

在一些应用中，神经网络被用于执行机器学习任务，接收各种数据输入并且基于输入生成各种分数、分类或回归输出等。

例如，如果神经网络的输入是从图像中提取的图像或特征，则神经网络针对给定图像生成的输出可以是针对对象类别的集合中的每一个对象类别的分数，其中，每个分数表示该图像包含属于该类别的对象的图像的概率或可能性。

又例如，如果对神经网络的输入是互联网资源(例如，web页面)、文档或文档的部分或从互联网资源、文档或文档的部分提取的特征，则由神经网络对于给定互联网资源、文档或文档的部分生成的输出可以是针对主题集合中的每一个主题的分数，其中，每个分数表示互联网资源、文档或文档的部分与该主题相关的概率或可能性。

作为另一个示例，如果对神经网络的输入是特定交互内容(例如，包含到其他内容的超链接的内容)的上下文的特征，则由神经网络生成的输出可以是代表该特定内容将被点击或与之交互的概率或可能性的分数。

作为另一个示例，如果对神经网络的输入是对于用户的个性化推荐的特征，例如表征用于推荐的上下文的特征，或者表征由用户采取的先前动作的特征等，那么由神经网络生成的输出可以是内容项集合中的每一个的分数，其中，每个分数表示用户将响应于被推荐内容项的可能性。

作为另一个示例，如果对神经网络的输入是一种语言a的文本，则由神经网络生成的输出可以是另一种语言b的片段文本集合中的每一个片段的分数，其中，每个分数表示另一种语言b的一段文本是该输入文本向另一种语言b的正确翻译的概率或可能性。

作为另一个示例，如果对神经网络的输入是说出的话语、说出的话语的序列或从两者中的一个中导出的特征，那么由神经网络生成的输出可以是针对片段文本集合的每个的分数，每个分数表示该段文本是话语或话语序列的正确记录的概率或可能性。

应理解，本申请中对于神经网络执行的具体任务并不限制，可以现有技术中神经网络能够执行的任意任务。

下面结合图2详细介绍本申请例提供的神经网络参数初始化的方法的流程。

图2是本申请实施例提供的一种神经网络参数初始化方法的示意图。该示意图包括s210-s220两个步骤，下面详细介绍这两个步骤。

s210，确定特征训练集。

为所述神经网络的每一局部网络分别确定与之对应的特征训练集，其中，所述神经网络包括多个局部网络，多个局部网络中的每个局部网络覆盖神经网络的一部分。

可以理解，每个局部网络覆盖神经网络的部分并不完全相同。因为，当多个局部网络中的每个局部网络覆盖神经网络的部分完全相同时，实际神经网络并没有包括多个局部网络，只包括一个局部网络。所以，多个局部网络中至少两个局部网络覆盖神经网络的部分不完全相同

应理解，上述的每个局部网络覆盖神经网络的一部分，指的是从结构上说局部网络为神经网络的一部分可以理解为神经网络划分为多个局部网络。

例如，神经网络为10层的神经网络，包括5个局部网络。其中，每个局部网络覆盖神经网络的10层中的2层。从神经网络和局部网络的结构来说，可以理解为局部网络为神经网络中的2层。也可以理解为将神经网络划分为5个局部网络。

示例性地，如图3和图4所示，5个局部网络中的每个局部网络覆盖神经网络的一部分。

图3是本申请实施例提供的一种局部网络的示意图。该示意图包括一个神经网络以及5个局部网络。

其中，每个局部网络覆盖神经网络的一部分，并且每个局部网络覆盖的部分之间没有重叠的部分。具体地，每两个相邻的局部网络相连接。

可选地，所述多个局部网络中的每个局部网络覆盖所述神经网络的一部分包括：第一局部网络覆盖所述神经网络的第二部分；第二局部网络覆盖所述神经网络的第三部分；其中，所述第一局部网络和所述第二局部网络为所述多个局部网络中的两个局部网络，且所述第二部分与所述第三部分的部分或全部相同。其中，第二部分与第三部分的部分相同的情况，如图4所示。

图4是申请实施例提供的另一种局部网络的示意图。该示意图包括一个神经网络以及5个局部网络。

其中，每个局部网络覆盖神经网络的一部分，该每个局部网络覆盖的部分之间有部分重叠。

应理解，图4中只示出多个局部网络中每个局部网络覆盖神经网络的一部分时，每个局部网络覆盖的部分发生部分的重叠。

进一步地，多个局部网络中每个局部网络覆盖神经网络的一部分，每个局部网络覆盖的部分中可能包括两个局部网络覆盖的部分完全重叠，这里不再赘述。

还应理解，图3和图4只是两种局部网络的示例，不能限制本申请的保护范围。其他局部网络的形式也在本申请的保护范围之内。例如，3个局部网络中的每个局部网络覆盖神经网络的一部分，其中，有两个局部网络覆盖的神经网络的部分完全重叠，另一个局部网络覆盖的神经网络的部分与该两个局部网络覆盖的神经网络的部分中部分重叠或者没有重叠部分。

在通常情况下，上述多个局部网络中的每个局部网络覆盖神经网络的一部分可以理解为，如图3或图4所示地，连续的多个局部网络，每两个连续的局部网络之间，神经网络不存在未被局部网络覆盖的网络。但是本申请并不限制多个局部网络一定为连续的多个局部网络，可以为非连续的多个局部网络。

进一步地，由于神经网络被多个局部网络覆盖的形式，与局部网络的个数，以及多个局部网络覆盖的神经网络的部分之间的覆盖关系有关。不能枚举完，这里不再一一赘述。

示例性地，特征训练集为训练局部网络的信号。例如，图片、声音等输入，本申请对于特征训练集的具体类型并不限制，可以根据神经网络需要完成的任务确定。

例如，神经网络包括n个局部网络，其中，n为大于1的整数。则，为该n个局部网络分别确定n个特征训练集，所述n个特征训练集分别用于训练n个局部网络，n个特征训练集与n个局部网络一一对应。即，一个特征训练集只能用于训练与该特征训练集对应的局部网络。

可选地，为所述神经网络的每一局部网络分别确定与之对应的特征训练集包括：

为所述神经网络的每一局部网络分别确定与之对应的训练子集及特征训练集生成网络；

基于每一局部网络的特征训练集生成网络以及训练子集生成所述每一局部网络的特征训练集。具体地，训练子集包括：

预设训练集，或者所述预设训练集的一部分。

示例性地，预设训练集为神经网络的训练集，或者，预设训练集为神经网络的训练集的子集。

其中，预设训练集为神经网络的训练集的子集时，可以是从神经网络的训练集中，按照等概率随机挑选一半的训练集作为所述神经网络的训练集的子集，或者按照其他的选取方式从神经网络的训练集中，挑选除出所述神经网络的训练集的子集。

示例性地，神经网络的训练集可以为神经网络的输入信号。例如，输入该神经网络的若干图片、声音等信号。具体地，神经网络的训练集的类型与该神经网络需要完成的任务有关，本申请对此并不限制。

为所述神经网络的每一局部网络分别确定与之对应的训练子集包括：

将预设训练集划分为多个训练子集，多个训练子集与多个局部网络一一对应，且多个训练子集之间无交集；或者，

将预设训练集划分为所述多个训练子集，多个训练子集与多个局部网络一一对应，且多个训练子集之间部分或全部训练子集存在交集；或者，

将所述预设训练集作为多个训练子集，其中，多个训练子集中的每个训练子集相同。

示例性地，将预设训练集划分为多个训练子集可以为按照等概率随机挑选的方式将预设训练集划分为多个训练子集，或者按照其他的划分方式将预设训练集划分为多个训练子集。

由上所述，为多个局部网络中的每个局部网络分配训练子集包括以下四种情况：

情况一：将神经网络的训练集分为与上述多个局部网络个数相同的多个训练子集。该多个训练子集之间可以存在交集，也可以不存在交集。并且该多个训练子集与所述多个局部网络一一对应，分别用于生成该多个局部网络的特征训练集。

例如，在前述s210中神经网络包括n个局部网络。则，将该神经网络的训练集分为n个训练子集，该n个训练子集分别用于生成该n个局部网络的特征训练集，所述n个训练子集与所述n个局部网络一一对应。其中，该n个训练子集可以存在交集，也可以不存在交集。

情况二：将神经网络的训练集的子集分为与上述多个局部网络个数相同的多个训练子集。该多个训练子集之间可以存在交集，也可以不存在交集。并且该多个训练子集与所述多个局部网络一一对应，分别用于生成该多个局部网络的特征训练集。

其中，神经网络的训练集的子集可以为，神经网络的训练集的多个子集中的任意一个子集。

例如，在前述s210中神经网络包括n个局部网络。则，将该神经网络的训练集中的任意一个子集分为n个训练子集，该n个训练子集分别用于生成该n个局部网络的特征训练集，所述n个训练子集与所述n个局部网络一一对应。其中，该n个训练子集可以存在交集，也可以不存在交集。

情况三：将神经网络的训练集直接作为所述多个训练子集，多个训练子集中的每个训练子集相同，分别用于生成该多个局部网络的特征训练集。

例如，在前述s210中神经网络包括n个局部网络。则，将该神经网络的训练集直接作为n个局部网络的n个训练子集，分别用于生成该n个局部网络的特征训练集。

情况四：将神经网络的训练集的同一个子集直接作为所述多个训练子集，用于生成该多个局部网络的特征训练集。

例如，在前述s210中神经网络包括n个局部网络。则，将该神经网络的训练集的同一个子集直接作为n个局部网络的n个训练子集，分别用于生成该n个局部网络的特征训练集。

在特殊的情况下，某个局部网络的特征训练集是系统为该局部网络分配的训练子集，下面将结合图6详细介绍，这里不详细说明。

下面结合图5以确定第一特征训练集为例，详细说明如何为所述神经网络的每一局部网络分别确定与之对应的特征训练集。

其中，第一特征训练集为与第一局部网络对应的特征训练集，对第一局部网络使用第一特征训练集训练，可以得到所述第一局部网络的参数。所述第一局部网络为所述多个局部网络中的任意一个局部网络，具有一般性。

图5是本申请实施例提供的一种确定特征训练集的示意图。该示意图包括s510-s530，三个步骤，下面详细介绍这三个步骤。

s510，确定第一训练子集。

系统为所述第一局部网络分配第一训练子集。

具体地，第一训练子集包括预设训练集，或者预设训练集的一部分。

s520，确定第一特征训练集生成网络。

系统确定用于生成所述第一特征训练集的第一特征训练集生成网络。

应理解，系统应为多个局部网络中的每个局部网络，确定生成该局部网络对应的特征训练集生成网络。

所述局部网络的特征训练集生成网络包括后部网络的全部或部分，其中所述后部网络为所述局部网络与所述神经网络的输入之间的网络。

下面结合图6以确定第一特征训练集生成网络为例，详细说明如何为所述神经网络的每一局部网络分别确定与之对应的特征训练集生成网络。其中，第一局部网络为多个局部网络中的任意一个局部网络，具有一般性。

图6是本申请实施例提供的一种确定特征训练集生成网络的示意图。该示意图包括s610-s630，三个步骤，下面详细介绍这三个步骤。

s610，确定后部网络。

其中，后部网络为第一局部网络与神经网络的输入之间的网络。

具体地，第一局部网络与后部网络在神经网络中位置关系如图7所示。图7是本申请实施例提供的一种局部网络位置的示意图。

s620，确定后部网络中被训练完成的局部网络覆盖的部分。

情况一：后部网络的全部均未被训练完成的局部网络覆盖。

情况二：后部网络的部分或者全部被至少一个训练完成的局部网络覆盖。

其中，确定后部网络是否被至少一个训练完成的局部网络覆盖，可以根据后部网络与多个局部网络之间的位置关系确定。

由于，在对多个局部网络进行训练时，为在神经网络的正向方向上，按照所述多个局部网络的前后顺序，从后往前依次训练所述多个局部网络。即，从第一个局部网络到最后一个局部网络分别进行训练。

所以，一个局部网络的后部网络是否被训练完成的局部网络覆盖，根据后部网络与局部网络之间的位置关系判断，当后部网络在神经网络中所在的位置被某个或某些局部网络覆盖时，则，后部网络被至少一个训练完成的局部网络覆盖。

s630，确定第一特征训练集生成网络。

示例性地，当后部网络为s620中的情况一时，第一特征训练集生成网络可以看为线性函数x＝y，即第一局部网络的特征训练集为所述第一局部网络的训练子集。也可以理解为当后部网络为s620中的情况一时，无需确定第一特征训练集生成网络。

示例性地，当后部网络为s620中的情况二时，上述后部网络的全部或部分网络组成第一特征训练集生成网络。

可选地，局部网络的特征训练集生成网络的初始化参数包括：

覆盖所述局部网络的特征训练集生成网络的至少一个训练完成的局部网络中，最后一个训练完成的局部网络的参数的全部或部分；或者，

覆盖所述局部网络的特征训练集生成网络的至少一个训练完成的局部网络的参数的全部或部分经过预设计算得到的参数。

则，所述第一特征训练集生成网络的初始化参数包括：

所述覆盖所述第一特征训练集生成网络的至少一个训练完成的局部网络中，最后一个训练完成的局部网络的参数的全部或部分；或者，

所述覆盖所述第一特征训练集生成网络的至少一个训练完成的局部网络的参数的全部或部分经过预设计算得到。其中，预设计算可以是将覆盖该第一特征训练集生成网络的至少一个训练完成的局部网络的参数的全部或部分进行求平均值或是进行其他运算。

应理解，本申请实施例中，对于如何将覆盖所述第一特征训练集生成网络的至少一个训练完成的局部网络的参数的全部或部分，计算得到上述第一特征训练集生成网络的初始化参数并不限制。

具体地，当后部网络为s620中的情况二时，确定第一特征训练集生成网络以及确定第一特征训练集生成网络的初始化参数包括以下四种情况：

情况一：后部网络的部分网络被一个训练完成的局部网络覆盖。下面将后部网络的被一个训练完成的局部网络覆盖的部分称为后部网络的第一部分网络，将后部网络的未被训练完成的局部网络覆盖的部分称为后部网络的第二部分网络。

首先，删除后部网络的第二部分网络；

当删除上述后部网络的第二部分网络之后的后部网络的第一部分网络为连续的一个网络时：将后部网络的第一部分网络作为上述第一特征训练集生成网络，并且将覆盖该后部网络的第一部分网络的训练完成的局部网络的参数的全部或部分作为第一特征训练集生成网络的初始化参数。

当删除上述后部网络的第二部分网络之后的后部网络的第一部分网络为非连续的多个网络时：将该非连续的多个网络按照先后顺序直接相连作为上述第一特征训练集生成网络，并且将覆盖该后部网络的第一部分网络的训练完成的局部网络的参数的全部或部分作为第一特征训练集生成网络的初始化参数。

情况二：后部网络的部分网络被多个训练完成的局部网络覆盖。下面将后部网络的被多个训练完成的局部网络覆盖的部分称为后部网络的第一部分网络，将后部网络的未被训练完成的局部网络覆盖的部分称为后部网络的第二部分网络。

首先，删除后部网络的第二部分网络；

当删除上述后部网络的第二部分网络之后的，后部网络的第一部分网络为连续的一个网络时：将后部网络的第一部分网络作为上述第一特征训练集生成网络，并且将覆盖该第一特征训练集生成网络的多个训练完成的局部网络中，最后一个训练完成的局部网络的参数的全部或部分作为该第一特征训练集生成网络的初始化参数；

或者，将覆盖该第一特征训练集生成网络的多个训练完成的局部网络中，最先一个训练完成的局部网络的参数的全部或部分作为该第一特征训练集生成网络的初始化参数；

或者，将覆盖该第一特征训练集生成网络的多个训练完成的局部网络的参数的全部或部分经过预设计算得到的参数作为该第一特征训练集生成网络的初始化参数等。

当删除后部网络的第二部分网络之后的后部网络的第一部分网络为非连续的多个网络时：将该非连续的多个网络按照先后顺序直接相连作为上述第一特征训练集生成网络。具体地，第一特征训练集生成网络的初始化参数与情况二中后部网络的第一部分网络为连续的一个网络时类似，这里不再赘述。

通常情况下，上述非连续的多个网络，可以直接相连，不需要引入新的参数。

情况三：后部网络的全部网络被一个训练完成的局部网络覆盖时，后部网络为该第一特征训练集生成网络。

第一特征训练集生成网络的初始化参数，为该训练完成的局部网络的参数的全部或部分网络。情况四：后部网络的全部网络被多个训练完成的局部网络覆盖时，后部网络为该第一特征训练集生成网络。

将覆盖该第一特征训练集生成网络的多个训练完成的局部网络中，最后一个训练完成的局部网络的参数的全部或部分作为该第一特征训练集生成网络的初始化参数；

应理解，图6中所述的第一局部网络为前述多个局部网络中的任意一个局部网络，具有一般性。所以，前述多个局部网络中每个局部网络对应的特征训练集生成网络均可以采用图6所示的方法，确定特征训练集生成网络。这里不再一一赘述。

s530，确定第一特征训练集。

基于每一局部网络的特征训练集生成网络以及训练子集生成所述与之对应的特征训练集。

则，基于所述第一特征训练集生成网络以及所述第一训练子集生成所述第一特征训练集。

可选地，所述局部网络的特征训练集包括：数据和标签，其中，所述数据为所述局部网络的训练子集通过所述局部网络的特征训练集生成网络正向传播，输出的数据，所述标签为所述神经网络的标签。

具体地，确定第一特征训练集包括以下几种情况：

情况一：系统为每个局部网络分配不同的训练子集，如s510中的情况一或情况二所述。第一局部网络的训练子集为第一训练子集，第一局部网络的特征训练集生成网络为第一特征训练集生成网络，第一局部网络的后部网络的部分或全部被至少一个训练完成的局部网络覆盖。

基于第一训练子集以及第一特征训练集生成网络确定第一局部网络的特征训练集，称为第一特征训练集。其中，第一训练子集为，系统为多个局部网络分配多个训练子集中与该第一局部网络相对应的训练子集。

结合图8以确定第一特征训练集为例，详细说明如何基于每一局部网络的特征训练集生成网络以及训练子集生成每一局部网络的对应的特征训练集。

图8中a是本申请实施例提供的一种生成特征训练集的示意图。该示意图包括第一特征训练集生成网络、第一训练子集以及数据。其中，数据为第一特征训练集包括的数据。

如图8中a所示，第一训练子集通过第一特征训练集生成网络正向传播，该第一特征训练集生成网络的输出即为该第一特征训练集所包括的数据。其中，第一局部网络为前述多个局部网络中的任意一个。再将第一特征训练集的数据结合标签得到第一特征训练集。

情况二：系统为每个局部网络分配不同的训练子集，如s510中的情况一或情况二所述。第一局部网络的训练子集为第一训练子集，第一局部网络的特征训练集生成网络为第一特征训练集生成网络，第一局部网络的后部网络全部未被训练完成的局部网络覆盖，第一特征训练集生成网络可以理解为x＝y。则，第一特征训练集为第一训练子集。

情况三：系统为每个局部网络分配相同的训练子集，如s510中的情况三或情况四所述。第一局部网络的训练子集为第一训练子集，第一局部网络的特征训练集生成网络为第一特征训练集生成网络，第一局部网络的后部网络全部未被训练完成的局部网络覆盖，第一特征训练集生成网络可以理解为x＝y。则，第一特征训练集为第一训练子集。

情况四：系统为每个局部网络分配相同的训练子集，如s510中的情况三或情况四所述。第一局部网络的训练子集为第一训练子集，第一局部网络的特征训练集生成网络为第一特征训练集生成网络，第一特征训练集生成网络的部分被训练完成的第二局部网络的全部或部分覆盖。

基于第二局部网络的特征训练集以及第二局部网络的全部或部分网络确定第一局部网络的特征训练集，称为第一特征训练集。

图8中b是本申请实施例提供的另一种生成特征训练集的示意图。该示意图包括第二局部网络的全部或部分网络、第二局部网络的特征训练集以及数据。其中，数据为第一特征训练集包括的数据。

如图8中b所示，第二局部网络的特征训练集通过第二局部网络的全部或部分网络正向传播，该第二局部网络的全部或部分网络的输出即为该第一特征训练集包括的数据。其中，第一局部网络为前述多个局部网络中的任意一个。再将第一特征训练集的数据结合标签得到第一特征训练集。

情况五：系统为每个局部网络分配相同的训练子集，如s510中的情况三或情况四所述。第一局部网络的训练子集为第一训练子集，第一局部网络的特征训练集生成网络为第一特征训练集生成网络，并且每个局部网络之间直接相连(如图3所示)。假设第二局部网络为与第一局部网络直接相连的神经网络正向方向上位于第一局部网络后面的局部网络。

基于第二局部网络的特征训练集以及第二局部网络确定第一局部网络的特征训练集，称为第一特征训练集。

图8中c是本申请实施例提供的又一种生成特征训练集的示意图。该示意图包括第二局部网络、第二局部网络的特征训练集以及数据。其中，数据为第一特征训练集的包括的数据。

如图8中c所示，第二局部网络的特征训练集通过第二局部网络正向传播，该第二局部网络的输出即为该第一特征训练集包括的数据。其中，第一局部网络为前述多个局部网络中的任意一个。再将第一特征训练集的数据结合标签得到第一特征训练集。

s220，训练局部网络。

对每一局部网络分别使用与之对应的特征训练集训练以得到所述局部网络的参数。具体地，每个局部网络基于该局部网络对应的特征训练集，进行训练。

可选地，对每一局部网络分别使用与之对应的特征训练集训练包括：

在所述神经网络的正向方向上，按照所述多个局部网络的前后顺序，从后往前依次训练所述多个局部网络。

可选地，在对每一局部网络分别使用与之对应的特征训练集训练之前，为所述多个局部网络中，不包括输出层的局部网络添加辅助输出层，所述辅助输出层用于支持所述局部网络的输出符合预设条件。

示例性地，本申请中基于特征训练集训练局部网络，可以是现有技术中基于特征训练集训练神经网络的算法中的任意一种。本申请对此并不限制。

例如，随机梯度下降法、以及随机梯度下降法相关变形方法等。

下面以训练第一局部网络为例，结合图9简单介绍本申请中训练局部网络的流程。

图9是本申请实施例提供的一种训练局部网络的流程图。该流程图包括s910-s930，三个步骤，下面详细介绍这三个步骤。

s910，第一局部网络参数初始化。

进行第一局部网络的参数初始化包括以下三种情况：

情况一：直接继承神经网络的第一初始化参数中的被该第一局部网络覆盖的部分的网络的初始化参数。其中，神经网络的第一初始化参数可以是基于现有技术对神经网络进行参数初始化得到的初始化参数。

可以理解，本申请实施例中提供的神经网络参数初始化的方法，是对该神经网络的第一初始化参数的增强或优化。

例如，第一局部网络覆盖神经网络的输入层部分，则第一局部网络的参数初始化过程可以是。直接继承神经网络的第一初始化参数中，神经网络中输入层部分的初始化参数。

情况二：采用现有技术中的网络参数初始化方法。进行第一局部网络的参数初始化。

例如，采用上述的随机方法，进行第一局部网络的参数初始化。

情况三：将参数迁移到第一局部网络。

其中，第一局部网络的初始化参数包括在训练完成的局部网络中，则将参数迁移到第一局部网络中。

可选地，图9还包括s911，为第一局部网络添加辅助输出层。

为第一局部网络添加辅助输出层，所述辅助输出层用于支持所述第一局部网络的输出符合预设条件，其中，所述第一局部网络为所述多个局部网络中不包括输出层的局部网络。

其中，每个局部网络的辅助输出层的主要作用是：使得局部网络的输出符合神经网络的任务需求，能够利用特征训练集中数据和标签进行训练。辅助输出层如果有参数需要初始化，则采用现有的初始化方案对其进行初始化。

s920，训练第一局部网络。

具体地，在完成第一局部网络参数初始化之后，利用述的第一特征训练集，对第一局部网络其辅助输出层组成的网络进行训练，直至训练完毕。

第一局部网络为前述多个局部网络中的任意一个，按照图9所示的局部网络训练方法，对前述多个局部网络中的每个局部网络进行训练，获得多个局部网络中的每个局部网络参数。

s230，确定神经网络初始化参数。

所述神经网络的初始化参数包括：所述多个局部网络的参数的全部或部分。

进一步地，将训练完成的多个局部网络中参数的全部或者部分，迁移到神经网络中对应位置上。完成神经网络参数初始化。具体地，对应的位置指的是局部网络覆盖神经网络的部分。

可选地，当神经网络中某个部分的网络被多个局部网络覆盖时，选择该多个局部网络中最后训练的局部网络中对应的参数值迁移到神经网络中的某个部分的网络中；或者，

当神经网络中某个部分的网络被多个局部网络覆盖时，选择该多个局部网络中最先训练的局部网络中对应的参数值迁移到神经网络中的某个部分的网络中。

示例性地，以神经网络的第一部分的初始化参数为例，进行简单的说明。其中，神经网络的第一部分为神经网络中的任何一个部分网络。

情况一：第一部分被一个局部网络覆盖。将训练完成的、覆盖第一部分的局部网络的参数的全部或者部分作为第一部分的初始化参数。

其中，第一部分被该局部网络的全部网络覆盖时，即将该局部网络的全部参数作为第一部分的初始化参数；第一部分被该局部网络的部分网络覆盖时，即将该局部网络中的覆盖该第一部分的部分网络的参数作为第一部分的初始化参数。

情况二：第一部分被多个局部网络覆盖。将训练完成的、覆盖第一部分的多个局部网络中，最后一个训练完成的局部网络的参数的全部或者部分作为第一部分的初始化参数。

情况三：第一部分未被任何的局部网络覆盖。第一部分的初始化参数为神经网络基于现有技术进行参数初始化时，该第一部分的初始化参数。即，第一部分的初始化参数没有进行优化。

图2-图9详细介绍了本申请神经网络参数初始化的方法的主要流程。

示例性地，本申请中将上述的神经网络包括若干个局部网络、对该若干个局部网络进行训练和参数值迁移回神经网络的过程称为神经网络的局部训练。同时，本申请中将上述训练该若干个局部网络所使用的训练集称为该若干个局部网络的特征训练集。

神经网络的局部训练中，由于局部网络包含的层数少，所以训练时的收敛速度快。同时，局部网络的特征训练集来自训练完成的局部网络的正向传播过程，包含一定抽象程度的特征信息。因此，神经网络的局部训练能够以较小的代价获得很好的网络参数初始化状态，加速神经网络的训练收敛过程。另外，由于局部网络包含的层数较少，局部训练中不存在过拟合问题，从而减轻了神经网络的过拟合问题，提升了神经网络的泛化性能。

下面将结合具体的实施例，详细介绍本申请提供的神经网络参数初始化的方法。

首先，以神经网络为一个用于图像分类的卷积神经网络为例，说明本申请神经网络参数初始化的方法的具体实施方式。

卷积神经网络(convolutionalneuronnetwork，cnn)是一种带有卷积结构的深度神经网络，是一种深度学习(deeplearning)架构，深度学习架构是指通过机器学习的算法，在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构，cnn是一种前馈(feed-forward)人工神经网络，该前馈人工神经网络中的各个神经元对输入其中的图像中的重叠区域作出响应。

示例性地，卷积神经网络由输入层、卷积(convolution，conv)层、激活函数层、批量归一化(batchnormalization，bn)层、池化(pool)层、全连接(fullconnect，fc)层等组成。

具体地，本实施例中用到的卷积神经网络包含了14个卷积层、14个批量归一化层、14个激活函数层、2个池化层、一个用于10分类的全连接层和一个用于输出判决概率的柔性最大值传输函数(softmax)层。

每个卷积层后面会有一个bn层和激活函数层，为了表达简便，本实施例中将三者合并表示为卷积层(conv)。同时，假定该卷积神经网络已经使用现有的初始化方法进行了参数初始化，见图10左侧。图10左侧所示的为根据现有技术参数初始化之后的卷积神经网络，其中每个层中的参数为卷积神经网络的第一初始化参数。

为表达方便，以下本实施例中称卷积神经网络为全局网络。

图10是本申请实施例提供的一种具体实施例示意图。该示意图包括卷积神经网络、局部网络1-局部网络3。其中，图10中所示的7*7、3*3分别指的是卷积层的卷积核大小分别为7*7、3*3；图10中所示1/2指的是卷积核的滑动步长为2；图10中所示64、128、256、512指的是输出通道数目。

首先，全局网络包括三个局部网络(如图10所示的局部网络1、局部网络2和局部网络3)，三个局部网络分别覆盖全局网络的不同部分，三个局部网络之间无覆盖部分，如图10所示。

示例性地，将全局网络的训练集按照等概率随机挑选的方式，分成互不相交的三组，每组包含的样本数目相同，将三组训练子集分别标记为：训练子集1、训练子集2和训练子集3，分别用于生成局部网络1、局部网络2和局部网络3的特征训练集。

应理解，上述为局部网络1-局部网络3分别分配训练子集1-训练子集3，只是一种示例，不能限制本申请的保护范围。在本申请实施例中，还可以将全局网络的训练集直接作为上述训练子集1-训练子集3；或者，将全局网络的训练集的一个子集直接作为上述训练子集1-训练子集3。

对全局网络前向方向上的第一个局部网络(即局部网络1)，进行参数初始化：该局部网络的初始化参数采用全局网络中被第一个局部网络覆盖的部分网络的初始化参数。

由于局部网络1中不包括输出层，所以为局部网络1添加辅助输出层，辅助输出层包括：一个平均池化层、一个10分类全连接层和一个softmax层。其中，对全连接层的参数，按照[-1,1]之间的均匀分布进行初始化，如图11所示。

图11是本申请实施例提供的一种包括辅助输出层的局部网络示意图。该示意图包括局部网络1以及辅助输出层。

进一步地，由于局部网络1的后部网络的全部未被训练完成的局部网络覆盖，所以将训练子集1标记为特征训练集1，作为局部网络1的特征训练集。

利用特征训练集1，并采用随机梯度下降法，对图11中局部网络1及其辅助输出层组成的网络进行训练，直至训练完毕。具体地，训练方法可以采用现有技术中的任意一种训练方法。

进一步地，为全局网络前向方向上的第二个局部网络(即局部网络2)，进行参数初始化：该局部网络的初始化参数采用全局网络中被第二个局部网络覆盖的部分网络的初始化参数。

由于局部网络2中不包括输出层，所以为局部网络2添加辅助输出层，包括：一个平均池化层、一个10分类全连接层和一个softmax层，其中，对全连接层的参数按照[-1,1]之间的均匀分布进行初始化，如图12所示。

图12是本申请实施例提供的另一种包括辅助输出层的局部网络示意图。该示意图包括局部网络2以及辅助输出层。

全局网络中确定局部网络2的后部网络，由于局部网络2的后部网络与局部网络1的全部重叠。因此，将训练完成的局部网络1作为局部网络2的特征训练集生成网络，如图13所示。

图13是本申请实施例提供的一种特征训练集生成网络示意图。该示意图包括训练完成的局部网络1、训练子集2以及特征训练集2。

图13表示将训练子集2，通过局部网络2的特征训练集生成网络进行正向传播，将输出的结果及对应的标签标记为特征训练集2，作为局部网络2的特征训练集。其中，特征训练集生成网络为训练完成的局部网络1。

利用上述特征训练集2，并采用随机梯度下降法，对图13中局部网络2及其辅助输出层组成的网络进行训练，直至训练完毕。

进一步地，为全局网络前向方向上的第三个局部网络(即局部网络3)，进行参数初始化：该局部网络的初始化参数采用全局网络中被第三个局部网络覆盖的部分网络的初始化参数。

由于该局部网络已经具备输出层，因此，不需要添加辅助输出层，如图14所示。

图14是本申请实施例提供的一种局部网络示意图。该示意图包括局部网络3。

由于局部网络3的后部网络的全部被训练完成的局部网络1和局部网络2覆盖，因此将训练完成的局部网络1和局部网络2组成的网络作为局部网络3的特征训练集生成网络，如图15所示。

图15是本申请实施例提供的另一种特征训练集生成网络示意图。该示意图包括训练完成的局部网络1、训练完成的局部网络2、训练子集3以及特征训练集3。

图15表示将训练子集3，通过局部网络3的特征训练集生成网络进行正向传播，将输出的结果及对应的标签标记为特征训练集3，作为局部网络3的特征训练集。其中，特征训练集生成网络由训练完成的局部网络1和局部网络2的组成。

利用上述特征训练集3，并采用随机梯度下降法，对局部网络3进行训练，直至训练完毕。

将训练完成的局部网络1、局部网络2、局部网络3的参数值，迁移到全局网络中对应的参数上，完成全局网络的参数初始化增强，如图16所示。

图16是本申请实施例提供的一种参数迁移示意图。该示意图包括全局网络、训练完成的局部网络1、训练完成的局部网络2以及训练完成的局部网络3。

如图16所示，由于局部网络1覆盖全局网络的1-6层，局部网络2覆盖全局网络7-12层，局部网络3覆盖全局网络13-19层。将训练完成的局部网络1的参数作为全局网络的1-6层的初始化参数；将训练完成的局部网络2的参数作为全局网络的7-12层的初始化参数；将训练完成的局部网络3的参数作为全局网络的13-19层的初始化参数。

下面仍以图10左侧的卷积神经网络为例，同样假定该卷积神经网络已经使用现有的初始化方法进行了参数初始化。

首先，全局网络由三个的局部网络覆盖，分别为：局部网络1、局部网络2和局部网络3。其中，局部网络1和局部网络2同时覆盖了全局网络的一部分，局部网络2和局部网络3同时覆盖了全局网络的一部分，如图17所示。

图17是本申请实施例提供的另一种具体实施例示意图。该示意图包括卷积神经网络、局部网络1-局部网络3。

示例性地，将全局网络的训练集，按照等概率随机挑选1/2的样本，记为训练子集，该训练子集，用于局部网络1、局部网络2和局部网络3的特征训练集生成。

应理解，上述为局部网络1-局部网络3分别配置同一个训练子集，只是一种示例，不能限制本申请的保护范围。

为全局网络前向方向上的第一个局部网络(即局部网络1)，进行参数初始化：该局部网络的初始化参数采用全局网络中被第一个局部网络覆盖的部分网络的初始化参数。

由于局部网络1中不包括输出层，所以为局部网络1添加辅助输出层，辅助输出层包括：一个平均池化层、一个10分类全连接层和一个softmax层。其中，对全连接层的参数按照[-1,1]之间的均匀分布进行初始化，如图18所示。

图18是本申请实施例提供的一种包括辅助输出层的局部网络示意图。该示意图包括局部网络1以及辅助输出层。

进一步地，由于局部网络1的后部网络的全部未被训练完成的局部网络覆盖，所以将上述训练子集，标记为特征训练集1，作为局部网络1的特征训练集。

利用特征训练集1，并采用随机梯度下降法，对图18中局部网络1及其辅助输出层组成的网络进行训练，直至训练完毕。具体地，训练方法可以采用现有技术中的任意一种训练方法。

进一步地，为全局网络前向方向上的第二个局部网络(即局部网络2)，进行参数初始化包括：

首先，将局部网络1中与局部网络2重叠的部分，称为局部网络2的第一部分网络，其中，局部网络2的第一部分网络的初始化参数为训练完成的局部网络1中与局部网络2重叠的部分网络的参数。如图19所示。

图19是本申请实施例提供的一种局部网络参数初始化的示意图。该示意图包括局部网络2以及训练完成的局部网络1。

其次，将局部网络2中未与局部网络1重叠的部分，称为局部网络2的第二部分网络，局部网络2的第二部分网络的初始化参数为全局网络中被局部网络2的第二部分网络覆盖的部分网络的初始化参数。

示例性地，局部网络2的初始化参数可以不需要，如图19所示从训练完成的局部网络1中迁移参数，直接用全局网络中局部网络2覆盖的部分网络的初始化参数，作为局部网络2的初始化参数。

由于局部网络2中不包括输出层，所以为局部网络2添加辅助输出层，包括：一个平均池化层、一个10分类全连接层和一个softmax层，其中对全连接层的参数，按照[-1,1]之间的均匀分布进行初始化，如图20所示。

图20是本申请实施例提供的另一种包括辅助输出层的局部网络示意图。该示意图包括局部网络2以及辅助输出层。

从全局网络中确定局部网络2的后部网络，其中，从图17中所示的全局网络由局部网络1-局部网络3覆盖可知，局部网络2的后部网络的全部被上述训练完成的局部网络1中的部分网络覆盖。则，将训练完成的局部网络1中覆盖局部网络2的后部网络的部分网络的参数，作为局部网络2的后部网络的对应层的初始化参数(如图21所示)，将获得初始化参数的局部网络2的后部网络，作为局部网络2的特征训练集生成网络。

图21是本申请实施例提供的一种确定特征训练集生成网络的示意图。该示意图包括局部网络2的特征训练集生成网络以及训练完成的局部网络1。

图21表示将训练完成的局部网络1上的参数迁移到局部网络2的后部网络中被局部网络1覆盖的部分上。进而确定局部网络2的特征训练集生成网络，为局部网络2的后部网络且局部网络2的后部网络的初始化参数，为训练完成的局部网络1中覆盖局部网络2的后部网络的部分网络的参数。

进一步地，将训练子集，通过局部网络2的特征训练集生成网络，进行正向传播，将输出的结果及标签标记为特征训练集2，作为局部网络2的特征训练集，如图22所示。

图22是本申请实施例提供的一种生成特征训练集的示意图。该示意图包括局部网络2的特征训练集生成网络、训练子集以及特征训练集2。

利用特征训练集2，并采用随机梯度下降法，对图20中局部网络2和辅助输出层组成的网络进行训练，直至训练完毕。

进一步地，为全局网络前向方向上的第三个局部网络(即局部网络3)，进行参数初始化包括：

首先，将局部网络3中与局部网络2重叠的部分，称为局部网络3的第一部分网络，其中，局部网络3的第一部分网络的初始化参数为训练完成的局部网络2中与局部网络3重叠的部分网络的参数。如图23所示。

图23是本申请实施例提供的一种局部网络参数初始化的示意图。该示意图包括局部网络3以及训练完成的局部网络2。

其次，将局局部网络3中未与局部网络2重叠的部分，称为局部网络3的第二部分网络，局部网络3的第二部分网络的初始化参数为全局网络中被局部网络3的第二部分网络覆盖的部分网络的初始化参数。

示例性地，局部网络3的初始化参数可以不需要，如图23所示从训练完成的局部网络2中迁移参数，直接用全局网络中局部网络3覆盖的部分网络的初始化参数，作为局部网络3的初始化参数。

局部网络3已经具备输出层，因此，不需要添加辅助输出层，如图24所示。图24是本申请实施例提供的一种局部网络示意图。该示意图包括局部网络3。

从全局网络中确定局部网络3的后部网络，其中，从图17中所示的全局网络由局部网络1-局部网络3覆盖可知，局部网络3的后部网络的全部被上述训练完成的局部网络1和训练完成的局部网络2中的部分网络覆盖。

则，将训练完成的局部网络1中覆盖局部网络3的后部网络部分网络的参数，迁移到局部网络3的后部网络上的对应参数上(如图25右侧所示)，以及将训练完成的局部网络2中覆盖局部网络3的后部网络部分网络的参数，迁移到局部网络3的后部网络上的对应参数上(如图25左侧所示)。

其中，从图25可以看出，局部网络3的后部网络的第7和第8层同时被训练完成的局部网络1和训练完成的局部网络2中的部分网络覆盖，本申请实施例中，将训练完成的局部网络2中覆盖局部网络3的后部网络的第7和第8层的部分网络的参数，作为局部网络3的后部网络的第7和第8层的初始化参数。

应理解，局部网络3的后部网络的第7和第8层的初始化参数，还可以选择训练完成的局部网络1中覆盖局部网络3的后部网络的第7和第8层的部分网络的参数；或者，

局部网络3的后部网络的第7和第8层的初始化参数，还可以选择将训练完成的局部网络2中覆盖局部网络3的后部网络的第7和第8层的部分网络的参数以及训练完成的局部网络1中覆盖局部网络3的后部网络的第7和第8层的部分网络的参数进行加权平均或其他计算之后的参数。

图25是本申请实施例提供的一种确定特征训练集生成网络的示意图。该示意图包括局部网络3的特征训练集生成网络、训练完成的局部网络1和训练完成的局部网络2。

将前述训练子集，通过局部网络3的特征训练集生成网络进行正向传播，将输出的结果及标签标记为特征训练集3，作为局部网络3的特征训练集，如图26中左侧所示。

由于所有局部网络使用的相同的训练子集，因此，可以利用局部网络2的特征训练集2，以及局部网络3的特征训练集生成网络中被局部网络2所覆盖的网络部分，来生成局部网络3的特征训练集3，如图26中右侧所示。图26是本申请实施例提供的一种生成特征训练集的示意图。

利用前述特征训练集3，并采用随机梯度下降法，对图24中的局部网络3进行训练，直至训练完成。

将训练完成的局部网络1、训练完成的局部网络2、训练完成的局部网络3的参数值，迁移到全局网络中对应的参数上，对于全局网络中被多个局部网络覆盖的部分，则选择这些局部网络中最后一次训练的局部网络上对应的参数值进行迁移，如图27所示。

图27是本申请实施例提供的一种参数迁移示意图。该示意图包括全局网络、训练完成的局部网络1、训练完成的局部网络2以及训练完成的局部网络3。

如图27所示，由于局部网络1覆盖全局网络的1-8层，局部网络2覆盖全局网络7-14层，局部网络3覆盖全局网络13-19层。针对全局网络的7、8层，同时被局部网络1和局部网络2覆盖，且，在局部网络1和局部网络2中局部网络2是最后训练完成的；针对全局网络的13、14层，同时被局部网络2和局部网络3覆盖，且，在局部网络2和局部网络3中局部网络3是最后训练完成的。

则将训练完成的局部网络1的1-6层的参数作为全局网络的1-6层的初始化参数；将训练完成的局部网络2的1-6层的参数作为全局网络的7-12层的初始化参数；将训练完成的局部网络3的1-7层的参数作为全局网络的13-19层的初始化参数。

应理解，上述图10-图27所述的两个实施例只是举例的形式，不能限制本申请的保护范围，其他，容易想到的变形的实施例均在本申请的保护范围之内。

需要说明的是，在本申请实施例中，第一、第二、第三等仅为便于区分不同的对象，而不应对本申请构成任何限定。例如，区分多个局部网络中不同的局部网络等。以及，本申请出现的“正向方向”、“正向传播”等名词为现有技术中通用的名词，不对本申请构成任何限定，也可以称为“前向方向”、“前向传播”或者后续技术发展规定的其他名称。

上面结合图2-图27详细介绍了本申请实施例提供的神经网络参数初始化的方法。下面将结合图28-图30详细介绍了本申请实施例提供的神经网络参数初始化的装置。

图28为本申请实施例提供的神经网络参数初始化的装置2800的示意性框图，该神经网络参数初始化的装置包括处理单元2801、参数确定单元2802以及训练单元2803。

处理单元2801，用于为所述神经网络的每一局部网络分别确定与之对应的特征训练集，其中，所述神经网络包括多个局部网络，所述多个局部网络中的每个局部网络覆盖所述神经网络的一部分。

训练单元2803，用于对每一局部网络分别使用与之对应的特征训练集训练以得到该局部网络的参数；

参数确定单元2802，用于确定所述神经网络的初始化参数，其中，所述神经网络的初始化参数包括：所述多个局部网络的参数的全部或部分。

参数确定单元2802确定所述神经网络的初始化参数包括：所述神经网络的第一部分的初始化参数为第一局部网络集合中，最后一个训练完成的局部网络的参数的全部或部分，所述第一局部网络集合包括一个或多个训练完成的局部网络，所述一个或多个训练完成的局部网络覆盖所述神经网络的第一部分。

所述处理单元2801，用于为所述神经网络的每一局部网络分别确定与之对应的特征训练集包括：所述处理单元2801为所述神经网络的每一局部网络分别确定与之对应的训练子集及特征训练集生成网络；所述处理单元2801基于每一局部网络的特征训练集生成网络以及训练子集生成所述与之对应的特征训练集。

具体地，训练子集包括：预设训练集，或者预设训练集的一部分。

具体地，所述局部网络的特征训练集生成网络包括后部网络的全部或部分，其中所述后部网络为所述局部网络与所述神经网络的输入之间的网络具体地，所述局部网络的特征训练集生成网络的初始化参数包括：

覆盖所述局部网络的特征训练集生成网络的至少一个训练完成的局部网络中，最后一个训练完成的局部网络的参数的全部或部分；或者，

覆盖所述局部网络的特征训练集生成网络的至少一个训练完成的局部网络的参数的全部或部分经过预设计算得到的参数。

具体地，所述局部网络的特征训练集包括：数据和标签，其中，所述数据为所述局部网络的训练子集通过所述局部网络的特征训练集生成网络正向传播，输出的数据，所述标签为所述神经网络的标签。

具体地，所述多个局部网络中的每个局部网络覆盖所述神经网络的一部分包括：第一局部网络覆盖所述神经网络的第二部分；第二局部网络覆盖所述神经网络的第三部分；

其中，所述第一局部网络和所述第二局部网络为所述多个局部网络中的两个局部网络，且所述第二部分与所述第三部分的部分或全部相同。

训练单元2803，用于对每一局部网络分别使用与之对应的特征训练集训练包括：训练单元2803用于在所述神经网络的正向方向上，按照所述多个局部网络的前后顺序，从后往前依次训练所述多个局部网络。

在所述训练单元2803对每一局部网络分别使用与之对应的特征训练集训练之前，所述处理单元2801还用于为所述多个局部网络中，不包括输出层的局部网络添加辅助输出层，所述辅助输出层用于支持所述局部网络的输出符合预设条件。

如图29所示，本申请实施例还提供了一种服务器，该服务器包括处理器2901，存储器2902，其中，存储器2902中存储指令或程序，处理器2901用于执行存储器2902中存储的指令或程序。存储器2902中存储的指令或程序被执行时，该处理器2901用于执行图28所示的实施例中处理单元2801执行的操作。具体地，该服务器还可能包括收发器2903用于与系统之间进行信息交互。

具体地，图29中，所示的处理器2901可以是由图30所示的网络处理单元(networkprocessingunit，npu)芯片实现。

神经网络处理器50作为协处理器挂载到主cpu(hostcpu)上，由hostcpu分配任务。npu的核心部分为运算电路50，通过控制器504控制运算电路503提取存储器中的矩阵数据并进行乘法运算。

在一些实现中，运算电路503内部包括多个处理单元(processengine，pe)。在一些实现中，运算电路503是二维脉动阵列。运算电路503还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路503是通用的矩阵处理器。

举例来说，假设有输入矩阵a，权重矩阵b，输出矩阵c。运算电路从权重存储器502中取矩阵b相应的数据，并缓存在运算电路中每一个pe上。运算电路从输入存储器501中取矩阵a数据与矩阵b进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)508中。

统一存储器506用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(directmemoryaccesscontroller，dmac)505，dmac被搬运到权重存储器502中。输入数据也通过dmac被搬运到统一存储器506中。

总线接口单元(businterfaceunit，biu)510，用于axi总线与dmac和取指存储器(instructionfetchbuffer，ifb)509的交互。

biu具体用于取指存储器509从外部存储器获取指令，还用于存储单元访问控制器505从外部存储器获取输入矩阵a或者权重矩阵b的原数据。

dmac主要用于将外部存储器ddr中的输入数据搬运到统一存储器506或将权重数据搬运到权重存储器502中或将输入数据数据搬运到输入存储器501中。

向量计算单元507包括多个运算处理单元，在需要的情况下，对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。主要用于神经网络中非卷积/fc层网络计算。例如，池化，批量归一化，局部响应归一化(localresponsenormalization，lrn)等。

在一些实现种，向量计算单元能507将经处理的输出的向量存储到统一缓存器506。例如，向量计算单元507可以将非线性函数应用到运算电路503的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元507生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路503的激活输入，例如用于在神经网络中的后续层中的使用。

控制器504连接的取指存储器(instructionfetchbuffer)509，用于存储控制器504使用的指令。

统一存储器506，输入存储器501，权重存储器502以及取指存储器509均为on-chip存储器。外部存储器私有于该npu硬件架构。

其中，前述具体实施例中所示的卷积神经网络中各层的运算可以由矩阵计算单元212或向量计算单元507执行。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的服务器、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-onlymemory，rom)、随机存取存储器(randomaccessmemory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页 1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨宁
技术所有人：华为技术有限公司
我是此专利的发明人

上一篇：一种高填充木塑复合材料造粒模头的制作方法
上一篇：一种钻井稠油热采用投球选注模拟装置及其使用方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。