个人贷款偿还风险预测方法、装置、计算机设备以及介质与流程

文档序号：15749411发布日期：2018-10-26 17:19阅读：260来源：国知局

导航： X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术

本发明涉及计算机
技术领域：
，尤其涉及一种个人贷款偿还风险预测方法、装置、计算机设备以及介质。
背景技术：
：现有技术中，虽然员工间高额借贷的现象在企业中司空见惯，在很多情况下，企业对这种员工间的借贷环节的能控力度较为薄弱，很容易滋生高额借贷、非法集资等事件。技术实现要素：有鉴于此，本发明实施例提供一种个人贷款偿还风险预测方法、装置、计算机设备以及介质，可以减少高额借贷、非法集资行为。一方面，本发明实施例提供了一种个人贷款偿还风险预测方法，该方法包括：获取待测个人数据；对所述待测个人数据进行预处理；从已处理的待测个人数据中提取多维度特征信息，并根据所提取的多维度特征信息构建训练集；采用决策树算法对所述训练集进行训练生成决策树；获取贷款人的个人数据以构建测试集，并使用所述决策树对所述测试集进行预测，从而得到所述贷款人偿还风险的预测结果。另一方面，本发明实施例提供了一种个人贷款偿还风险预测装置，所述装置包括：获取单元，用于获取待测个人数据；预处理单元，用于对所述待测个人数据进行预处理；构建单元，用于从已处理的待测个人数据中提取多维度特征信息，并根据所提取的多维度特征信息构建训练集；生成单元，用于采用决策树算法对所述训练集进行训练生成决策树；预测单元，用于获取贷款人的个人数据以构建测试集，并使用所述决策树对所述测试集进行预测，从而得到所述贷款人偿还风险的预测结果。又一方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的个人贷款偿还风险预测方法。再一方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序可被一个或者一个以上的处理器执行，以实现如上所述的个人贷款偿还风险预测方法。本发明实施例提供一种个人贷款偿还风险预测方法、装置、计算机设备以及介质，其中方法包括：获取待测个人数据；对所述待测个人数据进行预处理；从已处理的待测个人数据中提取多维度特征信息，并根据所提取的多维度特征信息构建训练集；采用决策树算法对所述训练集进行训练生成决策树；获取贷款人的个人数据以构建测试集，并使用所述决策树对所述测试集进行预测，从而得到所述贷款人偿还风险的预测结果。本发明实施例可以减少高额借贷、非法集资行为。附图说明为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。图1是本发明实施例提供的一种个人贷款偿还风险预测方法的示意流程图；图2是本发明实施例提供的一种个人贷款偿还风险预测方法的示意流程图；图3是本发明实施例提供的一种个人贷款偿还风险预测方法的示意流程图；图4是本发明另一实施例提供的一种个人贷款偿还风险预测方法的示意流程图；图5是本发明实施例提供的一种个人贷款偿还风险预测装置的示意性框图；图6是本发明实施例提供的一种个人贷款偿还风险预测装置的另一示意性框图；图7是本发明实施例提供的一种个人贷款偿还风险预测装置的另一示意性框图；图8是本发明实施例提供的一种个人贷款偿还风险预测装置的另一示意性框图；图9是本发明实施例提供的一种计算机设备的结构组成示意图。具体实施方式下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。请参阅图1，图1为本发明实施例提供的一种个人贷款偿还风险预测方法的示意流程图。如图1所示，该方法包括步骤S101～S105。S101，获取待测个人数据。在本发明实施例中，所述获取待测个人数据可以具体保存在数据库中，该数据库可以是ORACLE数据库，所述待测个人数据可以包括但不限于个人的婚姻信息，名下房产信息，年龄，年收入信息，收入增长率，还可以包括其他维度的信息，在本实施例中，可以通过连接ORACLE数据库的方式获取该个人数据，可选的，可以通过JDBC(JavaDataBaseConnectivity，Java数据库连接)方式连接ORACLE数据库，以获取ORACLE数据库中的待测个人数据。S102，对所述待测个人数据进行预处理。在本发明实施例中，所述预处理指的是将待测个人数据进行向量空间模型处理，具体地，所述预处理是将待测个人数据对应的特征信息进行向量空间模型处理，以把特征信息的处理简单化为向量空间中的向量运算，并对特征信息对应的特征向量中的类别特征进行编号，可以提高决策树的分类效果。进一步地，如图2所示，所述步骤S102包括步骤S201～S204。S201，确定所述待测个人数据中的特征信息。在本发明实施例中，该特征信息是指可以用于训练并生成决策树的所需要的待测个人数据，并且该特征信息中在训练并生成决策树的过程中将作为变量进行使用，该特征信息是与离职有关的多个维度的待测个人数据，具体地，该特征信息可以包括但不限于个人的婚姻信息，名下房产信息，年龄，年收入信息，收入增长率。S202，将所确定的特征信息转换为特征向量。在本发明实施例中，将所确定的特征信息进行向量空间模型处理，以把特征信息处理简化为向量空间中的向量运算，例如，全部的特征信息为k1，k2，...，km，其中k1，k2，km分别表示不同的特征信息，则每个特征信息可以表示为如表1所示：表1k1k2...kmY1Y11Y12...Y1m.........YnYn1Yn2...Ynm其中，Yij表示特征信息的权重，1≦i≦n，1≦j≦m，特征信息的权重可以通过有序二元比较量化法进行确定，k1...km表示m个特征向量。需要说明的是，所述有序二元比较量化法将x个目标特征信息进行二元比较重要性定性排序，经过一致性检验判断与调整得到排序一致性二元对比标度矩阵E，根据标度矩阵E各行元素值之和，从大到小排列，得到关于优的排序次数，再以排序第1位的目标作为标准，与其他目标进行重要性程度的比较，可得非归一化目标权向量w'＝w'1,w'2,…,w'p，然后进行归一化计算，即可得目标权向量式w＝w1,w2,…,wp，以满足S203，对所述特征向量进行K邻近平均处理。在本发明实施例中，对特征向量进行K邻近平均处理的具体处理方法为：Li＝{j：xj与xi}类别相同，且是xi的k个邻近点}，ei＝(0,..,1,..,1,..0,..0)，当j∈Li时，特征向量ei的第j个元素为1，否则为0，其中，x‘i表示求取j∈Li的xj的均值，XT表示X的转置，通过对特征向量采用K邻近平均处理，解决了特征向量在类间分布不均的情况。S204，对处理后的特征向量进行编号。在本发明实施例中，使用VectorIndexer算法对特征向量中的类别特征进行编号，具体的做法为：通过设置一个maxCategories(即最大编号数)，对特征向量中某一个特征不重复取值个数小于maxCategories，则被编号为0～H(H≦maxCategories-1)，某一个特征不重复取值个数大于maxCategories，则该特征为连续特征，不会重新进行编号，以达到不重新编号的目的，通过对特征向量进行编号可以提高决策树的分类效果。S103，从已处理的待测个人数据中提取多维度特征信息，并根据所提取的多维度特征信息构建训练集。在本发明实施例中，可以从已处理的待测个人数据中有放回地提取多维度特征信息，所提取的多维度特征信息的数目可以由用户自行决定，在此不作限制，例如所提取的多维度特征信息可以是100个，将所提取的多维度特征信息构成对应的样本，并且多个多维度特征信息构成样本集，根据该样本集构成建训练集，具体地，可以对已处理的待测个人数据进行多次提取，每次提取的多个多维度特征信息构成一个样本集，多次提取的多个多维度特征信息构成多个样本集，多个样本集构建成多个训练集。由于是有放回地随机提取多维度特征信息，不同样本集中的多维度特征信息可以重复，同一个训练集中的多维度特征信息也可以重复，这样可以有效地防止训练结果陷入过拟合。进一步地，如图3所示，所述步骤S103包括步骤S301～S302。S301，从已处理的待测个人数据中，有放回地随机提取预设数目的多维度特征信息构成样本集。在本发明实施例中，该预设数目可以根据实际需要自行定义取值，所提取的次数为至少一次，例如每次从已处理的待测个人数据中有放回地提取100个多维度特征信息，构成对应的样本集。S302，根据所提取的样本集构建所述训练集。在本发明实施例中，例如在一个样本集中包括100个多维度特征信息，将由100个多维度特征信息组成的样本集构成一个训练集，多个样本集构成多个训练集。S104，采用决策树算法对所述训练集进行训练生成决策树。在本发明实施例中，所述决策树算法包括CART算法、ID3算法或者C4.5算法中的任意一种，具体的生成决策树方法可参阅图4所示，包括以下步骤：S401，对所述训练集进行列采样，列数目为m，m＝Sqrt(N)，其中N为多维度特征信息的数量。在本发明实施例中，对所述训练集进行列采样，可以利用采样公式m＝Sqrt(N)进行采样，其中m为列数目，N为多维度特征信息的数量，需要说明的是，每一棵决策树都从训练集中的N个多维度特征信息中随机挑选出m个特征信息作为节点分裂特征来计算，一般情况下m取N的平方根大小。S402，对采样后的多维度特征信息使用完全分裂的方式建立并生成所述决策树。在本发明实施例中，对采样之后的多维度特征信息使用完全分裂的方式建立出决策树，这样所建立的决策树，其某一个叶子节点要么是无法继续分裂的，要么里面的所有样本的都是指向的同一个分类。使用完全分裂的方法为：采用上述的列采样的过程从这m个多维度特征信息中采用某种策略(比如信息增益)来选择1个多维度特征信息作为决策树节点的分裂属性。决策树形成过程中每个节点都要按完全分裂的方式来分裂，一直到不能够再分裂为止(如果下一次该节点选出来的那一个多维度特征信息是刚刚其父节点分裂时用过的多维度特征信息，则该节点已经达到了叶子节点，无须继续分裂了)。例如，我们用LearnUnprunedTree(X,Y)表示生成一棵未剪枝的决策树的过程，以下简写LUT(X,Y)：输入：X是RxM的矩阵，Xij表示第i个训练集的第j个多维度特征信息，Y是Rx1的向量，Yi表示第i个训练集的类别标签。输出：一棵未剪枝的树。如果X的所有多维度特征信息都相同，或Y的所有类别标签相同，或者R<2，则产生一个叶结点，该结点的类别即是X中最多数的类别；否则从M个多维度特征信息中随机挑选m个多维度特征信息，在m个多维度特征信息中，信息增益最大的记为p。如果特征p的取值是非连续的，则对p的任一取值v，用Xv表示多维度特征信息p取值为v的样本，Yv为其对应类别Staffdv＝LUT(Xv,Yv)，返回一个树结点，在特征p处分裂。那么，第v’个员工即是Staffv＝LUT(Xv,Yv)，如果特征p的取值是连续的，设t为最佳分裂阈值，XLO表示特征p的值<t的样本集合，YLO为其对应类别StaffLO＝LUT(XLO,YLO)，XHI表示特征p的值>＝t的训练集，YHI为其对应类别StaffLO＝LUT(XHI,YHI)，返回一个树结点，在特征p处分裂，例如，有2名员工，分别是StaffLO＝LUT(XLO,YLO)和StaffLO＝LUT(XHI,YHI)。S105，获取贷款人的个人数据以构建测试集，并使用所述决策树对所述测试集进行预测，从而得到所述贷款人偿还风险的预测结果。在本发明实施例中，可以从贷款人的个人数据中有放回地提取多维度特征信息，所提取的多维度特征信息的数目可以由用户自行决定，在此不作限制，例如所提取的多维度特征信息可以是100个，将所提取的多维度特征信息构成对应的样本，并且多个多维度特征信息构成样本集，根据该样本集构成测试集，具体地，可以对贷款人的个人数据进行多次提取，每次提取的多个多维度特征信息构成一个样本集，多次提取的多个多维度特征信息构成多个样本集，多个样本集构建成多个测试集。当需要对某个测试集进行预测时，利用所生成的决策树对该测试集进行预测。需要说明的是，预测过程可以为：首先，从所述测试集的多个多维度特征信息中，提取与所述决策树的根节点的分裂特征对应的特征信息，根据该决策树的根节点的分裂条件对提取的特征信息进行判断，以得到根节点的决策结果，如果决策结果满足停止遍历的条件，则输出测试集的预测结果；否则，则根据根节点决策结果确定待遍历的叶子节点，根据所述叶子节点的分裂条件，对所提取的特征信息进行判断，以得到叶子节点的决策结果，如果决策结果满足停止遍历的条件，则输出测试集的预测结果；否则，则根据根节点决策结果确定待遍历的下一个叶子节点；重复上述步骤，直至得到所述测试集的预测结果。由以上可见，本实施例通过获取待测个人数据；对所述待测个人数据进行预处理；从已处理的待测个人数据中提取多维度特征信息，并根据所提取的多维度特征信息构建训练集；采用决策树算法对所述训练集进行训练生成决策树；获取贷款人的个人数据以构建测试集，并使用所述决策树对所述测试集进行预测，从而得到所述贷款人偿还风险的预测结果。本发明实施例可以减少高额借贷、非法集资行为。请参阅图5，对应上述一种个人贷款偿还风险预测方法，本发明实施例还提出一种个人贷款偿还风险预测装置，该装置100包括：获取单元101、预处理单元102、构建单元103、生成单元104、预测单元105。其中，所述获取单元101，用于获取待测个人数据。在本发明实施例中，所述获取待测个人数据可以具体保存在数据库中，该数据库可以是ORACLE数据库，所述待测个人数据可以包括但不限于个人的婚姻信息，名下房产信息，年龄，年收入信息，收入增长率，还可以包括其他维度的信息，在本实施例中，可以通过连接ORACLE数据库的方式获取该个人数据，可选的，可以通过JDBC(JavaDataBaseConnectivity，Java数据库连接)方式连接ORACLE数据库，以获取ORACLE数据库中的待测个人数据。预处理单元102，用于对所述待测个人数据进行预处理。在本发明实施例中，所述预处理指的是将待测个人数据进行向量空间模型处理，具体地，所述预处理是将待测个人数据对应的特征信息进行向量空间模型处理，以把特征信息的处理简单化为向量空间中的向量运算，并对特征信息对应的特征向量中的类别特征进行编号，可以提高决策树的分类效果。构建单元103，用于从已处理的待测个人数据中提取多维度特征信息，并根据所提取的多维度特征信息构建训练集。在本发明实施例中，可以从已处理的待测个人数据中有放回地提取多维度特征信息，所提取的多维度特征信息的数目可以由用户自行决定，在此不作限制，例如所提取的多维度特征信息可以是100个，将所提取的多维度特征信息构成对应的样本，并且多个多维度特征信息构成样本集，根据该样本集构成建训练集，具体地，可以对已处理的待测个人数据进行多次提取，每次提取的多个多维度特征信息构成一个样本集，多次提取的多个多维度特征信息构成多个样本集，多个样本集构建成多个训练集。由于是有放回地随机提取多维度特征信息，不同样本集中的多维度特征信息可以重复，同一个训练集中的多维度特征信息也可以重复，这样可以有效地防止训练结果陷入过拟合。生成单元104，用于采用决策树算法对所述训练集进行训练生成决策树。在本发明实施例中，所述决策树算法包括CART算法、ID3算法或者C4.5算法中的任意一种，如图6所示，所述生成单元104具体包括：列采样单元1041，用于对所述训练集进行列采样，列数目为m，m＝Sqrt(N)，其中N为多维度特征信息的数量。在本发明实施例中，对所述训练集进行列采样，可以利用采样公式m＝Sqrt(N)进行采样，其中m为列数目，N为多维度特征信息的数量，需要说明的是，每一棵决策树都从训练集中的N个多维度特征信息中随机挑选出m个特征信息作为节点分裂特征来计算，一般情况下m取N的平方根大小。生成子单元1042，用于对采样后的多维度特征信息使用完全分裂的方式建立并生成所述决策树。在本发明实施例中，对采样之后的多维度特征信息使用完全分裂的方式建立出决策树，这样所建立的决策树，其某一个叶子节点要么是无法继续分裂的，要么里面的所有样本的都是指向的同一个分类。使用完全分裂的方法为：采用上述的列采样的过程从这m个多维度特征信息中采用某种策略(比如信息增益)来选择1个多维度特征信息作为决策树节点的分裂属性。决策树形成过程中每个节点都要按完全分裂的方式来分裂，一直到不能够再分裂为止(如果下一次该节点选出来的那一个多维度特征信息是刚刚其父节点分裂时用过的多维度特征信息，则该节点已经达到了叶子节点，无须继续分裂了)。例如，我们用LearnUnprunedTree(X,Y)表示生成一棵未剪枝的决策树的过程，以下简写LUT(X,Y)：输入：X是RxM的矩阵，Xij表示第i个训练集的第j个多维度特征信息，Y是Rx1的向量，Yi表示第i个训练集的类别标签。输出：一棵未剪枝的树。如果X的所有多维度特征信息都相同，或Y的所有类别标签相同，或者R<2，则产生一个叶结点，该结点的类别即是X中最多数的类别；否则从M个多维度特征信息中随机挑选m个多维度特征信息，在m个多维度特征信息中，信息增益最大的记为p。如果特征p的取值是非连续的，则对p的任一取值v，用Xv表示多维度特征信息p取值为v的样本，Yv为其对应类别Staffdv＝LUT(Xv,Yv)，返回一个树结点，在特征p处分裂。那么，第v’个员工即是Staffv＝LUT(Xv,Yv)，如果特征p的取值是连续的，设t为最佳分裂阈值，XLO表示特征p的值<t的样本集合，YLO为其对应类别StaffLO＝LUT(XLO,YLO)，XHI表示特征p的值>＝t的训练集，YHI为其对应类别StaffLO＝LUT(XHI,YHI)，返回一个树结点，在特征p处分裂，例如，有2名员工，分别是StaffLO＝LUT(XLO,YLO)和StaffLO＝LUT(XHI,YHI)。预测单元105，用于获取贷款人的个人数据以构建测试集，并使用所述决策树对所述测试集进行预测，从而得到所述贷款人偿还风险的预测结果。在本发明实施例中，可以从贷款人的个人数据中有放回地提取多维度特征信息，所提取的多维度特征信息的数目可以由用户自行决定，在此不作限制，例如所提取的多维度特征信息可以是100个，将所提取的多维度特征信息构成对应的样本，并且多个多维度特征信息构成样本集，根据该样本集构成测试集，具体地，可以对贷款人的个人数据进行多次提取，每次提取的多个多维度特征信息构成一个样本集，多次提取的多个多维度特征信息构成多个样本集，多个样本集构建成多个测试集。当需要对某个测试集进行预测时，利用所生成的决策树对该测试集进行预测。需要说明的是，预测过程可以为：首先，从所述测试集的多个多维度特征信息中，提取与所述决策树的根节点的分裂特征对应的特征信息，根据该决策树的根节点的分裂条件对提取的特征信息进行判断，以得到根节点的决策结果，如果决策结果满足停止遍历的条件，则输出测试集的预测结果；否则，则根据根节点决策结果确定待遍历的叶子节点，根据所述叶子节点的分裂条件，对所提取的特征信息进行判断，以得到叶子节点的决策结果，如果决策结果满足停止遍历的条件，则输出测试集的预测结果；否则，则根据根节点决策结果确定待遍历的下一个叶子节点；重复上述步骤，直至得到所述测试集的预测结果。由以上可见，本实施例通过获取待测个人数据；对所述待测个人数据进行预处理；从已处理的待测个人数据中提取多维度特征信息，并根据所提取的多维度特征信息构建训练集；采用决策树算法对所述训练集进行训练生成决策树；获取贷款人的个人数据以构建测试集，并使用所述决策树对所述测试集进行预测，从而得到所述贷款人偿还风险的预测结果。本发明实施例可以减少高额借贷、非法集资行为。如图7所示，所述预处理单元102，包括：确定单元1021，用于确定所述待测个人数据中的特征信。在本发明实施例中，该特征信息是指可以用于训练并生成决策树的所需要的待测个人数据，并且该特征信息中在训练并生成决策树的过程中将作为变量进行使用，该特征信息是与离职有关的多个维度的待测个人数据，具体地，该特征信息可以包括但不限于个人的婚姻信息，名下房产信息，年龄，年收入信息，收入增长率。转换单元1022，用于将所确定的特征信息转换为特征向量。在本发明实施例中，将所确定的特征信息进行向量空间模型处理，以把特征信息处理简化为向量空间中的向量运算，例如，全部的特征信息为k1，k2，...，km，其中k1，k2，km分别表示不同的特征信息，则每个特征信息可以表示为如表2所示：表2k1k2...kmY1Y11Y12...Y1m.........YnYn1Yn2...Ynm其中，Yij表示特征信息的权重，1≦i≦n，1≦j≦m，特征信息的权重可以通过有序二元比较量化法进行确定，k1...km表示m个特征向量。需要说明的是，所述有序二元比较量化法将x个目标特征信息进行二元比较重要性定性排序，经过一致性检验判断与调整得到排序一致性二元对比标度矩阵E，根据标度矩阵E各行元素值之和，从大到小排列，得到关于优的排序次数，再以排序第1位的目标作为标准，与其他目标进行重要性程度的比较，可得非归一化目标权向量w'＝w'1,w'2,…,w'p，然后进行归一化计算，即可得目标权向量式w＝w1,w2,…,wp，以满足处理单元1023，用于对所述特征向量进行K邻近平均处理。在本发明实施例中，对特征向量进行K邻近平均处理的具体处理方法为：Li＝{j：xj与xi}类别相同，且是xi的k个邻近点}，ei＝(0,..,1,..,1,..0,..0)，当j∈Li时，特征向量ei的第j个元素为1，否则为0，其中，x‘i表示求取j∈Li的xj的均值，XT表示X的转置，通过对特征向量采用K邻近平均处理，解决了特征向量在类间分布不均的情况。编号单元1024，用于对处理后的特征向量进行编号。在本发明实施例中，使用VectorIndexer算法对特征向量中的类别特征进行编号，具体的做法为：通过设置一个maxCategories(即最大编号数)，对特征向量中某一个特征不重复取值个数小于maxCategories，则被编号为0～H(H≦maxCategories-1)，某一个特征不重复取值个数大于maxCategories，则该特征为连续特征，不会重新进行编号，以达到不重新编号的目的，通过对特征向量进行编号可以提高决策树的分类效果。如图8所示，所述构建单元103，包括：提取单元1031，用于从已处理的待测个人数据中，有放回地随机提取预设数目的多维度特征信息构成样本集。在本发明实施例中，该预设数目可以根据实际需要自行定义取值，所提取的次数为至少一次，例如每次从已处理的待测个人数据中有放回地提取100个多维度特征信息，构成对应的样本集。构建子单元1032，用于根据所提取的样本集构建所述训练集。在本发明实施例中，例如在一个样本集中包括100个多维度特征信息，将由100个多维度特征信息组成的样本集构成一个训练集，多个样本集构成多个训练集。上述员工离职风险预测装置可以实现为一种计算机程序的形式，计算机程序可以在如图9所示的计算机设备上运行。图9为本发明一种计算机设备的结构组成示意图。该设备可以是终端，也可以是服务器，其中，终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式装置等具有通信功能的电子装置。服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。参照图9，该计算机设备500包括通过系统总线501连接的处理器502、非易失性存储介质503、内存储器504和网络接口505。其中，该计算机设备500的非易失性存储介质503可存储操作系统5031和计算机程序5032，该计算机程序5032被执行时，可使得处理器502执行一种个人贷款偿还风险预测方法。该计算机设备500的处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序被处理器执行时，可使得处理器502执行一种个人贷款偿还风险预测方法。计算机设备500的网络接口505用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。其中，所述处理器502执行所述计算机程序时实现如下操作：获取待测个人数据；对所述待测个人数据进行预处理；从已处理的待测个人数据中提取多维度特征信息，并根据所提取的多维度特征信息构建训练集；采用决策树算法对所述训练集进行训练生成决策树；获取贷款人的个人数据以构建测试集，并使用所述决策树对所述测试集进行预测，从而得到所述贷款人偿还风险的预测结果。在一个实施例中，所述对所述待测个人数据进行预处理，包括：确定所述待测个人数据中的特征信息；将所确定的特征信息转换为特征向量；对所述特征向量进行K邻近平均处理；对处理后的特征向量进行编号。在一个实施例中，所述从已处理的待测个人数据中提取多维度特征信息，并根据所提取的多维度特征信息构建训练集，包括：从已处理的待测个人数据中，有放回地随机提取预设数目的多维度特征信息构成样本集；根据所提取的样本集构建所述训练集。在一个实施例中，所述采用决策树算法对所述训练集进行训练生成决策树，包括：对所述训练集进行列采样，列数目为m，m＝Sqrt(N)，其中N为多维度特征信息的数量；对采样后的多维度特征信息使用完全分裂的方式建立并生成所述决策树。在一个实施例中，所述决策树算法包括CART算法、ID3算法或者C4.5算法中的任意一种。本领域技术人员可以理解，图9中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图9所示实施例一致，在此不再赘述。本发明提供了一种计算机可读存储介质，计算机可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序可被一个或者一个以上的处理器执行，以实现以下步骤：获取待测个人数据；对所述待测个人数据进行预处理；从已处理的待测个人数据中提取多维度特征信息，并根据所提取的多维度特征信息构建训练集；采用决策树算法对所述训练集进行训练生成决策树；获取贷款人的个人数据以构建测试集，并使用所述决策树对所述测试集进行预测，从而得到所述贷款人偿还风险的预测结果。在一个实施例中，所述对所述待测个人数据进行预处理，包括：确定所述待测个人数据中的特征信息；将所确定的特征信息转换为特征向量；对所述特征向量进行K邻近平均处理；对处理后的特征向量进行编号。在一个实施例中，所述从已处理的待测个人数据中提取多维度特征信息，并根据所提取的多维度特征信息构建训练集，包括：从已处理的待测个人数据中，有放回地随机提取预设数目的多维度特征信息构成样本集；根据所提取的样本集构建所述训练集。在一个实施例中，所述采用决策树算法对所述训练集进行训练生成决策树，包括：对所述训练集进行列采样，列数目为m，m＝Sqrt(N)，其中N为多维度特征信息的数量；对采样后的多维度特征信息使用完全分裂的方式建立并生成所述决策树。在一个实施例中，所述决策树算法包括CART算法、ID3算法或者C4.5算法中的任意一种。本发明前述的存储介质包括：磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)等各种可以存储程序代码的介质。本发明所有实施例中的单元可以通过通用集成电路，例如CPU(CentralProcessingUnit，中央处理器)，或通过ASIC(ApplicationSpecificIntegratedCircuit，专用集成电路)来实现。本发明实施例个人贷款偿还风险预测方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例个人贷款偿还风险预测装置中的单元可以根据实际需要进行合并、划分和删减。以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本
技术领域：
的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。当前第1页1 2 3

完整全部详细技术资料下载

当前第1页 1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：袁浩
技术所有人：中国平安人寿保险股份有限公司
我是此专利的发明人

上一篇：一种多功能智能花盆的制作方法
上一篇：一种家庭生活垃圾无害化处理系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。