浪潮NF5568M4助力猿题库深度学习应用

首页 > 解决方案 > 企业解决方案 > 互联网 > 案例

客户信息

摘要

项目背景

方案概述

详细解决方案

客户收益

马上获取定制方案

客户信息

猿题库
网站：http://www.yuantiku.com/
组织规模：
行业：

摘要

项目背景

　　浪潮倚天系列产品NF5568M4基于最新Intel Haswell EP-2600V3平台，用于构建面向GPU异构超算、Intel MIC微异构计算及NVidia Grid虚拟工作站解决方案。浪潮倚天超算提供优异的计算性能、稳定的可靠性以及超高 IO 扩展能力，适用于生命科学、数据分析、金融计算、量化计算、石油能源、气候气象、工程科学、可视化、互联网深度学习、机器学习等应用领域，以及高端虚拟工作站应用。

　　项目分析

　　猿题库是中国首个智能在线题库服务提供商，基于大数据应用的在线教育平台。

　　2013年2月，在线教育平台粉笔网推出新产品猿题库(yuantiku.com)，猿题库提供了一个革命性的学习产品。提供历年考试最权威真题供考生练习，还能根据考生的水平一对一智能出题考生只要在猿题库上开始答题练习，系统就会清晰的告诉他当前的能力水平、他的薄弱考点有哪些、如果参加今年考试预计能得多少分以及接下来需要做什么题目。相对于传统的复习备考，这种在线智能做题的备考方式将大幅提升复习效率和效果。

　　这是猿题库基于大数据的分析及人工智能算法等多项专利技术而实现的。

　　业务应用

　　猿题库需要采购高性能，高效，稳定的服务器，可以提供高性能的并行计算能力，作为其深度学习模型训练和人工智能应用的核心IT硬件。猿题库深度学习训练和应用模型主要分为两种:卷积神经网络模型和递归神经网络模型，这两种神经网络法都是参考人类神经网络的仿生学计算方法，将大量的数据源通过神经网络法计算之后得到符合需求的模型为最终的使用提供服务。

　　在模型训练及应用阶段面临大量的技术问题的挑战，总结下来至少有以下几个方面：

　　1）每天千万张级别的图片搜索请求；

　　2）每天十个亿级别的ORC识别（将图像转换为计算机文字的过程）；

　　3）数理化复杂公式的识别

　　4）手写内容识别

　　5）模糊/扭曲/明暗图片问题的修正

　　对于图像转换为文字的过程大概分为：图像预处理，图像切分，匹配，纠错和搜索。对于这几个问题里最大的挑战在于手写内容的识别和复杂公式的识别。

　　由于每个人的手写习惯不同，识别手写体成为了图像预处理和切分之后首先要面临的挑战，通过大量的样本找到手写习惯的共同特征，如习惯向右倾斜着写或者中文之间没有空格等。

　　然而不管是在基础教育阶段，还是高等教育阶段，数学总是让人觉得永无止境的难度学科。所以，在搜题请求里，有超过一半的搜索请求都是与数学有关，这就意味着有大量的复杂公式需要识别，比如根号，、分式、上下标的各种组合。这不仅要进行正确的切分，还需要有合理的匹配识别。

方案概述

详细解决方案

　　根据对客户需求的分析，为了实现并行计算的高性能、高可靠、高可用的特性，提高深度模型训练速、效果和线上服务的稳定可靠，降低日常运维成本，我们采用NF5568M4作为其人工智能应用的基础硬件平台。NF5568M4是专为计算而设计的超算服务器，最大化精简了不必要的功能，并针对高性能并行计算增加相应的功能和优化，为用户提供了更为稳定、可靠的计算平台。

　　产品优势:

　　(1)支持GPGPU异构计算架构

　　倚天超算引入GPU计算单元,突破了单一CPU计算单元的限制,采用Intel最新Haswell处理器与NVIDIA GPU加速计算技术的协同,CPU和GPU协同计算,CPU主要承担更加擅长的逻辑选择、判断跳转和IO通信方面的职责,而GPU则专职计算密集型、高度并行的计算工作,使得计算资源合理的分配,计算力被充分释放,计算性能达到从几倍到几百倍的增长.

　　(2)支持Intel MIC微异构

　　倚天超算引入MIC微异构计算单元,微异构计算单元保持了与CPU编程的最大复用.至强处理器是传统多核心CPU,而至强融核协处理器MIC则拥有众多的微内核,这些内核与CPU拥有相同的x86架构,可以在相同的编程环境下,甚至几乎不用改动原有代码就可以在系统上顺利运行.

　　(3)支持基于Grid技术的虚拟工作站

　　倚天超算是构建高性能虚拟工作站的基础平台,将Nvidia Grid技术、虚拟桌面技术完美融合于浪潮倚天产品,给桌面提供专业的图形计算支持,并通过云端随时随地无缝地提供给任意设备,用户不仅得以充分体验安全、可管理、灵活的虚拟化优势,更能尊享媲美本地体验的互动性能.

　　(4)协调处理单元间高速IO交换技术

　　浪潮倚天为加速卡提供高速PCI-E3.0连接, 确保所有板卡在全速IO速率运行.相对于传统PCI总线在单一时间周期内只能实现单向传输,PCI-E的双单工连接能提供更高的传输速率和质量,它们之间的差异与半双工和全双工类似.浪潮倚天采用了PCI-E 3.0 x16,带宽达到32GB/s.

　　(5)采用Intel最新的QPI技术

　　为了更好的发挥CPU和GPU的协同效应,浪潮“倚天”桌面超级计算机采用了Intel 公司的QPI(Quick Path Interconnect)技术,最大可以实现高达9.6GT/s的传输速率,使通信更加迅捷.QPI总线实现了多核处理器内部的直接互联,在多处理器作业下,每颗处理器可以互相传送资料,并不需要经过芯片组,从而大幅提升整体系统性能.

　　(6)CUDA编程环境

　　在GPU环境下,采用CUDA(Compute Unified Device Architecture)通用并行计算架构使GPU能够解决复杂的计算问题.它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎.开发人员现在可以使用C语言来为CUDA™架构编写程序,C语言是应用最广泛的一种高级编程语言.

　　(7)微异构编程环境

　　在MIC微异构环境下,采用与Intel通用编程环境相同的编译环境,可以采用Intel Cluster Studio工具包进行统一软件环境的安装、调试等工作.Intel Cluster Studio工具包括了C/C++/Fortran编译器、MKL数学库、MPI通讯库、Inspector线程检查工具、Vtune调优工具等.

客户收益

　　可靠&安全：

　　深度学习模型训练及应用支持，是在大量数据源在并行算法下进行多层次、连续性迭代计算的应用。并行计算平台的稳定和安全是整个深度学习计算能否完成的必备保障，是人工智能能力的关键组成部分，是典型的关键性应用。浪潮NF5568M4通过最全面的实际测试和大量的行业应用，并经过严格的测试和验证，实时监控保障系统7*24小时不间断的运行。NF5568M4在上一代互联网行业大客户占有率100%的NF5588M3基础上进行全方位优化升级，进一步提高单机并行计算能力，降低了每计算核心TCO。

　　高效&经济

　　GPU卡的密集程度从某种程度上影响着深度学习的效果，在一开始我们就为猿题库提供了业内GPU密集度最高的NF5568M4超算服务器。在相同CPU计算能力下，该服务器的GPU配置数量比业内平均水平高出50%，并且最高支持的单卡计算能力比业内主流水准高出50%。在每台机器均具有“一机多卡”的GPU集群搭建能力，在配置高性能网卡情况下，可支持业内最高标准的“多机多卡”深度学习集群的组建，后期扩展性能强大。

　　通过合理的计算硬件选型，在线下模型训练时可以将训练时间提升5-6倍，而线上预测速度也得到2-4倍的提升，再经过语言模型的纠错，小猿搜题最终实现题目拍照之后“秒懂你的心”的效果。