益弘学院排行：加速数据科学的新方式- 南方企业新闻网

益弘学院排行：加速数据科学的新方式
2020年12月22日来源：北国网

提要：随着深度学习、机器学习和AI的火热，机器学习模型也会越来越大，它的训练已经呈指数级增长，但是摩尔定律并没有追上机器学习模型训练发展的速度。

益弘学院排行是什么？益弘学院排行在哪里看？益弘学院排行怎么样？说到加速数据科学的新方式，就不得不说什么是数据科学，以下是维基的定义：

数据科学通过运用各种相关的数据来帮助非专业人士来理解问题。第一，它的目标是从数据中提取输入价值的部分，第二，它要生产数据产品，第三它结合了非常多重要的技术，包括数学、统计、机器学习、可视化，最后，它需要真正解决问题。

它包含三个方面，计算机科学、数学和统计、领域和商业知识。它们结合起来分别是机器学习、软件开发和传统研究，中间是数据科学。

数据科学技术栈包含语言、数据分析、数据工程、机器学习、Web开发、运维和商业智能。每个技术栈都包含不同的工具，提供不同的数据服务。

传统Python数据科学栈的三大底座是NumPy、Pandas和SciPy。NumPy是最核心的部分，它用来做数值计算，几乎其他所有Python的数据科学技术栈都建立在NumPy上，因为它有最基础的数据结构，也就是多维数组；另外，Pandas也用NumPy实现，它上面有很多API来进行分析操作；而SciPy主要负责科学计算。在此基础上，是机器学习和可视化，同时还有丰富的Python函数。

上面是Python数据科学技术栈整体的状况，他们有几大好处，比如广泛使用，是事实标准；上手成本低，容易为初学者和学生入门；和语言结合紧密，能用Python来组织函数调用。但是它们都是单机的库，不能处理很大的数据量，所以需要用到大数据的数据工程技术栈，比如Hadoop、Hive、Spark等。它们虽然支持多语言，没有强绑定，但是学习门槛比较陡峭，也需要对系统本身有足够的了解。做数据科学需要把精力放在数据本身，而不是工具，但是这几个库让工作围绕着库展开，而非数据。因此，我们是否能把这两个工作连接起来，利用传统的技术价值而不是关注大数据系统本身，来解决很多问题。

现在大家说摩尔定律已经失效，我们可以回顾一下它的历史。早期它通过复杂指令集和精简指令集的方式让速度提升，但是随着缩放比例定律和阿姆达尔定律的终结，未来是不是要20年才能达到2倍效率的提升呢？

另外随着深度学习、机器学习和AI的火热，机器学习模型也会越来越大，它的训练已经呈指数级增长，但是摩尔定律并没有追上机器学习模型训练发展的速度。

另外一个现状就是技术栈的问题，NumPy、Pandas等它们更多只能在单核上来应用计算，但是阿姆达尔定律下的核数是会越来越多，所以并没有很好地进行利用。同时，不管是计算量还是数据规模的增长速度，都超过了摩尔定律的速度，所以也不能用单机解决问题。

基于以上，加速数据科学主要有两种方式。第一是Scale up，利用多核和更好的硬件，比如GPU、FPGA和TPU等，以及现有的库，包括Modin、CuPy、Rapids等来提升效率。第二是 Scale out，利用分布式的方式来加速，因为单核的性能总归是有限的，可以利用Ray、Dask和Modin等。而结合Scale up和Scale out，就可以构建一个大规模的更好的硬件集成，比如今天介绍的加速数据科学的新方式Mars。

首先Mars是完全开源的项目，完全遵循开源的规范，而且项目的progress都能在GitHub上看到；其次Mars有兼容性，它的API高度兼容NumPy、Pandas和Scikit-learn；同时，它的单机、多核与分布式的处理性能也更高；最后是交互性，Mars Remote可以把以前的代码变成分布式代码，并且内部也可以与第三方库做集成。

（本文章来源网络转载，文中涉及图片等内容如有侵权，请联系编辑删除。市场有风险，选择需谨慎！此文不作买卖及投资依据。）

责任编辑：雨燕