如何选择大数据的编程语言?
选择大数据项目编程语言的最重要因素是目究竟项目偏向于什么。如果是更加侧重于分析数据,构建分析并测试机器学习模型,那么更偏向于数据科学语言。如果是希望构建大数据或物联网(IoT)应用程序,那么选择又需要考虑其他因素.
在数据科学探索和开发阶段,今天最流行的语言无疑是Python。Python流行的一个重要原因是可用于帮助数据科学家探索大数据集的大量工具和库。另外Python本身就是一门通用语言,实用型强.
另一种流行的数据科学语言是R,长期以来一直是数学家,统计学家和科学家的最爱。MATLAB也广泛用于大数据的探索和发现阶段。另外如果不了解SQL,也无法在数据科学方面走得太远,这仍然是一种非常有用的语言。
在开发生产分析和物联网应用程序时,通常会选择不同的语言集。虽然可能在项目的实验阶段选择Python或R,但实施通常会重写应用程序并使用完全不同的语言重新实现机器学习算法。
Java仍然是一个非常受欢迎的选择,因为世界上有大量的Java开发人员,以及一些流行的框架,如Apache Hadoop,是用Java开发的。Scala在Java虚拟机(JVM)中运行,也广泛用于数据科学; Apache Spark是用Scala编写的,Apache Flink是用Java和Scala编写的。但是,对于某些生产应用程序,开发人员仍然倾向于低级语言。当速度和延迟很重要时,许多开发人员转向使用C和C ++来获得他们想要的东西。
使用C / C ++这样的低级语言可以比使用自动内存管理的语言更严格地控制应用程序的内存和性能.一个编写良好的C ++程序,对内存访问模式和机器的体系结构有深入的了解,可以比依赖于垃圾收集的Java程序快几倍。出于这些原因,许多具有巨大可伸缩性和性能要求的企业开发人员倾向于在其服务器应用程序中使用C / C ++而不是Java。
总之,究竟选择何种大数据相关编程语言,还是要根据具体目标选择.对于性能有着苛刻的要求,就偏向于低级语言.如果偏向于数据分析和探索Python和R比较适合。Java以其强大的生态和不错的性能,也是一个可能的选择.
Copyright © 广州京杭网络科技有限公司 2005-2024 版权所有 粤ICP备16019765号
广州京杭网络科技有限公司 版权所有