在我们在 CodeGym 的文章中,我们不厌其烦地提到,25 岁的 Java 正在重新流行起来,在不久的将来前景广阔。有几个原因。其中之一是 Java 是几个正在迅速普及的趋势 IT 市场利基中的主要编程语言。
物联网(IoT)和大数据,以及商业智能(BI)和实时分析在对Java的深情和柔情中被提及最多。最近,我们探讨了Java与物联网的关系并讨论了 Java 开发人员如何根据这一领域调整自己的技能。现在我们将注意力转移到另一个超级热门领域——你猜对了——它也喜欢 Java 并且离不开它。因此,今天我们将探讨以下与大数据相关的问题:为什么 Java 以及忠实的 Java 编码员在这个利基市场中也超级受欢迎?Java在大数据项目中到底是怎么用的?为了有资格在这个利基市场就业,你应该学习什么?大数据的当前趋势是什么?在所有这一切之间,我们将了解世界顶级专家对大数据的看法,这甚至会让荷马·辛普森也想与大数据打交道。


https://ru.wikipedia.org/wiki/Homer_Goes_to_College
“我一直说未来十年最性感的工作将是统计学家。人们认为我在开玩笑,但谁会想到计算机工程师会成为 1990 年代最性感的工作?”
大数据正在征服地球
但首先,要了解一下大数据,以及为什么这个利基市场对建立职业生涯如此有前途。简而言之,大数据正在不可阻挡地、稳定地并且(最重要的)非常迅速地进入世界各地公司的业务流程。反过来,这些公司被迫寻找数据科学专业人士(当然不仅仅是程序员),以高薪和其他津贴来吸引他们。据《福布斯》报道,企业对大数据的使用有所增加从 2015 年的 17% 到 2018 年的 59%。大数据正在迅速传播到经济的各个领域,包括销售、营销、研发、物流以及其他所有领域。根据 IBM 的研究,到 2020 年,仅在美国,该领域专业人士的工作岗位就将超过 270 万个。有希望?你打赌。大数据和Java
那么,为什么大数据和 Java 有这么多共同点呢?问题是许多用于大数据的主要工具都是用 Java 编写的。更重要的是,几乎所有这些工具都是开源项目。这意味着它们可供所有人使用,因此被全球最大的 IT 公司积极使用。“在很大程度上,大数据是 Java。Hadoop 和 Hadoop 生态系统的很大一部分是用 Java 编写的。Hadoop 的原生 MapReduce 接口是 Java。因此,只需构建运行在其上的 Java 解决方案,您就可以轻松地进入大数据领域的 Hadoop。还有像 Cascading 这样的 Java 库,它使工作更容易。即使你使用像 Hive 这样的东西,Java 对于调试也非常有用。” 说Eight 的数据科学家兼数据开发副总裁 Marcin Mejran。“除了 Hadoop,Storm 是用 Java 编写的,而 Spark(即:可以说是 hadoop 计算的未来)是用 Scala 编写的(它运行在 JVM 上,而 Spark 具有 Java 接口)。因此 Java 涵盖了大数据空间的很大一部分, "专家补充道。如您所见,Java 知识在大数据、物联网、机器学习和其他几个持续流行的领域中将是不可替代的。“未来每家公司都有大数据,每家公司最终都会做数据业务。”现在再详细介绍前面提到的被 Java 开发人员广泛使用的大数据工具。
阿帕奇Hadoop
Apache Hadoop 是大数据的基础技术之一,它是用 Java 编写的。Hadoop 是由 Apache Software Foundation 管理的免费、开源的实用程序、库和框架套件。Hadoop 最初是为可伸缩、分布式和容错计算以及存储大量各种信息而创建的,自然而然地成为许多公司大数据基础架构的核心。世界各地的公司都在积极寻找 Hadoop 专家,而 Java 是掌握这项技术所需的关键技能。据Slashdot 上的开发人员称, 2019年,包括JPMorgan Chase在内的多家大公司凭借其创纪录的程序员薪酬,在Hadoop World大会上积极寻找Hadoop专家,但即便如此,也找不到足够多的具备必要技能(尤其是知识方面的专家)的专家。 Hadoop MapReduce 编程模型和框架)。这意味着该领域的薪水将增长更多。而且它们已经很大了。特别是,据 Business Insider 估计,Hadoop 专家的平均年薪为 103,000 美元,而大数据专家的平均年薪为 106,000 美元。寻找 Hadoop 专家的招聘人员强调 Java 是成功就业的最重要技能之一。Hadoop 长期以来一直被许多大公司使用或最近才被引入,包括 IBM、Microsoft 和 Oracle。眼下,“哪里有数据烟雾,哪里就有商业火种。”
阿帕奇星火
Apache Spark 是另一个重要的大数据平台,是 Hadoop 的有力竞争对手。由于它为开发人员提供的速度、灵活性和便利性,Apache Spark 正在成为 SQL、数据包交换和流数据以及机器学习的大规模开发的领先环境。Apache Spark 作为分布式大数据处理的框架,其工作原理与Hadoop MapReduce 框架非常相似,正在逐渐夺走MapReduce 在大数据领域的霸主地位。Spark 可以以多种不同的方式使用。它有一个用于 Java 的 API 以及其他几种编程语言,例如 Scala、Python 和 R。如今,Spark 被银行、电信公司、视频游戏开发商甚至政府广泛使用。自然地,Apple、Facebook、IBM 和 Microsoft 等 IT 巨头都喜欢 Apache Spark。阿帕奇象夫
Apache Mahout 是 Apache 的开源 Java 机器学习库。它是一种可扩展的机器学习工具,可以在一台或多台机器上处理数据。机器学习实现是用 Java 编写的,有些部分是在 Apache Hadoop 上构建的。阿帕奇风暴
Apache Storm 是一个用于实时分布式流处理的框架。Storm 简化了无限数据流的容错处理,实时完成 Hadoop 对数据包所做的工作。Storm 与任何队列系统和任何数据库系统集成。Java JFreeChart
Java JFreeChart 是一个用 Java 开发的开源库,设计用于在基于 Java 的应用程序中创建各种图表。事实上,数据可视化对于成功分析大数据非常重要。由于大数据涉及处理大量数据,因此很难通过查看原始数据来确定趋势甚至得出特定结论。但是,如果将相同的数据显示在图表中,就会变得更容易理解。更容易找到模式并识别相关性。碰巧,Java JFreeChart 有助于创建用于大数据分析的图形和图表。Deeplearning4j
Deeplearning4j 是一个用于构建各种类型的神经网络的 Java 库。Deeplearning4j 使用 Java 实现并在 JVM 中运行。它还与 Clojure 兼容,并包含一个用于 Scala 语言的 API。Deeplearning4j 包括受限玻尔兹曼机、深度信念网络、深度自动编码器、堆叠降噪自动编码器、递归神经张量网络、word2vec、doc2vec 和 GloVe 的实现。“数据正在成为商业的新原材料。”
2020年门槛上的大数据:最新鲜的趋势
2020年应该又是大数据快速发展和演进的一年,大数据在各个领域的企业和组织得到广泛应用。因此,让我们简要介绍一下明年应该发挥重要作用的大数据趋势。
https://www.arnnet.com.au/slideshow/553034/pictures-our-10-favourite-techie-simpsons-episodes-moments/
物联网——大数据越来越大
物联网 (IoT) 似乎离题,但事实并非如此。物联网继续“趋势”,因为它获得动力并在世界范围内传播。因此,安装在家庭和办公室中的“智能”设备的数量也在增长。正如他们应该的那样,这些设备正在将各种数据发送到需要去的地方。这意味着大数据量只会增长。据专家称,许多组织已经拥有大量数据,主要来自物联网,但他们并未做好充分准备使用这些数据。2020年,这场数据雪崩将变得更大。因此,大数据项目的投资也将快速增长。请记住,物联网也非常喜欢 Java。谁不喜欢它?数字孪生
数字孪生是另一个与物联网和大数据直接相关的有趣趋势。因此,Java 将在这里得到大量使用。什么是数字孪生?这是真实对象或系统的数字复制品。物理设备的数字模拟使得模拟真实对象的内部过程、技术特性和在干扰及其环境影响下的行为成为可能。如果真实设备中没有大量传感器并行工作,数字孪生就无法运行。到 2020 年,预计全球将有超过 200 亿个互联传感器为数十亿数字孪生传输信息。到 2020 年,这种趋势应该会获得动力并脱颖而出。数字化转型将变得更有目的性。
多年来,数字化转型一直被视为一个重要趋势。但专家表示,许多公司和高层管理人员甚至对这个词的含义都极为模糊。对于许多人来说,数字化转型意味着想方设法出售公司收集的数据,以产生新的收入来源。到 2020 年,越来越多的公司意识到数字化转型就是通过在业务的各个方面正确使用数据来创造竞争优势。这意味着我们可以预期公司将增加与正确和知情地使用数据相关的项目的预算。“我们正在慢慢进入一个以大数据为起点而非终点的时代。”
GO TO FULL VERSION