在我們在 CodeGym 的文章中,我們不厭其煩地提到,25 歲的 Java 正在重新流行起來,在不久的將來前景廣闊。有幾個原因。其中之一是 Java 是幾個正在迅速普及的趨勢 IT 市場利基中的主要編程語言。
物聯網(IoT)和大數據,以及商業智能(BI)和實時分析在對Java的深情和柔情中被提及最多。最近,我們探討了Java與物聯網的關係並討論了 Java 開發人員如何根據這一領域調整自己的技能。現在我們將注意力轉移到另一個超級熱門領域——你猜對了——它也喜歡 Java 並且離不開它。因此,今天我們將探討以下與大數據相關的問題:為什麼 Java 以及忠實的 Java 編碼員在這個利基市場中也超級受歡迎?Java在大數據項目中到底是怎麼用的?為了有資格在這個利基市場就業,你應該學習什麼?大數據的當前趨勢是什麼?在所有這一切之間,我們將了解世界頂級專家對大數據的看法,這甚至會讓荷馬·辛普森也想與大數據打交道。


https://ru.wikipedia.org/wiki/Homer_Goes_to_College
“我一直說未來十年最性感的工作將是統計學家。人們認為我在開玩笑,但誰會想到計算機工程師會成為 1990 年代最性感的工作?”
大數據正在征服地球
但首先,要了解一下大數據,以及為什麼這個利基市場對建立職業生涯如此有前途。簡而言之,大數據正在不可阻擋地、穩定地並且(最重要的)非常迅速地進入世界各地公司的業務流程。反過來,這些公司被迫尋找數據科學專業人士(當然不僅僅是程序員),以高薪和其他津貼來吸引他們。據《福布斯》報導,企業對大數據的使用有所增加從 2015 年的 17% 到 2018 年的 59%。大數據正在迅速傳播到經濟的各個領域,包括銷售、營銷、研發、物流以及其他所有領域。根據 IBM 的研究,到 2020 年,僅在美國,該領域專業人士的工作崗位就將超過 270 萬個。有希望?你打賭。大數據和Java
那麼,為什麼大數據和 Java 有這麼多共同點呢?問題是許多用於大數據的主要工具都是用 Java 編寫的。更重要的是,幾乎所有這些工具都是開源項目。這意味著它們可供所有人使用,因此被全球最大的 IT 公司積極使用。“在很大程度上,大數據是 Java。Hadoop 和 Hadoop 生態系統的很大一部分是用 Java 編寫的。Hadoop 的原生 MapReduce 接口是 Java。因此,只需構建運行在其上的 Java 解決方案,您就可以輕鬆地進入大數據領域Hadoop。還有像 Cascading 這樣的 Java 庫可以讓工作變得更容易。即使你使用像 Hive 這樣的東西,Java 對於調試也非常有用。” 說Eight 的數據科學家兼數據開發副總裁 Marcin Mejran。“除了 Hadoop,Storm 是用 Java 編寫的,而 Spark(即:可以說是 hadoop 計算的未來)是用 Scala 編寫的(它運行在 JVM 上,而 Spark 具有 Java 接口)。因此 Java 涵蓋了大數據空間的很大一部分, "專家補充道。如您所見,Java 知識在大數據、物聯網、機器學習和其他幾個持續流行的領域中將是不可替代的。“未來每家公司都有大數據,每家公司最終都會做數據業務。”現在再詳細介紹前面提到的被 Java 開發人員廣泛使用的大數據工具。
阿帕奇Hadoop
Apache Hadoop 是大數據的基礎技術之一,它是用 Java 編寫的。Hadoop 是由 Apache Software Foundation 管理的免費、開源的實用程序、庫和框架套件。Hadoop 最初是為可伸縮、分佈式和容錯計算以及存儲大量各種信息而創建的,自然而然地成為許多公司大數據基礎設施的核心。世界各地的公司都在積極尋找 Hadoop 專家,而 Java 是掌握這項技術所需的關鍵技能。據Slashdot 上的開發人員稱, 2019年,包括JPMorgan Chase在內的多家大公司憑藉其創紀錄的程序員薪酬,在Hadoop World大會上積極尋找Hadoop專家,但即便如此,也找不到足夠多的具備必要技能(尤其是知識方面的專家)的專家。 Hadoop MapReduce 編程模型和框架)。這意味著該領域的薪水將增長更多。而且它們已經很大了。特別是,據 Business Insider 估計,Hadoop 專家的平均年薪為 103,000 美元,而大數據專家的平均年薪為 106,000 美元。尋找 Hadoop 專家的招聘人員強調 Java 是成功就業的最重要技能之一。Hadoop 長期以來一直被許多大公司使用或最近才被引入,包括 IBM、Microsoft 和 Oracle。眼下,“哪裡有數據煙霧,哪裡就有商業火種。”
阿帕奇星火
Apache Spark 是另一個重要的大數據平台,是 Hadoop 的有力競爭對手。由於它為開發人員提供的速度、靈活性和便利性,Apache Spark 正在成為 SQL、數據包交換和流數據以及機器學習大規模開發的領先環境。Apache Spark 作為分佈式大數據處理的框架,其工作原理與Hadoop MapReduce 框架非常相似,正在逐漸奪走MapReduce 在大數據領域的霸主地位。Spark 可以以多種不同的方式使用。它有一個用於 Java 的 API 以及其他幾種編程語言,例如 Scala、Python 和 R。如今,Spark 被銀行、電信公司、視頻遊戲開發商甚至政府廣泛使用。自然地,Apple、Facebook、IBM 和 Microsoft 等 IT 巨頭都喜歡 Apache Spark。阿帕奇象夫
Apache Mahout 是 Apache 的開源 Java 機器學習庫。它是一種可擴展的機器學習工具,可以在一台或多台機器上處理數據。機器學習實現是用 Java 編寫的,有些部分是在 Apache Hadoop 上構建的。阿帕奇風暴
Apache Storm 是一個用於實時分佈式流處理的框架。Storm 簡化了無限數據流的容錯處理,實時完成 Hadoop 對數據包所做的工作。Storm 與任何隊列系統和任何數據庫系統集成。Java JFreeChart
Java JFreeChart 是一個用 Java 開發的開源庫,設計用於在基於 Java 的應用程序中創建各種圖表。事實上,數據可視化對於成功分析大數據非常重要。由於大數據涉及處理大量數據,因此很難通過查看原始數據來確定趨勢甚至得出特定結論。但是,如果將相同的數據顯示在圖表中,就會變得更容易理解。更容易找到模式並識別相關性。碰巧,Java JFreeChart 有助於創建用於大數據分析的圖形和圖表。Deeplearning4j
Deeplearning4j 是一個用於構建各種類型的神經網絡的 Java 庫。Deeplearning4j 使用 Java 實現並在 JVM 中運行。它還與 Clojure 兼容,並包含一個用於 Scala 語言的 API。Deeplearning4j 包括受限玻爾茲曼機、深度信念網絡、深度自動編碼器、堆疊降噪自動編碼器、遞歸神經張量網絡、word2vec、doc2vec 和 GloVe 的實現。“數據正在成為商業的新原材料。”
2020年門檻上的大數據:最新鮮的趨勢
2020年應該又是大數據快速發展和演進的一年,大數據在各個領域的企業和組織得到廣泛應用。因此,讓我們簡要介紹一下明年應該發揮重要作用的大數據趨勢。
https://www.arnnet.com.au/slideshow/553034/pictures-our-10-favourite-techie-simpsons-episodes-moments/
物聯網——大數據越來越大
物聯網 (IoT) 似乎離題,但事實並非如此。物聯網繼續“趨勢”,因為它獲得動力並在世界範圍內傳播。因此,安裝在家庭和辦公室中的“智能”設備的數量也在增長。正如他們應該的那樣,這些設備正在將各種數據發送到需要去的地方。這意味著大數據量只會增長。據專家稱,許多組織已經擁有大量數據,主要來自物聯網,但他們並未做好充分準備使用這些數據。2020年,這場數據雪崩將變得更大。因此,大數據項目的投資也將快速增長。請記住,物聯網也非常喜歡 Java。誰不喜歡它?數字孿生
數字孿生是另一個與物聯網和大數據直接相關的有趣趨勢。因此,Java 將在這裡得到大量使用。什麼是數字孿生?這是真實對像或系統的數字複製品。物理設備的數字模擬使得模擬真實對象的內部過程、技術特性和在干擾及其環境影響下的行為成為可能。如果真實設備中沒有大量傳感器並行工作,數字孿生就無法運行。到 2020 年,預計全球將有超過 200 億個互聯傳感器為數十億數字孿生傳輸信息。到 2020 年,這種趨勢應該會獲得動力並脫穎而出。數字化轉型將變得更有目的性。
多年來,數字化轉型一直被視為一個重要趨勢。但專家表示,許多公司和高層管理人員甚至對這個詞的含義都極為模糊。對於許多人來說,數字化轉型意味著想方設法出售公司收集的數據,以產生新的收入來源。到 2020 年,越來越多的公司意識到數字化轉型就是通過在業務的各個方面正確使用數據來創造競爭優勢。這意味著我們可以預期公司將增加與正確和知情地使用數據相關的項目的預算。“我們正在慢慢進入一個以大數據為起點而非終點的時代。”
GO TO FULL VERSION