Java och Big Data: varför Big Data-projekt inte kan klara sig utan Java

I våra artiklar om CodeGym tröttnar vi aldrig på att nämna att Java, som är 25 år gammal nu, åtnjuter förnyad popularitet och har lysande framtidsutsikter inom en snar framtid. Det finns flera anledningar till detta. En av dem är att Java är det huvudsakliga programmeringsspråket i flera trendiga IT-marknadsnischer som snabbt vinner popularitet. Java och Big Data: varför Big Data-projekt inte kan klara sig utan Java - 1

Internet of Things (IoT) och big data, såväl som business intelligence (BI), och realtidsanalys nämns oftast i sammanhanget av djup tillgivenhet och ömma känslor för Java. Nyligen utforskade vi förhållandet mellan Java och Internet of thingsoch pratade om hur en Java-utvecklare kan skräddarsy sina färdigheter till denna nisch. Nu riktar vi vår uppmärksamhet mot ett annat supertrendigt område som - ni gissade rätt - också älskar Java och inte kan leva utan det. Så idag kommer vi att utforska följande frågor i relation till big data: varför är Java, och därför lojala Java-kodare, också superpopulärt i denna nisch? exakt hur används Java i big data-projekt? vad ska du lära dig för att vara kvalificerad för anställning inom denna nisch? och vilka är de nuvarande trenderna inom big data? Och mellan allt detta kommer vi att titta på åsikterna från världens främsta experter på big data, vilket skulle få till och med Homer Simpson att vilja arbeta med big data. Java och Big Data: varför Big Data-projekt inte kan klara sig utan Java - 2

Java och Big Data: varför Big Data-projekt inte kan klara sig utan Java - 2

https://ru.wikipedia.org/wiki/Homer_Goes_to_College

"Jag säger hela tiden att det sexiga jobbet under de kommande tio åren kommer att vara statistiker. Folk tror att jag skojar, men vem skulle ha gissat att dataingenjörer skulle ha varit 1990-talets sexiga jobb?"

Hal Varian ,
Googles chefsekonom

Big data erövrar planeten

Men först, lite om big data och varför denna nisch är så lovande för att bygga en karriär. Kort sagt, big data är obönhörligen, stadigt och (viktigast av allt) mycket snabbt på väg in i företags affärsprocesser runt om i världen. Dessa företag tvingas i sin tur hitta proffs inom datavetenskap (inte bara programmerare, förstås), vilket lockar dem med höga löner och andra förmåner. Enligt Forbes ökade användningen av big data på företagfrån 17 % 2015 till 59 % 2018. Big data sprids snabbt till olika sektorer av ekonomin, inklusive försäljning, marknadsföring, forskning och utveckling, logistik och absolut allt annat. Enligt forskning från IBM kommer antalet jobb för yrkesverksamma inom detta område att överstiga 2,7 miljoner år 2020 bara i USA. Lovande? Det kan du ge dig på.

Big data och Java

Varför har big data och Java så mycket gemensamt? Saken är att många av de viktigaste verktygen för big data är skrivna i Java. Dessutom är nästan alla dessa verktyg projekt med öppen källkod. Det betyder att de är tillgängliga för alla och därför används aktivt av de största IT-företagen runt om i världen. "I stor utsträckning är Big Data Java. Hadoop och en stor andel av Hadoops ekosystem är skrivna i Java. Det inbyggda MapReduce-gränssnittet för Hadoop är Java. Så du kan enkelt flytta in i big data helt enkelt genom att bygga Java-lösningar som körs ovanpå av Hadoop. Det finns också Java-bibliotek som Cascading som gör jobbet enklare. Java är också väldigt användbart för att felsöka saker även om du använder något som Hive." saMarcin Mejran, datavetare och vice vd för datautveckling på Eight. "Förutom Hadoop är Storm skriven i Java och Spark (dvs: förmodligen framtiden för hadoop-datorer) finns i Scala (som körs på JVM och Spark har ett Java-gränssnitt). Så Java täcker en enorm andel av Big Data-utrymmet, ", tillägger experten. Som du kan se kommer kunskap om Java helt enkelt att vara oersättlig i big data, Internet of things, maskininlärning och flera andra nischer som fortsätter att vinna popularitet.

"Varje företag har big data i sin framtid och varje företag kommer så småningom att vara i databranschen."

Thomas H. Davenport ,
en amerikansk akademiker och expert på analys och affärsprocessinnovation

Och nu lite mer om de tidigare nämnda big data-verktygen, som används flitigt av Java-utvecklare.

Apache Hadoop

Apache Hadoop är en av de grundläggande teknologierna för big data, och den är skriven i Java. Hadoop är en gratis, öppen källkodssvit med verktyg, bibliotek och ramverk som hanteras av Apache Software Foundation. Hadoop, som ursprungligen skapades för skalbar, distribuerad och feltolerant datoranvändning, samt lagring av enorma mängder olika information, håller på att bli mittpunkten i big data-infrastrukturen för många företag. Företag runt om i världen letar aktivt efter Hadoop-experter, och Java är en nyckelfärdighet som krävs för att bemästra denna teknik. Enligt utvecklare på Slashdot2019 sökte många stora företag, inklusive JPMorgan Chase, med sina rekordlöner för programmerare, aktivt efter Hadoop-experter på Hadoop World-konferensen, men även där kunde de inte hitta tillräckligt med experter med nödvändiga färdigheter (särskilt kunskap av Hadoop MapReduce-programmeringsmodellen och ramverket). Det innebär att lönerna inom detta område kommer att växa ännu mer. Och de är redan väldigt stora. Business Insider uppskattar särskilt att den genomsnittliga Hadoop-experten kostar 103 000 USD per år, medan den genomsnittliga kostnaden för big data-specialister är 106 000 USD per år. Rekryterare som söker Hadoop-experter lyfter fram Java som en av de viktigaste färdigheterna för framgångsrik anställning. Hadoop har länge använts eller introducerades relativt nyligen av många stora företag, inklusive IBM, Microsoft och Oracle. Just nu,

"Där det finns datarök finns det affärsbrand."

Dr. Thomas Redman ,
en känd expert inom dataanalys och digital teknik

Apache Spark

Apache Spark är en annan viktig stordataplattform som är en seriös konkurrent till Hadoop. På grund av hastigheten, flexibiliteten och bekvämligheten som den erbjuder utvecklare, håller Apache Spark på att bli den ledande miljön för storskalig utveckling inom SQL, paketförmedlad och strömmad data och maskininlärning. Som ett ramverk för distribuerad big data-bearbetning fungerar Apache Spark mycket som Hadoop MapReduce-ramverket och berövar gradvis MapReduce från dess företräde inom big data. Spark kan användas på många olika sätt. Den har ett API för Java, samt flera andra programmeringsspråk, som Scala, Python och R. Idag används Spark flitigt av banker, telekommunikationsföretag, videospelsutvecklare och till och med regeringar. Naturligtvis älskar IT-jättar som Apple, Facebook, IBM och Microsoft Apache Spark.

Apache Mahout

Apache Mahout är ett Java-maskininlärningsbibliotek med öppen källkod från Apache. Det är ett skalbart maskininlärningsverktyg som kan bearbeta data på en eller flera maskiner. Implementeringarna för maskininlärning är skrivna i Java, och vissa delar är byggda på Apache Hadoop.

Apache Storm

Apache Storm är ett ramverk för distribuerad strömbehandling i realtid. Storm förenklar feltolerant bearbetning av obegränsade dataströmmar och gör i realtid vad Hadoop gör för datapaket. Storm integreras med alla kösystem och alla databassystem.

Java JFreeChart

Java JFreeChart är ett bibliotek med öppen källkod utvecklat i Java och designat för användning i Java-baserade applikationer för att skapa en mängd olika diagram. Faktum är att datavisualisering är ganska viktigt för att framgångsrikt analysera big data. Eftersom big data innebär att arbeta med stora datamängder kan det vara svårt att identifiera trender eller ens komma till särskilda slutsatser genom att titta på rådata. Men om samma data visas i ett diagram blir det mer förståeligt. Det är lättare att hitta mönster och identifiera samband. Som det händer hjälper Java JFreeChart att skapa grafer och diagram för big data-analys.

Deeplearning4j

Deeplearning4j är ett Java-bibliotek som används för att bygga olika typer av neurala nätverk. Deeplearning4j är implementerat i Java och körs i JVM. Det är också kompatibelt med Clojure och inkluderar ett API för Scala-språket. Deeplearning4j inkluderar en implementering av en begränsad Boltzmann-maskin, deep belief-nätverk, deep autoencoder, stacked denoising autoencoder, rekursiv neural tensor-nätverk, word2vec, doc2vec och GloVe.

"Data blir det nya råmaterialet för företag."

Craig Mundie ,
Senior Advisor till VD:n på Microsoft

Big Data på tröskeln till 2020: de senaste trenderna

2020 borde bli ännu ett år av snabb tillväxt och utveckling för big data, tillsammans med en utbredd användning av big data av företag och organisationer inom olika områden. Så låt oss kort belysa trenderna inom big data som borde spela en viktig roll nästa år. Java och Big Data: varför Big Data-projekt inte kan klara sig utan Java - 3

Java och Big Data: varför Big Data-projekt inte kan klara sig utan Java - 3

https://www.arnnet.com.au/slideshow/553034/pictures-our-10-favourite-techie-simpsons-episodes-moments/

Internet of things — big data blir allt större

Internet of Things (IoT) kan verka utanför ämnet, men så är inte fallet. IoT fortsätter att "trend" när det tar fart och sprider sig över världen. Följaktligen växer också antalet "smarta" enheter installerade i hem och kontor. Som de borde skickar dessa enheter alla typer av data dit den behöver gå. Det betyder att volymen big data bara kommer att växa. Enligt experter har många organisationer redan mycket data, främst från IoT, som de inte är väl förberedda att använda. År 2020 kommer denna datalavin att bli ännu större. Följaktligen kommer även investeringarna i big data-projekt att öka snabbt. Och kom ihåg, IoT är också väldigt förtjust i Java . Vem älskar inte det?

Digitala tvillingar

Digitala tvillingar är en annan intressant kommande trend som är direkt relaterad till Internet of Things och big data. Följaktligen kommer Java att se en hel del användning här. Vad är en digital tvilling? Detta är en digital kopia av ett verkligt objekt eller system. En digital analog av en fysisk enhet gör det möjligt att simulera ett verkligt objekts interna processer, tekniska egenskaper och beteende under påverkan av störningar och dess miljö. En digital tvilling kan inte fungera utan att ett stort antal sensorer i den verkliga enheten arbetar parallellt. År 2020 förväntas det att det globalt kommer att finnas mer än 20 miljarder uppkopplade sensorer som sänder information för miljarder digitala tvillingar. År 2020 bör denna trend ta fart och komma i förgrunden.

Digital transformation kommer att bli mer avsiktlig.

I flera år har digital transformation nämnts som en viktig trend. Men experter säger att många företag och toppchefer hade en extremt vag förståelse av vad frasen ens betyder. För många innebar digital transformation att hitta sätt att sälja den data företaget samlar in för att generera nya intäktsströmmar. År 2020 inser fler och fler företag att digital transformation handlar om att skapa en konkurrensfördel genom att korrekt använda data i alla aspekter av sin verksamhet. Det betyder att vi kan förvänta oss att företag kommer att öka budgetarna för projekt relaterade till korrekt och informerad användning av data.

"Vi går långsamt in i en era där Big Data är startpunkten, inte slutet."

Pearl Zhu ,
författare till bokserien Digital Master

Sammanfattning

Big data är ett annat verkligt enormt verksamhetsområde med många möjligheter för Java-utvecklare. Förutom Internet of Things blomstrar detta område och lider av en akut brist på programmerare och andra tekniska experter. Så nu är det dags att sluta läsa dessa långa artiklar och börja lära sig Java!

Mer läsning:
Java och Internet of Things. Hur blir du en framgångsrik IoT-utvecklare? Big Data Trends: Våra förutsägelser för 2020 PLUS vad som hände under 2019 De främsta trenderna för Big Data Analytics gäller när vi ser mot 2020

Kommentarer

TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION