CodeGym /Java blog /Tilfældig /Java og Big Data: hvorfor Big Data-projekter ikke kan und...

Niveau

San Francisco

21 July 2023
223 views
0 comments

Java og Big Data: hvorfor Big Data-projekter ikke kan undvære Java

I vores artikler om CodeGym bliver vi aldrig trætte af at nævne, at Java, som er 25 år gammel nu, nyder fornyet popularitet og har strålende udsigter i den nærmeste fremtid. Det er der flere grunde til. En af dem er, at Java er det vigtigste programmeringssprog i flere trending it-markedsnicher, der hurtigt vinder popularitet. Java og Big Data: hvorfor Big Data-projekter ikke kan undvære Java - 1

Internet of Things (IoT) og big data samt business intelligence (BI) og realtidsanalyser nævnes oftest i sammenhæng med dyb hengivenhed og ømme følelser for Java. For nylig udforskede vi forholdet mellem Java og tingenes internetog talte om, hvordan en Java-udvikler kan skræddersy sine færdigheder til denne niche. Nu vender vi vores opmærksomhed mod et andet supertrendingsområde, der - du gættede det - også elsker Java og ikke kan leve uden det. Så i dag vil vi undersøge følgende spørgsmål i forhold til big data: hvorfor er Java, og derfor loyale Java-kodere, også super populært i denne niche? præcis hvordan bruges Java i big data-projekter? hvad skal du lære for at blive kvalificeret til ansættelse i denne niche? og hvad er de aktuelle tendenser inden for big data? Og ind imellem alt dette vil vi se på meningerne fra verdens bedste eksperter i big data, hvilket ville få selv Homer Simpson til at ville arbejde med big data. Java og Big Data: hvorfor Big Data-projekter ikke kan undvære Java - 2

Java og Big Data: hvorfor Big Data-projekter ikke kan undvære Java - 2

https://ru.wikipedia.org/wiki/Homer_Goes_to_College

"Jeg bliver ved med at sige, at det sexede job i de næste ti år vil være statistikere. Folk tror, jeg laver sjov, men hvem ville have gættet, at computeringeniører ville have været 1990'ernes sexede job?"

Hal Varian ,
Googles cheføkonom

Big data erobrer planeten

Men først lidt om big data og hvorfor denne niche er så lovende til at opbygge en karriere. Kort sagt, big data er ubønhørligt, støt og (vigtigst) meget hurtigt på vej ind i virksomheders forretningsprocesser over hele verden. Disse virksomheder bliver til gengæld tvunget til at finde fagfolk inden for datavidenskab (ikke kun programmører, selvfølgelig), og lokker dem med høje lønninger og andre frynsegoder. Ifølge Forbes steg brugen af big data i virksomhederfra 17 % i 2015 til 59 % i 2018. Big data spreder sig hurtigt til forskellige sektorer af økonomien, herunder salg, marketing, forskning og udvikling, logistik og absolut alt muligt andet. Ifølge undersøgelser fra IBM vil antallet af job for fagfolk inden for dette område overstige 2,7 millioner i 2020 alene i USA. Lovende? Det kan du tro.

Big data og Java

Hvorfor har big data og Java så meget til fælles? Sagen er, at mange af de vigtigste værktøjer til big data er skrevet i Java. Hvad mere er, næsten alle disse værktøjer er open source-projekter. Det betyder, at de er tilgængelige for alle og derfor aktivt bruges af de største it-virksomheder i hele verden. "I vid udstrækning er Big Data Java. Hadoop og en stor procentdel af Hadoop-økosystemet er skrevet i Java. Den native MapReduce-grænseflade til Hadoop er Java. Så du kan nemt flytte ind i big data blot ved at bygge Java-løsninger, der kører ovenpå af Hadoop. Der er også Java-biblioteker som Cascading, som gør arbejdet nemmere. Java er også virkelig nyttigt til at fejlfinde ting, selvom du bruger noget som Hive." sagdeMarcin Mejran, en dataforsker og vicepræsident for dataudvikling hos Eight. "Ud over Hadoop er Storm skrevet i Java og Spark (dvs. sikkert fremtiden for hadoop computing) er i Scala (som kører på JVM og Spark har en Java-grænseflade). Så Java dækker en massiv procentdel af Big Data-rummet, ", tilføjer eksperten. Som du kan se, vil viden om Java simpelthen være uerstattelig i big data, tingenes internet, maskinlæring og flere andre nicher, der fortsætter med at vinde popularitet.

"Enhver virksomhed har big data i sin fremtid, og enhver virksomhed vil i sidste ende være i databranchen."

Thomas H. Davenport ,
en amerikansk akademiker og ekspert i analyse og innovation i forretningsprocesser

Og nu lidt mere om de førnævnte big data-værktøjer, som er meget brugt af Java-udviklere.

Apache Hadoop

Apache Hadoop er en af de grundlæggende teknologier til big data, og den er skrevet i Java. Hadoop er en gratis, open source-pakke af hjælpeprogrammer, biblioteker og rammer, der administreres af Apache Software Foundation. Oprindeligt skabt til skalerbar, distribueret og fejltolerant databehandling, samt lagring af enorme mængder af forskellig information, er Hadoop naturligvis ved at blive midtpunktet i big data-infrastrukturen for mange virksomheder. Virksomheder over hele verden leder aktivt efter Hadoop-eksperter, og Java er en nøglefærdighed, der kræves for at mestre denne teknologi. Ifølge udviklere på Slashdot, i 2019 søgte mange store virksomheder, herunder JPMorgan Chase, med sine rekordstore lønninger til programmører, aktivt efter Hadoop-eksperter på Hadoop World-konferencen, men selv der kunne de ikke finde nok eksperter med de nødvendige færdigheder (især viden af Hadoop MapReduce-programmeringsmodellen og -rammerne). Det betyder, at lønningerne på dette felt vil vokse endnu mere. Og de er allerede meget store. Især Business Insider vurderer, at den gennemsnitlige Hadoop-ekspert koster $103.000 om året, mens den gennemsnitlige pris for big data-specialister er $106.000 om året. Rekrutterere, der leder efter Hadoop-eksperter, fremhæver Java som en af de vigtigste færdigheder for succesfuld beskæftigelse. Hadoop har længe været brugt eller blev introduceret relativt for nylig af mange store virksomheder, herunder IBM, Microsoft og Oracle. I øjeblikket,

"Hvor der er datarøg, er der forretningsbrand."

Dr. Thomas Redman ,
en kendt ekspert i dataanalyse og digital teknologi

Apache Spark

Apache Spark er en anden vigtig big data-platform, som er en seriøs konkurrent til Hadoop. På grund af den hastighed, fleksibilitet og bekvemmelighed, det tilbyder udviklere, er Apache Spark ved at blive det førende miljø for storstilet udvikling inden for SQL, pakkekoblede og streamede data og maskinlæring. Som en ramme for distribueret big data-behandling fungerer Apache Spark meget som Hadoop MapReduce-rammeværket og frarøver gradvist MapReduce sin forrang inden for big data. Spark kan bruges på mange forskellige måder. Den har en API til Java, samt adskillige andre programmeringssprog, såsom Scala, Python og R. I dag er Spark meget brugt af banker, teleselskaber, videospiludviklere og endda regeringer. Naturligvis elsker it-giganter som Apple, Facebook, IBM og Microsoft Apache Spark.

Apache Mahout

Apache Mahout er et open source Java-maskinlæringsbibliotek fra Apache. Det er et skalerbart maskinlæringsværktøj, der kan behandle data på en eller flere maskiner. Machine learning-implementeringerne er skrevet i Java, og nogle dele er bygget på Apache Hadoop.

Apache Storm

Apache Storm er en ramme for distribueret strømbehandling i realtid. Storm forenkler fejltolerant behandling af ubegrænsede datastrømme og gør i realtid, hvad Hadoop gør for datapakker. Storm integreres med ethvert køsystem og ethvert databasesystem.

Java JFreeChart

Java JFreeChart er et open source-bibliotek udviklet i Java og designet til brug i Java-baserede applikationer til at skabe en bred vifte af diagrammer. Faktum er, at datavisualisering er ret vigtig for succesfuld analyse af big data. Fordi big data involverer at arbejde med store mængder data, kan det være svært at identificere tendenser eller endda komme til bestemte konklusioner ved at se på rådataene. Men hvis de samme data vises i et diagram, bliver det mere forståeligt. Det er lettere at finde mønstre og identificere sammenhænge. Som det sker, hjælper Java JFreeChart med at skabe grafer og diagrammer til big data-analyse.

Deeplearning4j

Deeplearning4j er et Java-bibliotek, der bruges til at bygge forskellige typer neurale netværk. Deeplearning4j er implementeret i Java og kører i JVM. Den er også kompatibel med Clojure og inkluderer en API til Scala-sproget. Deeplearning4j inkluderer en implementering af en begrænset Boltzmann-maskine, deep belief-netværk, deep autoencoder, stacked denoising autoencoder, rekursive neurale tensor-netværk, word2vec, doc2vec og GloVe.

"Data er ved at blive det nye råmateriale for erhvervslivet."

Craig Mundie ,
seniorrådgiver for CEO hos Microsoft

Big Data på tærsklen til 2020: de nyeste trends

2020 skulle blive endnu et år med hurtig vækst og udvikling for big data, sammen med udbredt anvendelse af big data af virksomheder og organisationer inden for forskellige områder. Så lad os kort fremhæve de tendenser inden for big data, der burde spille en vigtig rolle næste år. Java og Big Data: hvorfor Big Data-projekter ikke kan undvære Java - 3

Java og Big Data: hvorfor Big Data-projekter ikke kan undvære Java - 3

https://www.arnnet.com.au/slideshow/553034/pictures-our-10-favourite-techie-simpsons-episodes-moments/

Internet of things — big data bliver større

Internet of Things (IoT) kan virke som off-topic, men det er ikke tilfældet. IoT fortsætter med at "trende", efterhånden som det tager fart og spreder sig over hele verden. Følgelig vokser antallet af "smart" enheder installeret i hjem og kontorer også. Som de burde, sender disse enheder alle slags data, hvor de skal hen. Det betyder, at mængden af big data kun vil vokse. Ifølge eksperter har mange organisationer allerede en masse data, primært fra IoT, som de ikke er velforberedte til at bruge. I 2020 vil denne datalavine blive endnu større. Derfor vil investeringerne i big data-projekter også stige hurtigt. Og husk, at IoT også er meget glad for Java . Hvem elsker ikke det?

Digitale tvillinger

Digitale tvillinger er en anden interessant kommende trend, der er direkte relateret til Internet of Things og big data. Derfor vil Java se en del brug her. Hvad er en digital tvilling? Dette er en digital kopi af et rigtigt objekt eller system. En digital analog af en fysisk enhed gør det muligt at simulere et virkeligt objekts interne processer, tekniske karakteristika og adfærd under påvirkning af interferens og dets omgivelser. En digital tvilling kan ikke fungere uden et stort antal sensorer i den rigtige enhed, der arbejder parallelt. I 2020 forventes det, at der globalt vil være mere end 20 milliarder tilsluttede sensorer, der transmitterer information for milliarder af digitale tvillinger. I 2020 bør denne tendens tage fart og komme i forgrunden.

Digital transformation vil blive mere bevidst.

I flere år har digital transformation været nævnt som en vigtig trend. Men eksperter siger, at mange virksomheder og topledere havde en ekstrem vag forståelse af, hvad udtrykket overhovedet betyder. For mange betød digital transformation at finde måder at sælge de data, virksomheden indsamler, for at generere nye indtægtsstrømme. I 2020 indser flere og flere virksomheder, at digital transformation handler om at skabe en konkurrencefordel ved korrekt at bruge data i alle aspekter af deres forretning. Det betyder, at vi kan forvente, at virksomheder vil øge budgetterne for projekter, der er relateret til korrekt og informeret brug af data.

"Vi bevæger os langsomt ind i en æra, hvor Big Data er udgangspunktet, ikke enden."

Pearl Zhu ,
forfatter til bogserien Digital Master

Resumé

Big data er et andet virkelig enormt aktivitetsområde med mange muligheder for Java-udviklere. Ud over Internet of Things blomstrer dette område og lider under akut mangel på programmører og andre tekniske eksperter. Så nu er det tid til at stoppe med at læse disse lange artikler og begynde at lære Java!

Mere læsning:
Java og tingenes internet. Hvordan bliver du en succesfuld IoT-udvikler? Big Data Trends: Vores forudsigelser for 2020 PLUS hvad der skete i 2019 Top Big Data Analytics-tendenser holder stik, når vi ser frem mod 2020

Kommentarer

TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION