CodeGym /Java-blogg /Tilfeldig /Java og Big Data: hvorfor Big Data-prosjekter ikke kan kl...

Nivå

San Francisco

21 July 2023
202 views
0 comments

Java og Big Data: hvorfor Big Data-prosjekter ikke kan klare seg uten Java

I artiklene våre om CodeGym blir vi aldri lei av å nevne at Java, som er 25 år gammel nå, nyter fornyet popularitet og har strålende utsikter i nær fremtid. Det er flere grunner til dette. En av dem er at Java er det viktigste programmeringsspråket i flere trendende IT-markedsnisjer som raskt øker i popularitet. Java og Big Data: hvorfor Big Data-prosjekter ikke kan klare seg uten Java - 1

Internet of Things (IoT) og big data, samt business intelligence (BI), og sanntidsanalyse nevnes oftest i sammenheng med dyp hengivenhet og ømme følelser for Java. Nylig utforsket vi forholdet mellom Java og tingenes internettog snakket om hvordan en Java-utvikler kan skreddersy ferdighetene sine til denne nisjen. Nå retter vi oppmerksomheten mot et annet supertrendingsområde som - du gjettet riktig - også elsker Java og ikke kan leve uten det. Så i dag vil vi utforske følgende spørsmål i forhold til big data: hvorfor er Java, og derfor lojale Java-kodere, også superpopulært i denne nisjen? nøyaktig hvordan brukes Java i store dataprosjekter? hva bør du lære for å være kvalifisert for ansettelse i denne nisjen? og hva er dagens trender innen big data? Og i mellom alt dette skal vi se på meningene til verdens beste eksperter på big data, som ville fått til og med Homer Simpson til å ønske å jobbe med big data. Java og Big Data: hvorfor Big Data-prosjekter ikke kan klare seg uten Java - 2

Java og Big Data: hvorfor Big Data-prosjekter ikke kan klare seg uten Java - 2

https://ru.wikipedia.org/wiki/Homer_Goes_to_College

"Jeg fortsetter å si at den sexy jobben de neste ti årene vil være statistikere. Folk tror jeg tuller, men hvem ville ha gjettet at dataingeniører ville vært den sexy jobben på 1990-tallet?"

Hal Varian ,
Googles sjeføkonom

Big data erobrer planeten

Men først, litt om big data og hvorfor denne nisjen er så lovende for å bygge en karriere. Kort sagt, big data er ubønnhørlig, jevnt og (viktigst) veldig raskt på vei inn i forretningsprosessene til selskaper over hele verden. Disse selskapene blir på sin side tvunget til å finne fagfolk innen datavitenskap (ikke bare programmerere, selvfølgelig), og lokker dem med høye lønninger og andre fordeler. Ifølge Forbes økte bruken av big data i bedrifterfra 17 % i 2015 til 59 % i 2018. Big data sprer seg raskt til ulike sektorer av økonomien, inkludert salg, markedsføring, forskning og utvikling, logistikk og absolutt alt annet. I følge forskning fra IBM vil antall jobber for fagfolk på dette feltet overstige 2,7 millioner innen 2020 i USA alene. Lovende? Det kan du vedde på.

Big data og Java

Nå, hvorfor har big data og Java så mye til felles? Saken er at mange av hovedverktøyene for big data er skrevet i Java. Dessuten er nesten alle disse verktøyene åpen kildekode-prosjekter. Dette betyr at de er tilgjengelige for alle og følgelig brukes aktivt av de største IT-selskapene rundt om i verden. "I stor grad er Big Data Java. Hadoop og en stor prosentandel av Hadoop-økosystemet er skrevet i Java. Det native MapReduce-grensesnittet for Hadoop er Java. Så du kan enkelt flytte inn i big data ved å bygge Java-løsninger som kjører på toppen av Hadoop. Det er også Java-biblioteker som Cascading som gjør jobben enklere. Java er også veldig nyttig for å feilsøke ting selv om du bruker noe som Hive." saMarcin Mejran, en dataforsker og visepresident for datautvikling ved Eight. "I tillegg til Hadoop er Storm skrevet i Java og Spark (dvs.: uten tvil fremtiden til hadoop-databehandling) er i Scala (som kjører på JVM og Spark har et Java-grensesnitt). Så Java dekker en enorm prosentandel av Big Data-området, ", legger eksperten til. Som du kan se, vil kunnskap om Java ganske enkelt være uerstattelig i big data, tingenes internett, maskinlæring og flere andre nisjer som fortsetter å vinne popularitet.

"Hvert selskap har store data i fremtiden, og hvert selskap vil til slutt være i databransjen."

Thomas H. Davenport ,
en amerikansk akademiker og ekspert på analyse og forretningsprosessinnovasjon

Og nå litt mer om de nevnte big data-verktøyene, som er mye brukt av Java-utviklere.

Apache Hadoop

Apache Hadoop er en av de grunnleggende teknologiene for big data, og den er skrevet i Java. Hadoop er en gratis, åpen kildekodepakke med verktøy, biblioteker og rammeverk administrert av Apache Software Foundation. Opprinnelig laget for skalerbar, distribuert og feiltolerant databehandling, samt lagring av enorme mengder forskjellig informasjon, er Hadoop naturlig nok i ferd med å bli midtpunktet i stordatainfrastrukturen for mange selskaper. Bedrifter over hele verden leter aktivt etter Hadoop-eksperter, og Java er en nøkkelferdighet som kreves for å mestre denne teknologien. Ifølge utviklere på Slashdot, i 2019 søkte mange store selskaper, inkludert JPMorgan Chase, med sine rekordslående lønn for programmerere, aktivt etter Hadoop-eksperter på Hadoop World-konferansen, men selv der kunne de ikke finne nok eksperter med de nødvendige ferdighetene (spesielt kunnskap av Hadoop MapReduce-programmeringsmodellen og rammeverket). Det betyr at lønningene på dette feltet vil vokse enda mer. Og de er allerede veldig store. Spesielt anslår Business Insider at den gjennomsnittlige Hadoop-eksperten koster $103 000 per år, mens gjennomsnittskostnaden for big data-spesialister er $106 000 per år. Rekrutterere på jakt etter Hadoop-eksperter fremhever Java som en av de viktigste ferdighetene for vellykket ansettelse. Hadoop har lenge vært brukt eller ble introdusert relativt nylig av mange store selskaper, inkludert IBM, Microsoft og Oracle. For øyeblikket,

"Der det er datarøyk, er det forretningsbrann."

Dr. Thomas Redman ,
en kjent ekspert på dataanalyse og digital teknologi

Apache Spark

Apache Spark er en annen viktig stordataplattform som er en seriøs konkurrent til Hadoop. På grunn av hastigheten, fleksibiliteten og brukervennligheten den tilbyr utviklere, er Apache Spark i ferd med å bli det ledende miljøet for storskala utvikling innen SQL, pakkesvitsjet og strømmet data, og maskinlæring. Som et rammeverk for distribuert stordatabehandling, fungerer Apache Spark mye som Hadoop MapReduce-rammeverket og frarøver gradvis MapReduce forrangen innen stordata. Spark kan brukes på mange forskjellige måter. Den har et API for Java, samt flere andre programmeringsspråk, som Scala, Python og R. I dag er Spark mye brukt av banker, telekommunikasjonsselskaper, videospillutviklere og til og med myndigheter. Naturligvis elsker IT-giganter som Apple, Facebook, IBM og Microsoft Apache Spark.

Apache Mahout

Apache Mahout er et åpen kildekode Java maskinlæringsbibliotek fra Apache. Det er et skalerbart maskinlæringsverktøy som kan behandle data på en eller flere maskiner. Maskinlæringsimplementeringene er skrevet i Java, og noen deler er bygget på Apache Hadoop.

Apache Storm

Apache Storm er et rammeverk for distribuert strømbehandling i sanntid. Storm forenkler feiltolerant behandling av ubegrensede datastrømmer, og gjør i sanntid det Hadoop gjør for datapakker. Storm integreres med ethvert køsystem og ethvert databasesystem.

Java JFreeChart

Java JFreeChart er et åpen kildekode-bibliotek utviklet i Java og designet for bruk i Java-baserte applikasjoner for å lage et bredt utvalg av diagrammer. Faktum er at datavisualisering er ganske viktig for å lykkes med å analysere big data. Fordi big data innebærer å jobbe med store mengder data, kan det være vanskelig å identifisere trender eller til og med komme til bestemte konklusjoner ved å se på rådataene. Men hvis de samme dataene vises i et diagram, blir det mer forståelig. Det er lettere å finne mønstre og identifisere sammenhenger. Som det skjer, hjelper Java JFreeChart med å lage grafer og diagrammer for stordataanalyse.

Deeplearning4j

Deeplearning4j er et Java-bibliotek som brukes til å bygge ulike typer nevrale nettverk. Deeplearning4j er implementert i Java og kjører i JVM. Den er også kompatibel med Clojure og inkluderer en API for Scala-språket. Deeplearning4j inkluderer en implementering av en begrenset Boltzmann-maskin, deep belief-nettverk, deep autoencoder, stacked denoising autoencoder, rekursive neural tensor network, word2vec, doc2vec og GloVe.

"Data er i ferd med å bli det nye råmaterialet for næringslivet."

Craig Mundie ,
seniorrådgiver for administrerende direktør i Microsoft

Big Data på terskelen til 2020: de ferskeste trendene

2020 bør bli nok et år med rask vekst og utvikling for big data, sammen med utbredt bruk av big data av selskaper og organisasjoner innen ulike felt. Så la oss kort fremheve trendene innen big data som bør spille en viktig rolle neste år. Java og Big Data: hvorfor Big Data-prosjekter ikke kan klare seg uten Java - 3

Java og Big Data: hvorfor Big Data-prosjekter ikke kan klare seg uten Java - 3

https://www.arnnet.com.au/slideshow/553034/pictures-our-10-favourite-techie-simpsons-episodes-moments/

Internet of things — big data blir større

Internet of Things (IoT) kan virke som off-topic, men dette er ikke tilfelle. IoT fortsetter å "trende" ettersom det tar fart og sprer seg rundt i verden. Følgelig vokser også antallet "smarte" enheter installert i hjem og kontorer. Som de burde, sender disse enhetene alle slags data dit de skal. Dette betyr at volumet av big data bare vil vokse. Ifølge eksperter har mange organisasjoner allerede mye data, først og fremst fra IoT, som de ikke er godt forberedt på å bruke. I 2020 vil dette dataskredet bli enda større. Følgelig vil også investeringene i big data-prosjekter øke raskt. Og husk, IoT er også veldig glad i Java . Hvem elsker ikke det?

Digitale tvillinger

Digitale tvillinger er en annen interessant kommende trend som er direkte relatert til tingenes internett og big data. Følgelig vil Java se ganske mye bruk her. Hva er en digital tvilling? Dette er en digital kopi av et ekte objekt eller system. En digital analog av en fysisk enhet gjør det mulig å simulere et ekte objekts interne prosesser, tekniske egenskaper og atferd under påvirkning av interferens og dets miljø. En digital tvilling kan ikke fungere uten at et stort antall sensorer i den virkelige enheten fungerer parallelt. Innen 2020 er det forventet at det globalt vil være mer enn 20 milliarder tilkoblede sensorer som overfører informasjon for milliarder av digitale tvillinger. I 2020 bør denne trenden ta fart og komme i forgrunnen.

Digital transformasjon vil bli mer tilsiktet.

Digital transformasjon har i flere år vært nevnt som en viktig trend. Men eksperter sier at mange bedrifter og toppledere hadde en ekstremt vag forståelse av hva uttrykket til og med betyr. For mange betydde digital transformasjon å finne måter å selge dataene selskapet samler inn for å generere nye inntektsstrømmer. Innen 2020 innser flere og flere selskaper at digital transformasjon handler om å skape et konkurransefortrinn ved å bruke data riktig i alle aspekter av virksomheten deres. Dette betyr at vi kan forvente at bedrifter vil øke budsjettene for prosjekter knyttet til riktig og informert bruk av data.

"Vi beveger oss sakte inn i en tid hvor Big Data er utgangspunktet, ikke slutten."

Pearl Zhu ,
forfatter av bokserien Digital Master

Sammendrag

Big data er et annet virkelig enormt aktivitetsområde med mange muligheter for Java-utviklere. I tillegg til tingenes internett blomstrer dette området og lider av akutt mangel på programmerere og andre tekniske eksperter. Så nå er det på tide å slutte å lese disse lange artiklene og begynne å lære Java!

Mer lesing:
Java og tingenes internett. Hvordan blir du en vellykket IoT-utvikler? Big Data Trends: Våre spådommer for 2020 PLUSS hva som skjedde i 2019 De viktigste trendene i Big Data Analytics holder seg når vi ser mot 2020

Kommentarer

TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION