Sa aming mga artikulo sa CodeGym, hindi kami nagsasawang banggitin na ang Java, na 25 taong gulang na ngayon, ay tinatangkilik ang panibagong katanyagan at may mga magagandang prospect sa malapit na hinaharap. Mayroong ilang mga dahilan para dito. Isa sa mga ito ay ang Java ay ang pangunahing programming language sa ilang mga trending IT market niches na mabilis na nagiging popular. Java at Big Data: bakit hindi magagawa ng mga proyekto ng Big Data nang walang Java - 1 Ang Internet of Things (IoT) at malaking data, gayundin ang business intelligence (BI), at real-time na analytics ay madalas na binabanggit sa konteksto ng malalim na pagmamahal at magiliw na damdamin para sa Java. Kamakailan, ginalugad namin ang kaugnayan sa pagitan ng Java at ng Internet ng mga bagayat pinag-usapan kung paano maiangkop ng isang developer ng Java ang kanyang mga kasanayan sa angkop na lugar na ito. Ngayon ay ibinaling namin ang aming pansin sa isa pang super trending na lugar na — nahulaan mo — ay mahilig din sa Java at hindi mabubuhay kung wala ito. Kaya, ngayon ay tutuklasin natin ang mga sumusunod na tanong kaugnay ng malaking data: bakit ang Java, at samakatuwid, ang mga tapat na Java coder, ay sobrang sikat din sa angkop na lugar na ito? paano eksaktong ginagamit ang Java sa malalaking proyekto ng data? ano ang dapat mong matutunan upang maging kwalipikado para sa trabaho sa angkop na lugar na ito? at ano ang mga kasalukuyang uso sa malaking data? At sa pagitan ng lahat ng ito, titingnan natin ang mga opinyon ng mga nangungunang eksperto sa mundo sa malaking data, na gagawing kahit na si Homer Simpson ay gustong magtrabaho sa malaking data. Java at Big Data: bakit hindi magagawa ng mga proyekto ng Big Data nang walang Java - 2

https://ru.wikipedia.org/wiki/Homer_Goes_to_College

"Paulit-ulit kong sinasabi na ang sexy job sa susunod na sampung taon ay mga statistician. Iniisip ng mga tao na nagbibiro ako, ngunit sinong mag-aakala na ang mga inhinyero ng computer ang naging sexy na trabaho noong 1990s?"

Ang malaking data ay sumasakop sa planeta

Ngunit una, kaunti tungkol sa malaking data at kung bakit ang angkop na lugar na ito ay napaka-promising para sa pagbuo ng isang karera. Sa madaling sabi, ang malaking data ay hindi maiiwasan, tuluy-tuloy, at (pinaka-mahalaga) napakabilis na nakapasok sa mga proseso ng negosyo ng mga kumpanya sa buong mundo. Ang mga kumpanyang iyon, sa turn, ay pinipilit na maghanap ng mga propesyonal sa agham ng data (hindi lamang mga programmer, siyempre), na umaakit sa kanila na may mataas na suweldo at iba pang mga perks. Ayon sa Forbes, tumaas ang paggamit ng malaking data sa mga negosyomula 17% noong 2015 hanggang 59% noong 2018. Ang malaking data ay mabilis na kumakalat sa iba't ibang sektor ng ekonomiya, kabilang ang mga benta, marketing, pananaliksik at pagpapaunlad, logistik at ganap na lahat ng iba pa. Ayon sa pananaliksik ng IBM, ang bilang ng mga trabaho para sa mga propesyonal sa larangang ito ay lalampas sa 2.7 milyon pagsapit ng 2020 sa Estados Unidos lamang. Nangangako? taya ka.

Malaking data at Java

Ngayon, bakit ang malaking data at Java ay may napakaraming pagkakatulad? Ang bagay ay marami sa mga pangunahing tool para sa malaking data ay nakasulat sa Java. Higit pa rito, halos lahat ng mga tool na ito ay mga open source na proyekto. Nangangahulugan ito na ang mga ito ay magagamit sa lahat at naaayon ay aktibong ginagamit ng mga pinakamalaking kumpanya ng IT sa buong mundo. "Sa malaking lawak, ang Big Data ay Java. Ang Hadoop at isang malaking porsyento ng Hadoop ecosystem ay nakasulat sa Java. Ang native na MapReduce interface para sa Hadoop ay Java. Kaya madali kang lumipat sa malaking data sa pamamagitan lamang ng pagbuo ng mga solusyon sa Java na tumatakbo sa itaas ng Hadoop. Mayroon ding mga Java library tulad ng Cascading na nagpapadali sa trabaho. Ang Java ay talagang kapaki-pakinabang din para sa pag-debug ng mga bagay kahit na gumamit ka ng isang bagay tulad ng Hive." sabiMarcin Mejran, isang data scientist at vice president ng data development sa Eight. "Higit pa sa Hadoop, ang Storm ay nakasulat sa Java at Spark (ibig sabihin: arguably ang hinaharap ng hadoop computing) ay nasa Scala (na tumatakbo sa JVM at ang Spark ay may Java interface). Kaya ang Java ay sumasaklaw sa napakalaking porsyento ng Big Data space, "dagdag ng eksperto. Tulad ng nakikita mo, ang kaalaman sa Java ay hindi mapapalitan sa malaking data, sa Internet ng mga bagay, machine learning, at ilang iba pang mga angkop na lugar na patuloy na nagiging popular.
"Ang bawat kumpanya ay may malaking data sa hinaharap nito at ang bawat kumpanya ay kalaunan ay nasa negosyo ng data."
Thomas H. Davenport ,
isang Amerikanong akademiko at eksperto sa analytics at pagbabago sa proseso ng negosyo
At ngayon ng kaunti pa tungkol sa mga nabanggit na malaking tool sa data, na malawakang ginagamit ng mga developer ng Java.

Apache Hadoop

Ang Apache Hadoop ay isa sa mga pangunahing teknolohiya para sa malaking data, at ito ay nakasulat sa Java. Ang Hadoop ay isang libre, open source na suite ng mga utility, library, at frameworks na pinamamahalaan ng Apache Software Foundation. Orihinal na nilikha para sa scalable, distributed, at fault-tolerant computing, pati na rin sa pag-iimbak ng malaking halaga ng iba't ibang impormasyon, ang Hadoop ay natural na nagiging sentro ng malaking imprastraktura ng data para sa maraming kumpanya. Ang mga kumpanya sa buong mundo ay aktibong naghahanap ng mga eksperto sa Hadoop, at ang Java ay isang pangunahing kasanayang kinakailangan upang makabisado ang teknolohiyang ito. Ayon sa mga developer sa Slashdot, noong 2019, maraming malalaking kumpanya, kabilang ang JPMorgan Chase, na may mga record-breaking na suweldo para sa mga programmer, ang aktibong naghahanap para sa mga eksperto sa Hadoop sa Hadoop World conference, ngunit kahit doon, hindi sila makahanap ng sapat na mga eksperto na may kinakailangang mga kasanayan (lalo na, kaalaman ng Hadoop MapReduce programming model at framework). Nangangahulugan ito na ang mga suweldo sa larangang ito ay tataas pa. At napakalaki na nila. Sa partikular, tinatantya ng Business Insider na ang average na eksperto sa Hadoop ay nagkakahalaga ng $103,000 bawat taon, habang ang average na gastos ng mga big data specialist ay $106,000 bawat taon. Itinatampok ng mga recruiter na naghahanap ng mga eksperto sa Hadoop ang Java bilang isa sa pinakamahalagang kasanayan para sa matagumpay na trabaho. Ang Hadoop ay matagal nang ginagamit o ipinakilala kamakailan ng maraming malalaking korporasyon, kabilang ang IBM, Microsoft, at Oracle. Sa ngayon,
"Kung saan mayroong usok ng data, mayroong sunog sa negosyo."
Dr. Thomas Redman ,
isang kilalang eksperto sa data analytics at digital na teknolohiya

Apache Spark

Ang Apache Spark ay isa pang mahalagang platform ng malaking data na isang seryosong katunggali ng Hadoop. Dahil sa bilis, flexibility, at kaginhawaan na inaalok nito sa mga developer, ang Apache Spark ay nagiging nangungunang kapaligiran para sa malakihang pag-develop sa SQL, packet-switched at stream na data, at machine learning. Bilang isang framework para sa distributed big data processing, ang Apache Spark ay gumagana tulad ng Hadoop MapReduce framework at unti-unting inaagaw sa MapReduce ang primacy nito sa malaking data. Maaaring gamitin ang spark sa maraming iba't ibang paraan. Mayroon itong API para sa Java, pati na rin ang ilang iba pang mga programming language, tulad ng Scala, Python at R. Ngayon, ang Spark ay malawakang ginagamit ng mga bangko, kumpanya ng telekomunikasyon, mga developer ng video game, at maging ng mga pamahalaan. Natural, ang mga higanteng IT tulad ng Apple, Facebook, IBM at Microsoft ay mahilig sa Apache Spark.

Apache Mahout

Ang Apache Mahout ay isang open source na Java machine learning library mula sa Apache. Ito ay isang scalable machine learning tool na maaaring magproseso ng data sa isa o higit pang mga machine. Ang mga pagpapatupad ng machine learning ay nakasulat sa Java, at ang ilang bahagi ay binuo sa Apache Hadoop.

Apache Storm

Ang Apache Storm ay isang framework para sa distributed stream processing sa real time. Pinapasimple ng Storm ang fault-tolerant na pagproseso ng walang limitasyong mga stream ng data, ginagawa sa real time kung ano ang ginagawa ng Hadoop para sa mga data packet. Sumasama ang Storm sa anumang queuing system at anumang database system.

Java JFreeChart

Ang Java JFreeChart ay isang open source na library na binuo sa Java at idinisenyo para gamitin sa Java-based na mga application upang lumikha ng malawak na iba't ibang mga chart. Ang katotohanan ay ang data visualization ay lubos na mahalaga para sa matagumpay na pagsusuri ng malaking data. Dahil ang malaking data ay nagsasangkot ng pagtatrabaho sa malaking halaga ng data, maaaring mahirap tukuyin ang mga uso o kahit na magkaroon ng mga partikular na konklusyon sa pamamagitan ng pagtingin sa raw data. Ngunit, kung ang parehong data ay ipinapakita sa isang tsart, ito ay nagiging mas nauunawaan. Mas madaling makahanap ng mga pattern at tukuyin ang mga ugnayan. Habang nangyayari ito, tumutulong ang Java JFreeChart na lumikha ng mga graph at chart para sa pagsusuri ng malaking data.

Deep learning4j

Ang Deeplearning4j ay isang Java library na ginagamit upang bumuo ng iba't ibang uri ng mga neural network. Ang Deeplearning4j ay ipinatupad sa Java at tumatakbo sa JVM. Tugma din ito sa Clojure at may kasamang API para sa wikang Scala. Kasama sa Deeplearning4j ang pagpapatupad ng isang pinaghihigpitang Boltzmann machine, deep belief network, deep autoencoder, stacked denoising autoencoder, recursive neural tensor network, word2vec, doc2vec at GloVe.
"Ang data ay nagiging bagong hilaw na materyal para sa negosyo."

Big Data sa threshold ng 2020: ang mga pinakasariwang trend

Ang 2020 ay dapat na isa pang taon ng mabilis na paglago at ebolusyon para sa malaking data, kasama ng malawakang paggamit ng malaking data ng mga kumpanya at organisasyon sa iba't ibang larangan. Kaya, i-highlight natin sa madaling sabi ang mga uso sa malaking data na dapat gumanap ng mahalagang papel sa susunod na taon. Java at Big Data: bakit hindi magagawa ng mga proyekto ng Big Data nang walang Java - 3

https://www.arnnet.com.au/slideshow/553034/pictures-our-10-favourite-techie-simpsons-episodes-moments/

Internet ng mga bagay — lumalaki ang malaking data

Ang Internet of Things (IoT) ay maaaring mukhang off-topic, ngunit hindi ito ang kaso. Ang IoT ay patuloy na "nagte-trend" habang nakakakuha ito ng momentum at kumakalat sa buong mundo. Dahil dito, dumarami rin ang bilang ng mga "matalinong" device na naka-install sa mga tahanan at opisina. Gaya ng nararapat, ang mga device na ito ay nagpapadala ng lahat ng uri ng data kung saan ito kailangang pumunta. Nangangahulugan ito na ang dami ng malaking data ay lalago lamang. Ayon sa mga eksperto, maraming organisasyon ang mayroon nang maraming data, pangunahin mula sa IoT, na hindi nila handang gamitin. Sa 2020, magiging mas malaki ang data avalanche na ito. Dahil dito, ang mga pamumuhunan sa malalaking proyekto ng data ay tataas din nang mabilis. At tandaan, ang IoT ay mahilig din sa Java . Sino ba naman ang hindi magugustuhan?

Digital na kambal

Ang digital twins ay isa pang kawili-wiling paparating na trend na direktang nauugnay sa Internet of Things at malaking data. Alinsunod dito, makikita ng Java ang kaunting paggamit dito. Ano ang digital twin? Ito ay isang digital replica ng isang tunay na bagay o sistema. Ginagawang posible ng digital analog ng isang pisikal na device na gayahin ang mga panloob na proseso, teknikal na katangian, at pag-uugali ng isang tunay na bagay sa ilalim ng impluwensya ng interference at kapaligiran nito. Ang isang digital na kambal ay hindi maaaring gumana nang walang isang malaking bilang ng mga sensor sa totoong aparato na gumagana nang magkatulad. Sa 2020, inaasahang magkakaroon ng higit sa 20 bilyong konektadong sensor sa buong mundo na magpapadala ng impormasyon para sa bilyun-bilyong digital twins. Sa 2020, ang trend na ito ay dapat magkaroon ng momentum at mauna.

Ang digital na pagbabago ay magiging mas intensyonal.

Sa loob ng ilang taon, binanggit ang digital transformation bilang isang mahalagang trend. Ngunit sinasabi ng mga eksperto na maraming kumpanya at nangungunang mga tagapamahala ang may napakalabing malabong pag-unawa sa kung ano ang ibig sabihin ng parirala. Para sa marami, ang digital transformation ay nangangahulugan ng paghahanap ng mga paraan upang ibenta ang data na kinokolekta ng kumpanya upang makabuo ng mga bagong stream ng kita. Sa pamamagitan ng 2020, parami nang parami ang mga kumpanya ang napagtatanto na ang digital transformation ay tungkol sa paglikha ng competitive advantage sa pamamagitan ng wastong paggamit ng data sa bawat aspeto ng kanilang negosyo. Nangangahulugan ito na maaari nating asahan na ang mga kumpanya ay magtataas ng mga badyet para sa mga proyektong nauugnay sa tama at matalinong paggamit ng data.
"Kami ay gumagalaw nang dahan-dahan sa isang panahon kung saan ang Big Data ay ang panimulang punto, hindi ang wakas."
Pearl Zhu ,
may-akda ng serye ng aklat ng Digital Master

Buod

Ang malaking data ay isa pang tunay na napakalaking lugar ng aktibidad na may maraming pagkakataon para sa mga developer ng Java. Bilang karagdagan sa Internet of Things, ang lugar na ito ay umuusbong at dumaranas ng matinding kakulangan ng mga programmer at iba pang mga teknikal na eksperto. Kaya ngayon ay oras na upang ihinto ang pagbabasa ng mga mahabang artikulong ito at simulan ang pag-aaral ng Java!