CodeGym /Blog Java /Random-PL /Java i Big Data: dlaczego projekty Big Data nie mogą obej...
John Squirrels
Poziom 41
San Francisco

Java i Big Data: dlaczego projekty Big Data nie mogą obejść się bez Javy

Opublikowano w grupie Random-PL
W naszych artykułach na CodeGym niestrudzenie wspominamy, że Java, która ma już 25 lat, cieszy się nową popularnością i ma wspaniałe perspektywy w najbliższej przyszłości. Jest tego kilka powodów. Jednym z nich jest to, że Java jest głównym językiem programowania w kilku trendowych niszach rynku IT, które szybko zyskują na popularności. Java i Big Data: dlaczego projekty Big Data nie mogą obejść się bez Javy - 1 Internet Rzeczy (IoT) i big data, a także Business Intelligence (BI) i analityka w czasie rzeczywistym są wymieniane najczęściej w kontekście głębokiego przywiązania i czułości do Javy. Ostatnio badaliśmy związek między Javą a Internetem rzeczyi rozmawialiśmy o tym, jak programista Java może dostosować swoje umiejętności do tej niszy. Teraz zwracamy naszą uwagę na inny supermodny obszar, który — jak zgadliście — również kocha Javę i nie może bez niej żyć. Dlatego dzisiaj przyjrzymy się następującym pytaniom związanym z big data: dlaczego Java, a co za tym idzie lojalni programiści Java, jest również bardzo popularna w tej niszy? jak dokładnie Java jest używana w projektach Big Data? czego powinieneś się nauczyć, aby mieć kwalifikacje do pracy w tej niszy? i jakie są obecne trendy w big data? A pomiędzy tym wszystkim przyjrzymy się opiniom najlepszych światowych ekspertów od big data, które sprawiłyby, że nawet Homer Simpson chciałby pracować z big data. Java i Big Data: dlaczego projekty Big Data nie mogą obejść się bez Javy - 2

https://ru.wikipedia.org/wiki/Homer_Goes_to_College

„Ciągle powtarzam, że seksownym zawodem w ciągu najbliższych dziesięciu lat będą statystycy. Ludzie myślą, że żartuję, ale kto by pomyślał, że inżynierowie komputerowi będą seksownym zawodem lat 90.?”

Big data podbija planetę

Ale najpierw trochę o big data i dlaczego ta nisza jest tak obiecująca dla budowania kariery. Krótko mówiąc, big data nieubłaganie, systematycznie i (co najważniejsze) bardzo szybko toruje sobie drogę do procesów biznesowych firm na całym świecie. Te firmy z kolei są zmuszane do poszukiwania specjalistów data science (oczywiście nie tylko programistów), wabiąc ich wysokimi zarobkami i innymi dodatkami. Według Forbesa wykorzystanie big data w firmach wzrosłoz 17% w 2015 r. do 59% w 2018 r. Big data szybko rozprzestrzenia się w różnych sektorach gospodarki, w tym w sprzedaży, marketingu, badaniach i rozwoju, logistyce i absolutnie wszystkim innym. Według badań IBM do 2020 roku w samych Stanach Zjednoczonych liczba miejsc pracy dla profesjonalistów w tej dziedzinie przekroczy 2,7 ​​miliona. Obiecujący? stawiasz.

Big data i Java

Dlaczego więc Big Data i Java mają tak wiele wspólnego? Rzecz w tym, że wiele głównych narzędzi do obsługi dużych zbiorów danych jest napisanych w Javie. Co więcej, prawie wszystkie te narzędzia to projekty typu open source. Oznacza to, że są dostępne dla każdego iw związku z tym są aktywnie wykorzystywane przez największe firmy informatyczne na całym świecie. „W dużej mierze Big Data to Java. Hadoop i duży procent ekosystemu Hadoop są napisane w Javie. Natywnym interfejsem MapReduce dla Hadoop jest Java. Możesz więc łatwo przejść do big data, po prostu budując rozwiązania Java, które działają na z Hadoop. Istnieją również biblioteki Java, takie jak Cascading, które ułatwiają pracę. Java jest również bardzo przydatna do debugowania rzeczy, nawet jeśli używasz czegoś takiego jak Hive. powiedziałMarcin Mejran, analityk danych i wiceprezes ds. rozwoju danych w firmie Eight. „Poza Hadoop Storm jest napisany w Javie, a Spark (tj. prawdopodobnie przyszłość obliczeń hadoop) jest w Scali (która działa na JVM, a Spark ma interfejs Java). Java obejmuje więc ogromny procent przestrzeni Big Data, – dodaje ekspert. Jak widać, znajomość Javy będzie po prostu niezastąpiona w big data, Internecie rzeczy, uczeniu maszynowym i kilku innych niszach, które wciąż zyskują na popularności.
„Każda firma ma w przyszłości duże zbiory danych i każda firma ostatecznie będzie działać w branży danych”.
Thomas H. Davenport ,
amerykański naukowiec i ekspert w dziedzinie analityki i innowacji procesów biznesowych
A teraz trochę więcej o wspomnianych narzędziach big data, które są powszechnie używane przez programistów Java.

Apache Hadoop

Apache Hadoop jest jedną z podstawowych technologii dla dużych zbiorów danych i jest napisany w Javie. Hadoop to bezpłatny pakiet narzędzi, bibliotek i platform typu open source zarządzany przez Apache Software Foundation. Pierwotnie stworzony z myślą o skalowalnych, rozproszonych i odpornych na błędy obliczeniach, a także do przechowywania ogromnych ilości różnych informacji, Hadoop w naturalny sposób staje się centralnym elementem infrastruktury dużych zbiorów danych dla wielu firm. Firmy na całym świecie aktywnie poszukują ekspertów Hadoop, a Java jest kluczową umiejętnością wymaganą do opanowania tej technologii. Według twórców na Slashdot, w 2019 roku wiele dużych firm, w tym JPMorgan Chase, z rekordowymi wynagrodzeniami programistów, aktywnie poszukiwało ekspertów Hadoop na konferencji Hadoop World, ale nawet tam nie udało im się znaleźć wystarczającej liczby ekspertów z niezbędnymi umiejętnościami (zwłaszcza wiedzą modelu i frameworka programowania Hadoop MapReduce). Oznacza to, że wynagrodzenia w tej dziedzinie będą rosły jeszcze bardziej. I są już bardzo duże. W szczególności Business Insider szacuje, że przeciętny ekspert Hadoop kosztuje 103 000 USD rocznie, podczas gdy średni koszt specjalistów big data to 106 000 USD rocznie. Rekruterzy poszukujący ekspertów Hadoop podkreślają Javę jako jedną z najważniejszych umiejętności niezbędnych do pomyślnego zatrudnienia. Hadoop jest używany od dawna lub został wprowadzony stosunkowo niedawno przez wiele dużych korporacji, w tym IBM, Microsoft i Oracle. W tym momencie,
„Tam, gdzie jest dym danych, jest ogień biznesowy”.
Dr Thomas Redman ,
znany ekspert w dziedzinie analityki danych i technologii cyfrowych

Apache Spark

Apache Spark to kolejna ważna platforma big data, która jest poważnym konkurentem Hadoop. Dzięki szybkości, elastyczności i wygodzie, jaką oferuje programistom, Apache Spark staje się wiodącym środowiskiem do opracowywania na dużą skalę SQL, danych z komutacją pakietów i danych przesyłanych strumieniowo oraz uczenia maszynowego. Jako platforma do rozproszonego przetwarzania dużych zbiorów danych, Apache Spark działa bardzo podobnie do platformy Hadoop MapReduce i stopniowo pozbawia MapReduce prymatu w dużych zbiorach danych. Spark można wykorzystać na wiele różnych sposobów. Ma interfejs API dla Javy, a także kilku innych języków programowania, takich jak Scala, Python i R. Obecnie Spark jest powszechnie używany przez banki, firmy telekomunikacyjne, twórców gier wideo, a nawet rządy. Oczywiście giganci IT, tacy jak Apple, Facebook, IBM i Microsoft, kochają Apache Spark.

Apache Mahout

Apache Mahout to otwarta biblioteka Java do uczenia maszynowego firmy Apache. Jest to skalowalne narzędzie uczenia maszynowego, które może przetwarzać dane na jednej lub kilku maszynach. Implementacje uczenia maszynowego są napisane w Javie, a niektóre części są zbudowane na Apache Hadoop.

Burza Apaczów

Apache Storm to framework do rozproszonego przetwarzania strumieni w czasie rzeczywistym. Storm upraszcza odporne na uszkodzenia przetwarzanie nieograniczonej liczby strumieni danych, robiąc w czasie rzeczywistym to, co Hadoop robi z pakietami danych. Storm integruje się z dowolnym systemem kolejkowania i dowolnym systemem baz danych.

Java JFreeChart

Java JFreeChart to biblioteka open source opracowana w Javie i przeznaczona do użytku w aplikacjach opartych na Javie do tworzenia szerokiej gamy wykresów. Faktem jest, że wizualizacja danych jest dość ważna dla skutecznej analizy dużych zbiorów danych. Ponieważ duże zbiory danych wymagają pracy z dużymi ilościami danych, identyfikacja trendów, a nawet wyciąganie konkretnych wniosków na podstawie surowych danych może być trudne. Ale jeśli te same dane są wyświetlane na wykresie, staje się to bardziej zrozumiałe. Łatwiej jest znaleźć wzorce i zidentyfikować korelacje. Tak się składa, że ​​Java JFreeChart pomaga tworzyć wykresy i wykresy do analizy dużych zbiorów danych.

Uczenie głębokie 4j

Deeplearning4j to biblioteka Java służąca do budowy różnego rodzaju sieci neuronowych. Deeplearning4j jest zaimplementowany w Javie i działa w JVM. Jest również kompatybilny z Clojure i zawiera API dla języka Scala. Deeplearning4j obejmuje implementację ograniczonej maszyny Boltzmanna, głębokiej sieci przekonań, głębokiego autoenkodera, ułożonego w stos autokodera odszumiającego, rekurencyjnej sieci tensorów neuronowych, word2vec, doc2vec i GloVe.
„Dane stają się nowym surowcem dla biznesu”.

Big Data u progu 2020 roku: najświeższe trendy

Rok 2020 powinien być kolejnym rokiem szybkiego wzrostu i ewolucji dużych zbiorów danych, wraz z powszechnym przyjęciem dużych zbiorów danych przez firmy i organizacje z różnych dziedzin. Przybliżmy więc pokrótce trendy w big data, które powinny odgrywać ważną rolę w przyszłym roku. Java i Big Data: dlaczego projekty Big Data nie mogą obejść się bez Javy - 3

https://www.arnnet.com.au/slideshow/553034/pictures-our-10-favourite-techie-simpsons-episodes-moments/

Internet rzeczy — duże zbiory danych stają się coraz większe

Internet rzeczy (IoT) może wydawać się nie na temat, ale tak nie jest. Internet rzeczy nadal „trenuje”, nabierając rozpędu i rozprzestrzeniając się na całym świecie. W związku z tym rośnie również liczba „inteligentnych” urządzeń instalowanych w domach i biurach. Tak jak powinny, te urządzenia wysyłają wszelkiego rodzaju dane tam, gdzie powinny. Oznacza to, że ilość dużych zbiorów danych będzie tylko rosła. Zdaniem ekspertów wiele organizacji ma już dużo danych, przede wszystkim z IoT, do których wykorzystania nie są dobrze przygotowane. W 2020 roku ta lawina danych będzie jeszcze większa. W związku z tym szybko wzrosną również inwestycje w projekty Big Data. I pamiętaj, IoT bardzo lubi też Javę . Kto tego nie kocha?

Cyfrowe bliźniaki

Cyfrowe bliźniaki to kolejny interesujący nadchodzący trend, który jest bezpośrednio związany z Internetem rzeczy i dużymi danymi. W związku z tym Java będzie tutaj dość przydatna. Co to jest cyfrowy bliźniak? Jest to cyfrowa replika rzeczywistego obiektu lub systemu. Cyfrowy analog urządzenia fizycznego umożliwia symulację procesów wewnętrznych, parametrów technicznych i zachowania rzeczywistego obiektu pod wpływem zakłóceń i jego otoczenia. Cyfrowy bliźniak nie może działać bez ogromnej liczby czujników w rzeczywistym urządzeniu pracujących równolegle. Oczekuje się, że do 2020 roku na całym świecie będzie ponad 20 miliardów połączonych czujników przesyłających informacje dla miliardów cyfrowych bliźniaków. W 2020 roku trend ten powinien nabrać rozpędu i wysunąć się na pierwszy plan.

Transformacja cyfrowa stanie się bardziej celowa.

Od kilku lat jako ważny trend wymieniana jest transformacja cyfrowa. Ale eksperci twierdzą, że wiele firm i menedżerów najwyższego szczebla miało bardzo niejasne zrozumienie, co w ogóle oznacza to wyrażenie. Dla wielu transformacja cyfrowa oznaczała znalezienie sposobów na sprzedaż danych gromadzonych przez firmę w celu generowania nowych źródeł przychodów. Do 2020 roku coraz więcej firm zdaje sobie sprawę, że transformacja cyfrowa polega na stworzeniu przewagi konkurencyjnej poprzez właściwe wykorzystanie danych w każdym aspekcie ich działalności. Oznacza to, że możemy spodziewać się, że firmy zwiększą budżety na projekty związane z prawidłowym i świadomym wykorzystaniem danych.
„Powoli wkraczamy w erę, w której Big Data jest punktem wyjścia, a nie końcem”.
Pearl Zhu ,
autorka serii książek Digital Master

Streszczenie

Big data to kolejny naprawdę ogromny obszar działalności, dający wiele możliwości programistom Java. Oprócz Internetu przedmiotów, obszar ten rozwija się dynamicznie i cierpi na dotkliwy niedobór programistów i innych ekspertów technicznych. Czas więc przestać czytać te długie artykuły i zacząć uczyć się Javy!
Komentarze
TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION