CodeGym /Java блог /Случаен /Java и големи данни: защо проектите за големи данни не мо...
John Squirrels
Ниво
San Francisco

Java и големи данни: защо проектите за големи данни не могат без Java

Публикувано в групата
В нашите статии за CodeGym не се уморяваме да споменаваме, че Java, която вече е на 25 години, се радва на нова популярност и има блестящи перспективи в близко бъдеще. Причините за това са няколко. Една от тях е, че Java е основният език за програмиране в няколко модерни ИТ пазарни ниши, които бързо набират популярност. Java и големи данни: защо проектите за големи данни не могат без Java - 1 Интернет на нещата (IoT) и големите данни, Howто и бизнес разузнаването (BI) и анализите в реално време се споменават най-често в контекста на дълбока привързаност и нежни чувства към Java. Наскоро проучихме връзката между Java и Интернет на нещатаи говори за това How Java разработчик може да приспособи своите умения към тази ниша. Сега насочваме вниманието си към друга супер актуална област, която — познахте — също обича Java и не може да живее без нея. И така, днес ще проучим следните въпроси във връзка с големите данни: защо Java и следователно лоялните програмисти на Java също са супер популярни в тази ниша? How точно се използва Java в проекти за големи данни? Howво трябва да научите, за да бъдете квалифицирани за работа в тази ниша? и Howви са текущите тенденции в големите данни? И между всичко това ще разгледаме мненията на най-добрите световни експерти по големи данни, което би накарало дори Хоумър Симпсън да иска да работи с големи данни. Java и големи данни: защо проектите за големи данни не могат без Java - 2

https://ru.wikipedia.org/wiki/Homer_Goes_to_College

„Продължавам да казвам, че секси работата през следващите десет години ще бъдат статистици. Хората си мислят, че се шегувам, но кой би предположил, че компютърните инженери ще са секси професията на 90-те години?“

Големите данни завладяват планетата

Но първо, малко за големите данни и защо тази ниша е толкова обещаваща за изграждане на кариера. Накратко, големите данни неумолимо, стабилно и (най-важното) много бързо си проправят път в бизнес процесите на компаниите по света. Тези компании от своя страна са принудени да намерят професионалисти в науката за данни (не само програмисти, разбира се), като ги примамват с високи заплати и други привилегии. Според Forbes използването на големи данни в бизнеса се е увеличилоот 17% през 2015 г. до 59% през 2018 г. Големите данни бързо се разпространяват в различни сектори на икономиката, включително продажби, маркетинг, научноизследователска и развойна дейност, логистика и абсолютно всичко останало. Според проучване на IBM броят на работните места за професионалисти в тази област ще надхвърли 2,7 мorона до 2020 г. само в САЩ. Обещаващо? Вие залагате.

Големи данни и Java

Защо тогава големите данни и Java имат толкова много общо? Работата е там, че много от основните инструменти за големи данни са написани на Java. Нещо повече, почти всички тези инструменти са проекти с отворен code. Това означава, че те са достъпни за всички и съответно се използват активно от най-големите IT компании по света. „До голяма степен големите данни са Java. Hadoop и голям процент от екосистемата на Hadoop са написани на Java. Родният интерфейс на MapReduce за Hadoop е Java. Така че можете лесно да преминете към големи данни, просто като изградите Java решения, които работят на върха на Hadoop. Има и Java библиотеки като Cascading, които улесняват работата. Java също е наистина полезна за отстраняване на грешки, дори ако използвате нещо като Hive." казахМарчин Меджран, учен по данни и вицепрезидент по разработването на данни в Eight. „Отвъд Hadoop, Storm е написан на Java, а Spark (т.е. може би бъдещето на hadoop изчисленията) е в Scala (която работи на JVM и Spark има Java интерфейс). Така че Java покрива огромен процент от пространството с големи данни, “, добавя експертът. Както можете да видите, познаването на Java ще бъде просто незаменимо в големите данни, Интернет на нещата, машинното обучение и няколко други ниши, които продължават да набират популярност.
„Всяка компания има големи данни в своето бъдеще и всяка компания в крайна сметка ще бъде в бизнеса с данни.“
А сега малко повече за гореспоменатите инструменти за големи данни, които се използват широко от разработчиците на Java.

Apache Hadoop

Apache Hadoop е една от основните технологии за големи данни и е написана на Java. Hadoop е безплатен пакет с отворен code от помощни програми, библиотеки и рамки, управлявани от Apache Software Foundation. Първоначално създаден за мащабируеми, разпределени и устойчиви на грешки изчисления, Howто и за съхраняване на огромни количества разнообразна информация, Hadoop естествено се превръща в центъра на инфраструктурата за големи данни за много компании. Компании по целия свят активно търсят експерти по Hadoop, а Java е ключово умение, необходимо за овладяване на тази технология. Според разработчиците на Slashdot, през 2019 г. много големи компании, включително JPMorgan Chase, с нейните рекордни заплати за програмисти, активно търсеха експерти по Hadoop на конференцията Hadoop World, но дори и там не можаха да намерят достатъчно експерти с необходимите умения (по-специално знания на програмния модел и рамка на Hadoop MapReduce). Това означава, че заплатите в тази сфера ще растат още повече. И вече са много големи. По-специално, Business Insider изчислява, че средният Hadoop експерт струва $103 000 на година, докато средната цена на специалистите по големи данни е $106 000 на година. Работодателите, които търсят експерти по Hadoop, подчертават Java като едно от най-важните умения за успешна работа. Hadoop отдавна се използва or е въведен сравнително наскоро от много големи корпорации, включително IBM, Microsoft и Oracle. В момента,
„Където има дим от данни, има и бизнес пожар.“

Apache Spark

Apache Spark е друга важна платформа за големи данни, която е сериозен конкурент на Hadoop. Благодарение на скоростта, гъвкавостта и удобството, които предлага на разработчиците, Apache Spark се превръща във водеща среда за широкомащабно развитие на SQL, пакетно комутирани и поточно предавани данни и машинно обучение. Като рамка за разпределена обработка на големи данни, Apache Spark работи много като рамката Hadoop MapReduce и постепенно ограбва MapReduce от първенството си в големите данни. Spark може да се използва по много различни начини. Има API за Java, Howто и няколко други езика за програмиране, като Scala, Python и R. Днес Spark се използва широко от банки, телекомуникационни компании, разработчици на видеоигри и дори правителства. Естествено, IT гиганти като Apple, Facebook, IBM и Microsoft обичат Apache Spark.

Apache Mahout

Apache Mahout е библиотека за машинно обучение на Java с отворен code от Apache. Това е мащабируем инструмент за машинно обучение, който може да обработва данни на една or повече машини. Реализациите за машинно обучение са написани на Java, а някои части са изградени на Apache Hadoop.

Apache Storm

Apache Storm е рамка за обработка на разпределен поток в реално време. Storm опростява толерантната към грешки обработка на неограничени потоци от данни, като прави в реално време това, което Hadoop прави за пакети с данни. Storm се интегрира с всяка система за опашка и всяка система от бази данни.

Java JFreeChart

Java JFreeChart е библиотека с отворен code, разработена в Java и предназначена за използване в базирани на Java applications за създаване на голямо разнообразие от диаграми. Факт е, че визуализацията на данни е много важна за успешното анализиране на големи данни. Тъй като големите данни включват работа с големи количества данни, може да бъде трудно да се идентифицират тенденции or дори да се стигне до конкретни заключения, като се разглеждат необработените данни. Но ако същите данни се показват в диаграма, става по-разбираемо. По-лесно е да се намерят модели и да се идентифицират корелациите. Както се случва, Java JFreeChart помага за създаването на графики и диаграми за анализ на големи данни.

Deeplearning4j

Deeplearning4j е Java библиотека, използвана за изграждане на различни видове невронни мрежи. Deeplearning4j е внедрен в Java и работи в JVM. Освен това е съвместим с Clojure и включва API за езика Scala. Deeplearning4j включва внедряване на ограничена машина на Болцман, дълбока мрежа на вярванията, дълбок автоенcodeер, подреден автоматичен codeиращ шум, рекурсивна невронна тензорна мрежа, word2vec, doc2vec и GloVe.
„Данните се превръщат в новата суровина за бизнеса.“
Крейг Мънди ,
старши съветник на главния изпълнителен директор на Microsoft

Big Data на прага на 2020 г.: най-новите тенденции

2020 г. трябва да бъде още една година на бърз растеж и еволюция за големи данни, заедно с широкото приемане на големи данни от компании и организации в различни области. И така, нека подчертаем накратко тенденциите в големите данни, които трябва да играят важна роля през следващата година. Java и големи данни: защо проектите за големи данни не могат без Java - 3

https://www.arnnet.com.au/slideshow/553034/pictures-our-10-favourite-techie-simpsons-episodes-moments/

Интернет на нещата — големите данни стават все по-големи

Интернет на нещата (IoT) може да изглежда извън темата, но това не е така. IoT продължава да „търпи тенденция“, докато набира скорост и се разпространява по целия свят. Следователно броят на "умните" устройства, инсталирани в домовете и офисите, също расте. Както трябва, тези устройства изпращат всяHowви данни, където трябва. Това означава, че обемът на големите данни само ще расте. Според експерти много организации вече разполагат с много данни, предимно от IoT, които не са добре подготвени да използват. През 2020 г. тази лавина от данни ще стане още по-голяма. Следователно инвестициите в проекти за големи данни също ще се увеличат бързо. И не забравяйте, че IoT също много харесва Java . Кой не го обича?

Цифрови близнаци

Дигиталните близнаци са друга интересна настъпваща тенденция, която е пряко свързана с Интернет на нещата и големите данни. Съответно, Java ще намери доста голяма полза тук. Какво е цифров близнак? Това е цифрова реплика на реален обект or система. Цифров аналог на физическо устройство позволява да се симулират вътрешни процеси, технически характеристики и поведение на реален обект под въздействието на смущения и околната среда. Цифровият близнак не може да работи без огромен брой сензори в реалното устройство, работещи паралелно. До 2020 г. се очаква в световен мащаб да има повече от 20 мorарда свързани сензора, предаващи информация за мorарди цифрови близнаци. През 2020 г. тази тенденция трябва да набере скорост и да излезе на преден план.

Дигиталната трансформация ще стане по-преднамерена.

От няколко години дигиталната трансформация се споменава като важна тенденция. Но експертите казват, че много компании и топ мениджъри са имали изключително неясно разбиране Howво означава фразата. За мнозина дигиталната трансформация означава намиране на начини за продажба на данните, които компанията събира, за да генерира нови потоци от приходи. До 2020 г. все повече и повече компании осъзнават, че дигиталната трансформация е свързана със създаването на конкурентно предимство чрез правилно използване на данни във всеки аспект от техния бизнес. Това означава, че можем да очакваме компаниите да увеличат бюджетите си за проекти, свързани с правилното и информирано използване на данни.
„Бавно се придвижваме към ера, в която големите данни са началната точка, а не краят.“
Пърл Джу ,
автор на поредицата от книги Digital Master

Резюме

Големите данни са друга наистина огромна област на дейност с много възможности за разработчиците на Java. В допълнение към Интернет на нещата, тази област процъфтява и страда от остър недостиг на програмисти и други технически експерти. Така че сега е време да спрете да четете тези дълги статии и да започнете да изучавате Java!
Коментари
TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION