במאמרים שלנו על CodeGym, לעולם לא נמאס להזכיר ש-Java, שהיא בת 25 עכשיו, נהנית מפופולריות מחודשת ויש לה סיכויים מבריקים בעתיד הקרוב. יש לכך מספר סיבות. אחד מהם הוא ש-Java היא שפת התכנות העיקרית במספר נישות טרנדיות בשוק ה-IT שצוברות פופולריות במהירות. ג'אווה וביג דאטה: מדוע פרויקטי ביג דאטה לא יכולים להסתדר בלי ג'אווה - 1 האינטרנט של הדברים (IoT) וביג דאטה, כמו גם בינה עסקית (BI), וניתוח בזמן אמת מוזכרים לרוב בהקשר של חיבה עמוקה ותחושות עדינות לג'אווה. לאחרונה, חקרנו את הקשר בין Java לבין האינטרנט של הדברים ודיברנו על איך מפתח Java יכול להתאים את כישוריו לנישה הזו. כעת אנו מפנים את תשומת ליבנו לאזור סופר-טרנדי נוסף שגם - ניחשתם נכון - אוהב ג'אווה ולא יכול לחיות בלעדיה. אז, היום נחקור את השאלות הבאות ביחס לביג דאטה: מדוע ג'אווה, ולכן קודי ג'אווה נאמנים, גם סופר פופולריים בנישה זו? איך בדיוק משתמשים ב-Java בפרויקטים של Big Data? מה כדאי ללמוד כדי להיות כשיר לתעסוקה בנישה זו? ומהן המגמות הנוכחיות בתחום הביג דאטה? ובין כל זה, נסתכל על חוות הדעת של המומחים המובילים בעולם בנושא ביג דאטה, שיגרמו אפילו להומר סימפסון לרצות לעבוד עם ביג דאטה. ג'אווה וביג דאטה: מדוע פרויקטי ביג דאטה לא יכולים להסתדר בלי ג'אווה - 2

https://ru.wikipedia.org/wiki/Homer_Goes_to_College

"אני כל הזמן אומר שהעבודה הסקסית בעשר השנים הקרובות תהיה סטטיסטיקאים. אנשים חושבים שאני צוחק, אבל מי היה מנחש שמהנדסי מחשבים היו העבודה הסקסית של שנות ה-90?"

נתונים גדולים כובשים את כדור הארץ

אבל קודם כל, קצת על ביג דאטה ולמה הנישה הזו כל כך מבטיחה לבניית קריירה. בקיצור, ביג דאטה עושה את דרכו באופן בלתי נמנע, באופן קבוע ו(הכי חשוב) מהר מאוד לתהליכים העסקיים של חברות ברחבי העולם. חברות אלה, בתורן, נאלצות למצוא אנשי מקצוע בתחום מדעי הנתונים (לא רק מתכנתים, כמובן), ולפתות אותם עם משכורות גבוהות והטבות אחרות. לפי פורבס, השימוש בביג דאטה בעסקים גדל מ-17% ב-2015 ל-59% ב-2018. ביג דאטה מתפשט במהירות למגזרים שונים במשק, כולל מכירות, שיווק, מחקר ופיתוח, לוגיסטיקה ולגמרי כל השאר. על פי מחקר של IBM, מספר המשרות לאנשי מקצוע בתחום זה יעלה על 2.7 מיליון עד 2020 בארצות הברית בלבד. מַבְטִיחַ? אתה מהמר.

ביג דאטה וג'אווה

אז למה ל-Big Data ול-Java יש כל כך הרבה במשותף? העניין הוא שרבים מהכלים העיקריים ל-Big Data נכתבים בג'אווה. יתרה מכך, כמעט כל הכלים הללו הם פרויקטי קוד פתוח. המשמעות היא שהם זמינים לכולם ובהתאם לכך נמצאים בשימוש פעיל על ידי חברות ה-IT הגדולות בעולם. "במידה רבה Big Data הוא Java. Hadoop ואחוז גדול מהאקולוגית של Hadoop כתובים ב-Java. ממשק MapReduce המקורי עבור Hadoop הוא Java. כך שתוכלו לעבור בקלות לביג דאטה פשוט על ידי בניית פתרונות Java הפועלים על גבי של Hadoop. יש גם ספריות ג'אווה כמו Cascading שהופכות את העבודה לקלה יותר. ג'אווה היא גם ממש שימושית לניפוי באגים גם אם אתה משתמש במשהו כמו Hive." אמר מרסין מג'רן, מדען נתונים וסגן נשיא לפיתוח נתונים ב-Eight. "מעבר ל-hadoop, Storm כתוב ב-Java ו-Spark (כלומר: ללא ספק העתיד של מחשוב ה-hadoop) נמצא ב-Scala (שפועל על ה-JVM ול-Spark יש ממשק ג'אווה). כך ש-Java מכסה אחוז עצום ממרחב ה-Big Data, " מוסיף המומחה. כפי שאתה יכול לראות, ידע בג'אווה יהיה פשוט שאין לו תחליף בביג דאטה, האינטרנט של הדברים, למידת מכונה ועוד כמה נישות שממשיכות לצבור פופולריות.
"לכל חברה יש ביג דאטה בעתיד שלה וכל חברה תהיה בסופו של דבר בעסקי הנתונים".
Thomas H. Davenport ,
אקדמאי אמריקאי ומומחה באנליטיקה וחדשנות תהליכים עסקיים
ועכשיו עוד קצת על כלי הביג דאטה שהוזכרו לעיל, שנמצאים בשימוש נרחב על ידי מפתחי Java.

Apache Hadoop

Apache Hadoop היא אחת הטכנולוגיות הבסיסיות ל-Big Data, והיא כתובה ב-Java. Hadoop היא חבילת קוד פתוח חינמית של כלי עזר, ספריות ומסגרות המנוהלת על ידי קרן תוכנת Apache. נוצרה במקור עבור מחשוב ניתן להרחבה, מבוזר וסובלני לתקלות, כמו גם אחסון כמויות אדירות של מידע מגוון, Hadoop הופכת באופן טבעי למרכז התשתית ביג דאטה עבור חברות רבות. חברות ברחבי העולם מחפשות באופן פעיל מומחי Hadoop, וג'אווה היא מיומנות מפתח הנדרשת כדי לשלוט בטכנולוגיה זו. לדברי מפתחים ב-Slashdot , בשנת 2019, חברות גדולות רבות, כולל JPMorgan Chase, עם משכורות שוברי השיא שלה למתכנתים, חיפשו באופן פעיל מומחי Hadoop בכנס Hadoop World, אך גם שם, הם לא מצאו מספיק מומחים עם הדרוש מיומנויות (במיוחד, ידע במודל התכנות והמסגרת של Hadoop MapReduce). המשמעות היא שהמשכורות בתחום הזה יגדלו עוד יותר. והם כבר גדולים מאוד. בפרט, Business Insider מעריך שמומחה Hadoop הממוצע עולה 103,000 דולר לשנה, בעוד שהעלות הממוצעת של מומחי ביג דאטה היא 106,000 דולר לשנה. מגייסים המחפשים מומחי Hadoop מדגישים את ג'אווה כאחת המיומנויות החשובות ביותר לתעסוקה מוצלחת. Hadoop כבר זמן רב בשימוש או הוצג יחסית לאחרונה על ידי תאגידים גדולים רבים, כולל IBM, Microsoft ו-Oracle. נכון לעכשיו, גם לחברות אמזון, איביי, אפל, פייסבוק, ג'נרל דינמיק ואחרות יש תפקידים רבים עבור מומחי Hadoop.
"איפה שיש עשן נתונים, יש אש עסקית".

אפאצ'י ספארק

Apache Spark היא עוד פלטפורמת ביג דאטה חשובה שהיא מתחרה רצינית של Hadoop. בשל המהירות, הגמישות והנוחות שהיא מציעה למפתחים, Apache Spark הופכת להיות הסביבה המובילה לפיתוח בקנה מידה גדול ב-SQL, נתונים מנועי מנות וזרימים ולמידת מכונה. כמסגרת לעיבוד ביג דאטה מבוזר, Apache Spark עובדת הרבה כמו המסגרת של Hadoop MapReduce ושודדת בהדרגה את ראשוניותה של MapReduce ב-Big Data. ניתן להשתמש בניצוץ בדרכים רבות ושונות. יש לו API עבור Java, כמו גם מספר שפות תכנות אחרות, כמו Scala, Python ו-R. כיום, Spark נמצא בשימוש נרחב על ידי בנקים, חברות תקשורת, מפתחי משחקי וידאו ואפילו ממשלות. כמובן, ענקיות IT כמו אפל, פייסבוק, יבמ ומיקרוסופט אוהבות את אפאצ'י ספארק.

אפאצ'י מאהוט

Apache Mahout היא ספריית לימוד מכונה בקוד פתוח של Java מבית Apache. זהו כלי למידת מכונה שניתן להרחבה שיכול לעבד נתונים במכונה אחת או יותר. מימושי למידת המכונה נכתבים ב-Java, וחלקים מסוימים בנויים על Apache Hadoop.

אפאצ'י סופה

Apache Storm היא מסגרת לעיבוד זרם מבוזר בזמן אמת. Storm מפשטת עיבוד סובלני לתקלות של זרמי נתונים בלתי מוגבלים, ועושה בזמן אמת את מה ש-Hadoop עושה עבור מנות נתונים. Storm משתלב עם כל מערכת תורים וכל מערכת מסד נתונים.

Java JFreeChart

Java JFreeChart היא ספריית קוד פתוח שפותחה ב-Java ונועדה לשימוש ביישומים מבוססי Java ליצירת מגוון רחב של תרשימים. העובדה היא שהדמיית נתונים היא די חשובה לניתוח מוצלח של נתונים גדולים. מכיוון שביג דאטה כרוך בעבודה עם כמויות גדולות של נתונים, זה יכול להיות קשה לזהות מגמות או אפילו להגיע למסקנות מסוימות על ידי הסתכלות על הנתונים הגולמיים. אבל, אם אותם נתונים מוצגים בתרשים, זה הופך להיות מובן יותר. קל יותר למצוא דפוסים ולזהות מתאמים. כפי שזה קורה, Java JFreeChart עוזר ליצור גרפים ותרשימים לניתוח ביג דאטה.

Deeplearning4j

Deeplearning4j היא ספריית Java המשמשת לבניית סוגים שונים של רשתות עצביות. Deeplearning4j מיושם ב-Java ופועל ב-JVM. זה גם תואם ל- Clojure וכולל API לשפת Scala. Deeplearning4j כולל הטמעה של מכונת בולצמן מוגבלת, רשת אמונות עמוקה, מקודד אוטומטי עמוק, מקודד אוטומטי מחסום מוערמים, רשת טנזור עצבית רקורסיבית, word2vec, doc2vec ו- GloVe.
"הנתונים הופכים לחומר הגלם החדש לעסקים".

ביג דאטה על סף 2020: הטרנדים הטריים ביותר

שנת 2020 צריכה להיות עוד שנה של צמיחה והתפתחות מהירה עבור ביג דאטה, יחד עם אימוץ נרחב של ביג דאטה על ידי חברות וארגונים בתחומים שונים. אז, בואו נדגיש בקצרה את המגמות בביג דאטה שאמורות למלא תפקיד חשוב בשנה הבאה. ג'אווה וביג דאטה: מדוע פרויקטי ביג דאטה לא יכולים להסתדר בלי ג'אווה - 3

https://www.arnnet.com.au/slideshow/553034/pictures-our-10-favourite-techie-simpsons-episodes-moments/

האינטרנט של הדברים - ביג דאטה הולך וגדל

האינטרנט של הדברים (IoT) אולי נראה לא קשור לנושא, אבל זה לא המקרה. ה-IoT ממשיך "בטרנד" כשהוא צובר תאוצה ומתפשט ברחבי העולם. כתוצאה מכך, גדל גם מספר המכשירים ה"חכמים" המותקנים בבתים ובמשרדים. כפי שהם צריכים, המכשירים האלה שולחים כל מיני נתונים לאן שהם צריכים להגיע. המשמעות היא שנפח הביג דאטה רק יגדל. לדברי מומחים, לארגונים רבים יש כבר הרבה נתונים, בעיקר מה-IoT, שהם לא מוכנים היטב לשימוש. בשנת 2020, מפולת הנתונים הזו תהפוך לגדולה עוד יותר. כתוצאה מכך, גם ההשקעות בפרויקטי ביג דאטה יגדלו במהירות. וזכור, ה-IoT גם מאוד אוהב את Java . מי לא אוהב את זה?

תאומים דיגיטליים

תאומים דיגיטליים הם טרנד מעניין נוסף שקשור ישירות לאינטרנט של הדברים ולביג דאטה. בהתאם לכך, Java תראה כאן לא מעט שימוש. מהו תאום דיגיטלי? זהו העתק דיגיטלי של אובייקט או מערכת אמיתיים. אנלוגי דיגיטלי של מכשיר פיזי מאפשר לדמות תהליכים פנימיים, מאפיינים טכניים והתנהגות של אובייקט אמיתי בהשפעת הפרעות וסביבתו. תאום דיגיטלי לא יכול לפעול ללא מספר עצום של חיישנים במכשיר האמיתי הפועל במקביל. עד 2020, צפוי שבעולם יהיו יותר מ-20 מיליארד חיישנים מחוברים המשדרים מידע עבור מיליארדי תאומים דיגיטליים. בשנת 2020, מגמה זו אמורה לצבור תאוצה ולעלות לידי ביטוי.

הטרנספורמציה הדיגיטלית תהפוך מכוונת יותר.

במשך מספר שנים, הטרנספורמציה הדיגיטלית מוזכרת כמגמה חשובה. אבל מומחים אומרים שלחברות ומנהלים בכירים רבים הייתה הבנה מעורפלת ביותר של מה הביטוי בכלל אומר. עבור רבים, הטרנספורמציה הדיגיטלית פירושה מציאת דרכים למכור את הנתונים שהחברה אוספת כדי לייצר זרמי הכנסה חדשים. עד 2020, יותר ויותר חברות מבינות שהטרנספורמציה הדיגיטלית היא יצירת יתרון תחרותי על ידי שימוש נכון בנתונים בכל היבט של העסק שלהן. המשמעות היא שאנו יכולים לצפות שחברות יגדילו תקציבים לפרויקטים הקשורים לשימוש נכון ומושכל בנתונים.
"אנחנו נעים לאט לאט לעידן שבו ביג דאטה הוא נקודת ההתחלה, לא הסוף".
פרל ז'ו ,
מחברת סדרת ספרי המאסטר הדיגיטלי

סיכום

Big Data הוא עוד תחום פעילות עצום באמת עם הרבה הזדמנויות עבור מפתחי Java. בנוסף לאינטרנט של הדברים, תחום זה פורח וסובל ממחסור חריף במתכנתים ובמומחים טכניים נוספים. אז עכשיו הגיע הזמן להפסיק לקרוא את המאמרים הארוכים האלה ולהתחיל ללמוד ג'אווה!