CodeGym /จาวาบล็อก /สุ่ม /Java และ Big Data: ทำไมโครงการ Big Data ไม่สามารถทำได้หาก...

ระดับ

San Francisco

21 July 2023
248 views
0 comments

Java และ Big Data: ทำไมโครงการ Big Data ไม่สามารถทำได้หากไม่มี Java

ในบทความเกี่ยวกับ CodeGym เราไม่เคยเบื่อที่จะพูดถึงว่า Java ซึ่งมีอายุ 25 ปีแล้วกำลังได้รับความนิยมใหม่และมีแนวโน้มที่ยอดเยี่ยมในอนาคตอันใกล้นี้ มีหลายสาเหตุนี้. หนึ่งในนั้นคือ Java เป็นภาษาโปรแกรมหลักในตลาดไอทีที่กำลังได้รับความนิยมและได้รับความนิยมอย่างรวดเร็ว Java และ Big Data: ทำไมโครงการ Big Data ไม่สามารถทำได้หากไม่มี Java - 1

Internet of Things (IoT) และข้อมูลขนาดใหญ่ ตลอดจนระบบธุรกิจอัจฉริยะ (BI) และการวิเคราะห์ตามเวลาจริงมักถูกกล่าวถึงในบริบทของความรักอันลึกซึ้งและความรู้สึกที่อ่อนโยนต่อ Java เมื่อเร็ว ๆ นี้ เราได้สำรวจความสัมพันธ์ระหว่าง Java และ Internet of Thingsและพูดคุยเกี่ยวกับวิธีที่นักพัฒนา Java สามารถปรับแต่งทักษะของตนให้เหมาะกับกลุ่มเฉพาะนี้ ตอนนี้เรามุ่งความสนใจไปยังพื้นที่ที่กำลังมาแรงอีกแห่ง ซึ่ง — คุณคงเดาได้ — ชื่นชอบ Java และขาดไม่ได้เช่นกัน ดังนั้น วันนี้เราจะสำรวจคำถามต่อไปนี้เกี่ยวกับข้อมูลขนาดใหญ่: เหตุใด Java จึงเป็นตัวเข้ารหัส Java ที่ภักดี จึงเป็นที่นิยมอย่างมากในช่องนี้เช่นกัน Java ใช้ในโครงการข้อมูลขนาดใหญ่อย่างไร คุณควรเรียนรู้อะไรเพื่อให้มีคุณสมบัติเหมาะสมสำหรับการจ้างงานในช่องนี้ และแนวโน้มของข้อมูลขนาดใหญ่ในปัจจุบันเป็นอย่างไร? และในระหว่างนี้ เราจะดูความคิดเห็นของผู้เชี่ยวชาญชั้นนำของโลกเกี่ยวกับบิ๊กดาต้า ซึ่งจะทำให้แม้แต่โฮเมอร์ ซิมป์สันยังอยากทำงานกับบิ๊กดาต้า Java และ Big Data: ทำไมโครงการ Big Data ไม่สามารถทำได้หากไม่มี Java - 2

Java และ Big Data: ทำไมโครงการ Big Data ไม่สามารถทำได้หากไม่มี Java - 2

https://ru.wikipedia.org/wiki/Homer_Goes_to_College

"ฉันพูดอยู่เสมอว่างานเซ็กซี่ในอีก 10 ปีข้างหน้าจะเป็นนักสถิติ ผู้คนคิดว่าฉันล้อเล่น แต่ใครจะไปคิดว่าวิศวกรคอมพิวเตอร์จะเป็นงานเซ็กซี่ในยุค 1990"

Hal Varianหัวหน้า
นักเศรษฐศาสตร์ของ Google

ข้อมูลขนาดใหญ่กำลังพิชิตโลก

แต่ก่อนอื่นเล็กน้อยเกี่ยวกับข้อมูลขนาดใหญ่และเหตุใดช่องนี้จึงมีแนวโน้มในการสร้างอาชีพ กล่าวโดยสรุปคือ ข้อมูลขนาดใหญ่นั้นไม่หยุดยั้ง มั่นคง และ (ที่สำคัญที่สุด) เข้าสู่กระบวนการทางธุรกิจของบริษัทต่างๆ ทั่วโลกอย่างรวดเร็ว ในทางกลับกัน บริษัทเหล่านั้นก็ถูกบังคับให้หาผู้เชี่ยวชาญด้านวิทยาศาสตร์ข้อมูล (แน่นอนว่าไม่ใช่แค่โปรแกรมเมอร์) ล่อลวงพวกเขาด้วยเงินเดือนสูงและสิทธิพิเศษอื่นๆ จากข้อมูลของ Forbes การใช้ข้อมูลขนาดใหญ่ในธุรกิจเพิ่มขึ้นจาก 17% ในปี 2015 เป็น 59% ในปี 2018 ข้อมูลขนาดใหญ่กำลังแพร่กระจายอย่างรวดเร็วไปยังภาคส่วนต่าง ๆ ของเศรษฐกิจ ซึ่งรวมถึงการขาย การตลาด การวิจัยและพัฒนา โลจิสติกส์ และอื่น ๆ อีกมากมาย จากการวิจัยของ IBM จำนวนงานสำหรับมืออาชีพในสาขานี้จะเกิน 2.7 ล้านในปี 2020 เฉพาะในสหรัฐอเมริกาเท่านั้น สัญญา? พนันได้เลย.

ข้อมูลขนาดใหญ่และ Java

ทีนี้ ทำไม big data และ Java ถึงมีอะไรเหมือนกันมากมาย? สิ่งที่สำคัญคือเครื่องมือหลักหลายอย่างสำหรับข้อมูลขนาดใหญ่นั้นเขียนด้วยภาษาจาวา ยิ่งไปกว่านั้น เครื่องมือเหล่านี้เกือบทั้งหมดเป็นโครงการโอเพ่นซอร์ส ซึ่งหมายความว่าทุกคนสามารถใช้ได้และตามด้วยบริษัทไอทีที่ใหญ่ที่สุดทั่วโลก "ในระดับใหญ่ Big Data คือ Java Hadoop และเปอร์เซ็นต์ส่วนใหญ่ของระบบนิเวศ Hadoop เขียนด้วย Java อินเทอร์เฟซ MapReduce ดั้งเดิมสำหรับ Hadoop คือ Java ดังนั้นคุณจึงสามารถย้ายไปยังข้อมูลขนาดใหญ่ได้ง่ายๆ เพียงแค่สร้างโซลูชัน Java ที่ทำงานด้านบน ของ Hadoop นอกจากนี้ยังมีไลบรารี Java เช่น Cascading ซึ่งทำให้งานง่ายขึ้น Java ยังมีประโยชน์มากสำหรับการดีบักสิ่งต่างๆ แม้ว่าคุณจะใช้บางอย่างเช่น Hive" พูดว่าMarcin Mejran นักวิทยาศาสตร์ด้านข้อมูลและรองประธานฝ่ายพัฒนาข้อมูลที่ Eight "นอกเหนือจาก Hadoop แล้ว Storm เขียนด้วยภาษา Java และ Spark (กล่าวได้ว่าอนาคตของการประมวลผล Hadoop) อยู่ใน Scala (ซึ่งทำงานบน JVM และ Spark มีอินเทอร์เฟซ Java) ดังนั้น Java จึงครอบคลุมพื้นที่ Big Data จำนวนมาก "ผู้เชี่ยวชาญกล่าวเสริม อย่างที่คุณเห็น ความรู้เกี่ยวกับ Java นั้นเป็นสิ่งที่ไม่สามารถถูกแทนที่ได้ในข้อมูลขนาดใหญ่ อินเทอร์เน็ตในทุกสิ่ง การเรียนรู้ของเครื่อง และช่องทางอื่นๆ อีกมากมายที่ยังคงได้รับความนิยมอย่างต่อเนื่อง

"ทุกบริษัทมีข้อมูลขนาดใหญ่ในอนาคต และทุกบริษัทจะอยู่ในธุรกิจข้อมูลในที่สุด"

Thomas H. Davenportนัก
วิชาการชาวอเมริกันและผู้เชี่ยวชาญด้านการวิเคราะห์และนวัตกรรมกระบวนการทางธุรกิจ

และตอนนี้เพิ่มเติมเล็กน้อยเกี่ยวกับเครื่องมือข้อมูลขนาดใหญ่ดังกล่าวซึ่งนักพัฒนา Java ใช้กันอย่างแพร่หลาย

อาปาเช่ ฮาดูป

Apache Hadoop เป็นหนึ่งในเทคโนโลยีพื้นฐานสำหรับข้อมูลขนาดใหญ่ และถูกเขียนด้วยภาษาจาวา Hadoop เป็นชุดยูทิลิตี้ ไลบรารี และเฟรมเวิร์กแบบโอเพ่นซอร์สฟรีที่จัดการโดย Apache Software Foundation Hadoop เดิมทีสร้างขึ้นสำหรับการประมวลผลที่ปรับขนาดได้ กระจายได้ และทนทานต่อข้อผิดพลาด รวมถึงการจัดเก็บข้อมูลต่างๆ จำนวนมาก Hadoop จึงกลายเป็นหัวใจสำคัญของโครงสร้างพื้นฐานข้อมูลขนาดใหญ่สำหรับหลายบริษัท บริษัทต่างๆ ทั่วโลกกำลังมองหาผู้เชี่ยวชาญ Hadoop อย่างจริงจัง และ Java เป็นทักษะสำคัญที่จำเป็นต่อการเรียนรู้เทคโนโลยีนี้ ตามที่นักพัฒนาบน Slashdotในปี 2019 บริษัทขนาดใหญ่หลายแห่ง รวมถึง JPMorgan Chase ที่มีเงินเดือนสูงเป็นประวัติการณ์สำหรับโปรแกรมเมอร์ ได้แสวงหาผู้เชี่ยวชาญ Hadoop อย่างแข็งขันในการประชุม Hadoop World แต่ถึงอย่างนั้น พวกเขาก็ไม่สามารถหาผู้เชี่ยวชาญที่มีทักษะที่จำเป็นได้เพียงพอ (โดยเฉพาะความรู้ ของโมเดลและเฟรมเวิร์กการเขียนโปรแกรม Hadoop MapReduce) นั่นหมายความว่าเงินเดือนในสาขานี้จะเติบโตมากยิ่งขึ้น และพวกมันก็ตัวใหญ่มากแล้ว โดยเฉพาะอย่างยิ่ง Business Insider ประมาณการว่าผู้เชี่ยวชาญ Hadoop โดยเฉลี่ยมีค่าใช้จ่าย 103,000 ดอลลาร์ต่อปี ในขณะที่ค่าใช้จ่ายเฉลี่ยของผู้เชี่ยวชาญด้านบิ๊กดาต้าอยู่ที่ 106,000 ดอลลาร์ต่อปี นายหน้าที่กำลังมองหาผู้เชี่ยวชาญ Hadoop เน้นว่า Java เป็นหนึ่งในทักษะที่สำคัญที่สุดสำหรับการจ้างงานที่ประสบความสำเร็จ Hadoop ถูกใช้มานานแล้วหรือเพิ่งเปิดตัวโดยองค์กรขนาดใหญ่หลายแห่ง เช่น IBM, Microsoft และ Oracle ในขณะนี้

"ที่ใดมีควันข้อมูล ที่นั่นมีไฟทางธุรกิจ"

ดร. โทมัส เรดแมนผู้เชี่ยวชาญ
ด้านการวิเคราะห์ข้อมูลและเทคโนโลยีดิจิทัลที่มีชื่อเสียง

อาปาเช่ สปาร์ค

Apache Spark เป็นอีกหนึ่งแพลตฟอร์มข้อมูลขนาดใหญ่ที่สำคัญซึ่งเป็นคู่แข่งสำคัญของ Hadoop เนื่องจากความเร็ว ความยืดหยุ่น และความสะดวกสบายที่นักพัฒนามอบให้ Apache Spark จึงกลายเป็นสภาพแวดล้อมชั้นนำสำหรับการพัฒนาขนาดใหญ่ใน SQL, การสลับแพ็กเก็ตและข้อมูลที่สตรีม และการเรียนรู้ของเครื่อง ในฐานะที่เป็นเฟรมเวิร์กสำหรับการประมวลผลข้อมูลขนาดใหญ่แบบกระจาย Apache Spark ทำงานเหมือนกับเฟรมเวิร์ก Hadoop MapReduce และค่อยๆ ปล้น MapReduce จากความเป็นอันดับหนึ่งในข้อมูลขนาดใหญ่ Spark สามารถใช้งานได้หลายวิธี มี API สำหรับ Java รวมถึงภาษาโปรแกรมอื่นๆ อีกหลายภาษา เช่น Scala, Python และ R ปัจจุบัน Spark ถูกใช้อย่างแพร่หลายโดยธนาคาร บริษัทโทรคมนาคม ผู้พัฒนาวิดีโอเกม และแม้แต่รัฐบาล ยักษ์ใหญ่ด้านไอทีอย่าง Apple, Facebook, IBM และ Microsoft ต่างชื่นชอบ Apache Spark

อาปาเช่ ควาญช้าง

Apache Mahout เป็นไลบรารีแมชชีนเลิร์นนิง Java แบบโอเพ่นซอร์สจาก Apache เป็นเครื่องมือแมชชีนเลิร์นนิงที่ปรับขนาดได้ซึ่งสามารถประมวลผลข้อมูลในเครื่องหนึ่งเครื่องขึ้นไป การใช้งานแมชชีนเลิร์นนิงเขียนด้วย Java และบางส่วนสร้างขึ้นบน Apache Hadoop

อาปาเช่ สตอร์ม

Apache Storm เป็นเฟรมเวิร์กสำหรับการประมวลผลสตรีมแบบกระจายตามเวลาจริง Storm ลดความซับซ้อนของการประมวลผลที่ทนทานต่อการผิดพลาดของสตรีมข้อมูลแบบไม่จำกัด ทำแบบเรียลไทม์เหมือนที่ Hadoop ทำกับแพ็กเก็ตข้อมูล Storm รวมเข้ากับระบบคิวและระบบฐานข้อมูลใด ๆ

Java JFreeChart

Java JFreeChart เป็นไลบรารีโอเพ่นซอร์สที่พัฒนาขึ้นใน Java และออกแบบมาเพื่อใช้ในแอปพลิเคชันที่ใช้ Java เพื่อสร้างแผนภูมิที่หลากหลาย ความจริงก็คือการแสดงภาพข้อมูลนั้นค่อนข้างสำคัญสำหรับการวิเคราะห์ข้อมูลขนาดใหญ่ให้ประสบความสำเร็จ เนื่องจากบิ๊กดาต้าเกี่ยวข้องกับการทำงานกับข้อมูลจำนวนมาก จึงเป็นเรื่องยากที่จะระบุแนวโน้มหรือแม้แต่หาข้อสรุปที่เฉพาะเจาะจงโดยการดูที่ข้อมูลดิบ แต่ถ้าข้อมูลเดียวกันแสดงในแผนภูมิ ก็จะเข้าใจได้มากขึ้น ง่ายต่อการค้นหารูปแบบและระบุความสัมพันธ์ เมื่อมันเกิดขึ้น Java JFreeChart ช่วยสร้างกราฟและแผนภูมิสำหรับการวิเคราะห์ข้อมูลขนาดใหญ่

ดีพเลิร์นนิง4j

Deeplearning4j เป็นไลบรารี Java ที่ใช้สร้างโครงข่ายประสาทเทียมประเภทต่างๆ Deeplearning4j ใช้งานใน Java และทำงานใน JVM นอกจากนี้ยังเข้ากันได้กับ Clojure และมี API สำหรับภาษา Scala Deeplearning4j ประกอบด้วยการใช้งานเครื่อง Boltzmann แบบจำกัด, เครือข่ายความเชื่อเชิงลึก, ตัวเข้ารหัสอัตโนมัติเชิงลึก, ตัวเข้ารหัสอัตโนมัติ denoising แบบสแต็ก, เครือข่ายนิวรอลเทนเซอร์แบบเรียกซ้ำ, word2vec, doc2vec และ GloVe

"ข้อมูลกำลังกลายเป็นวัตถุดิบใหม่สำหรับธุรกิจ"

Craig Mundieที่
ปรึกษาอาวุโสของ CEO ที่ Microsoft

ข้อมูลขนาดใหญ่ตามเกณฑ์ปี 2020: เทรนด์ใหม่ล่าสุด

ปี 2020 ควรเป็นอีกปีแห่งการเติบโตและวิวัฒนาการอย่างรวดเร็วสำหรับข้อมูลขนาดใหญ่ พร้อมกับการนำข้อมูลขนาดใหญ่ไปใช้อย่างแพร่หลายโดยบริษัทและองค์กรในด้านต่างๆ ดังนั้น เรามาเน้นสั้นๆ เกี่ยวกับแนวโน้มของข้อมูลขนาดใหญ่ที่น่าจะมีบทบาทสำคัญในปีหน้า Java และ Big Data: ทำไมโครงการ Big Data ไม่สามารถทำได้หากไม่มี Java - 3

Java และ Big Data: ทำไมโครงการ Big Data ไม่สามารถทำได้หากไม่มี Java - 3

https://www.arnnet.com.au/slideshow/553034/pictures-our-10-favourite-techie-simpsons-episodes-moments/

Internet of Things — ข้อมูลขนาดใหญ่กำลังขยายใหญ่ขึ้น

Internet of Things (IoT) อาจดูเหมือนเป็นเรื่องนอกประเด็น แต่ไม่ใช่ในกรณีนี้ IoT ยังคงเป็น "เทรนด์" เนื่องจากได้รับแรงผลักดันและแพร่กระจายไปทั่วโลก ดังนั้น จำนวนอุปกรณ์ "อัจฉริยะ" ที่ติดตั้งในบ้านและสำนักงานก็เพิ่มขึ้นเช่นกัน อย่างที่ควรจะเป็น อุปกรณ์เหล่านี้กำลังส่งข้อมูลทุกชนิดไปยังที่ที่ต้องการ ซึ่งหมายความว่าปริมาณของข้อมูลขนาดใหญ่จะเพิ่มขึ้นเท่านั้น ตามที่ผู้เชี่ยวชาญระบุว่า องค์กรหลายแห่งมีข้อมูลจำนวนมากอยู่แล้ว โดยหลักมาจาก IoT ซึ่งพวกเขาไม่พร้อมที่จะใช้ ในปี 2020 Data Avalanche นี้จะยิ่งใหญ่มากขึ้นไปอีก ดังนั้นการลงทุนในโครงการข้อมูลขนาดใหญ่จะเพิ่มขึ้นอย่างรวดเร็วเช่นกัน และโปรดจำไว้ว่า IoT ชื่นชอบ Java มากเช่น กัน ใครไม่รักมัน?

ฝาแฝดดิจิตอล

Digital Twins เป็นอีกหนึ่งเทรนด์ที่น่าสนใจซึ่งเกี่ยวข้องโดยตรงกับ Internet of Things และข้อมูลขนาดใหญ่ ดังนั้น Java จะเห็นการใช้งานค่อนข้างน้อยที่นี่ แฝดดิจิตอลคืออะไร? นี่คือแบบจำลองดิจิทัลของวัตถุหรือระบบจริง อะนาล็อกดิจิทัลของอุปกรณ์ทางกายภาพทำให้สามารถจำลองกระบวนการภายในของวัตถุจริง ลักษณะทางเทคนิค และพฤติกรรมภายใต้อิทธิพลของสัญญาณรบกวนและสภาพแวดล้อม แฝดดิจิตอลไม่สามารถทำงานได้หากไม่มีเซ็นเซอร์จำนวนมากในอุปกรณ์จริงที่ทำงานพร้อมกัน ภายในปี 2563 คาดว่าทั่วโลกจะมีเซ็นเซอร์ที่เชื่อมต่อกันมากกว่า 20,000 ล้านตัวเพื่อส่งข้อมูลสำหรับฝาแฝดดิจิทัลหลายพันล้านคู่ ในปี 2020 เทรนด์นี้น่าจะได้รับแรงผลักดันและก้าวไปข้างหน้า

การเปลี่ยนแปลงทางดิจิทัลจะมีความตั้งใจมากขึ้น

เป็นเวลาหลายปีที่การเปลี่ยนแปลงทางดิจิทัลได้รับการกล่าวถึงว่าเป็นแนวโน้มที่สำคัญ แต่ผู้เชี่ยวชาญกล่าวว่าหลายบริษัทและผู้บริหารระดับสูงมีความเข้าใจที่คลุมเครืออย่างยิ่งว่าวลีนี้หมายถึงอะไร สำหรับหลาย ๆ คน การแปลงทางดิจิทัลหมายถึงการค้นหาวิธีขายข้อมูลที่บริษัทรวบรวมไว้เพื่อสร้างแหล่งรายได้ใหม่ ภายในปี 2020 บริษัทจำนวนมากขึ้นเรื่อยๆ ตระหนักว่าการเปลี่ยนแปลงทางดิจิทัลนั้นเกี่ยวกับการสร้างความได้เปรียบทางการแข่งขันโดยการใช้ข้อมูลอย่างถูกต้องในทุกแง่มุมของธุรกิจ ซึ่งหมายความว่าเราสามารถคาดหวังได้ว่าบริษัทต่างๆ จะเพิ่มงบประมาณสำหรับโครงการที่เกี่ยวข้องกับการใช้ข้อมูลที่ถูกต้องและรอบรู้

"เรากำลังก้าวเข้าสู่ยุคที่ Big Data เป็นจุดเริ่มต้น ไม่ใช่จุดสิ้นสุด"

Pearl Zhuผู้
แต่งหนังสือชุด Digital Master

สรุป

บิ๊กดาต้าเป็นอีกพื้นที่หนึ่งของกิจกรรมขนาดใหญ่ที่มีโอกาสมากมายสำหรับนักพัฒนาจาวา นอกเหนือจาก Internet of Things แล้ว พื้นที่นี้กำลังเฟื่องฟูและประสบปัญหาการขาดแคลนโปรแกรมเมอร์และผู้เชี่ยวชาญด้านเทคนิคอื่น ๆ อย่างเฉียบพลัน ตอนนี้ได้เวลาหยุดอ่านบทความยาวๆ เหล่านี้แล้วเริ่มเรียนรู้ Java!

อ่านเพิ่มเติม:

ความคิดเห็น

TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION