CodeGym /Blog Java /Ngẫu nhiên /Java và Dữ liệu lớn: tại sao các dự án Dữ liệu lớn không ...
John Squirrels
Mức độ
San Francisco

Java và Dữ liệu lớn: tại sao các dự án Dữ liệu lớn không thể thực hiện được nếu không có Java

Xuất bản trong nhóm
Trong các bài viết của chúng tôi trên CodeGym, chúng tôi không ngừng đề cập đến Java, hiện đã 25 tuổi, đang được yêu thích trở lại và có triển vọng rực rỡ trong tương lai gần. Cái này có một vài nguyên nhân. Một trong số đó là Java là ngôn ngữ lập trình chính trong một số thị trường CNTT có xu hướng đang nhanh chóng trở nên phổ biến. Java và Dữ liệu lớn: tại sao các dự án Dữ liệu lớn không thể làm được nếu không có Java - 1 Internet vạn vật (IoT) và dữ liệu lớn, cũng như kinh doanh thông minh (BI) và phân tích thời gian thực được đề cập thường xuyên nhất trong bối cảnh tình cảm sâu sắc và dịu dàng dành cho Java. Gần đây, chúng tôi đã khám phá mối quan hệ giữa Java và Internet vạn vậtvà nói về cách một nhà phát triển Java có thể điều chỉnh các kỹ năng của mình cho thích hợp với lĩnh vực này. Bây giờ chúng ta chuyển sự chú ý sang một lĩnh vực siêu thịnh hành khác mà — bạn đoán nó — cũng yêu thích Java và không thể sống thiếu nó. Vì vậy, hôm nay chúng ta sẽ khám phá những câu hỏi sau liên quan đến dữ liệu lớn: tại sao Java, và do đó, các lập trình viên Java trung thành, cũng cực kỳ nổi tiếng trong lĩnh vực này? Java được sử dụng chính xác như thế nào trong các dự án dữ liệu lớn? bạn nên học gì để đủ điều kiện làm việc trong lĩnh vực này? và các xu hướng hiện tại trong dữ liệu lớn là gì? Và giữa tất cả những điều này, chúng ta sẽ xem xét ý kiến ​​của các chuyên gia hàng đầu thế giới về dữ liệu lớn, điều này sẽ khiến ngay cả Homer Simpson cũng muốn làm việc với dữ liệu lớn. Java và Dữ liệu lớn: tại sao các dự án Dữ liệu lớn không thể làm được nếu không có Java - 2

https://ru.wikipedia.org/wiki/Homer_Goes_to_College

"Tôi cứ nói công việc hấp dẫn trong mười năm tới sẽ là nhà thống kê. Mọi người nghĩ tôi đang nói đùa, nhưng ai có thể đoán được rằng kỹ sư máy tính sẽ là công việc hấp dẫn của những năm 1990?"
Hal Varian ,
nhà kinh tế trưởng của Google

Dữ liệu lớn đang chinh phục hành tinh

Nhưng trước tiên, hãy tìm hiểu một chút về dữ liệu lớn và lý do tại sao thị trường ngách này lại rất hứa hẹn để xây dựng sự nghiệp. Nói tóm lại, dữ liệu lớn chắc chắn, ổn định và (quan trọng nhất) rất nhanh chóng xâm nhập vào quy trình kinh doanh của các công ty trên khắp thế giới. Đổi lại, những công ty đó buộc phải tìm các chuyên gia khoa học dữ liệu (tất nhiên không chỉ lập trình viên), thu hút họ bằng mức lương cao và các đặc quyền khác. Theo Forbes, việc sử dụng dữ liệu lớn tại các doanh nghiệp tăng lêntừ 17% năm 2015 lên 59% vào năm 2018. Dữ liệu lớn đang nhanh chóng lan rộng đến các lĩnh vực khác nhau của nền kinh tế, bao gồm bán hàng, tiếp thị, nghiên cứu và phát triển, hậu cần và hoàn toàn mọi thứ khác. Theo nghiên cứu của IBM, số lượng việc làm cho các chuyên gia trong lĩnh vực này sẽ vượt quá 2,7 triệu vào năm 2020 chỉ riêng tại Hoa Kỳ. Hứa hẹn? Bạn đặt cược.

Dữ liệu lớn và Java

Bây giờ, tại sao dữ liệu lớn và Java lại có nhiều điểm chung như vậy? Vấn đề là nhiều công cụ chính cho dữ liệu lớn được viết bằng Java. Hơn nữa, hầu hết tất cả các công cụ này đều là các dự án mã nguồn mở. Điều này có nghĩa là chúng có sẵn cho tất cả mọi người và do đó được các công ty CNTT lớn nhất trên thế giới tích cực sử dụng. "Ở một mức độ lớn, Dữ liệu lớn là Java. Hadoop và một tỷ lệ lớn hệ sinh thái Hadoop được viết bằng Java. Giao diện MapReduce gốc cho Hadoop là Java. Vì vậy, bạn có thể dễ dàng chuyển sang dữ liệu lớn chỉ bằng cách xây dựng các giải pháp Java chạy trên đầu trang của Hadoop. Ngoài ra còn có các thư viện Java như Cascading giúp công việc dễ dàng hơn. Java cũng thực sự hữu ích để gỡ lỗi mọi thứ ngay cả khi bạn sử dụng thứ gì đó như Hive." nóiMarcin Mejran, một nhà khoa học dữ liệu và phó chủ tịch phát triển dữ liệu tại Eight. "Ngoài Hadoop, Storm được viết bằng Java và Spark (có thể nói là tương lai của máy tính hadoop) là Scala (chạy trên JVM và Spark có giao diện Java). Vì vậy, Java bao phủ một tỷ lệ lớn không gian Dữ liệu lớn, " chuyên gia cho biết thêm. Như bạn có thể thấy, kiến ​​thức về Java đơn giản là không thể thay thế trong dữ liệu lớn, Internet vạn vật, máy học và một số lĩnh vực khác đang tiếp tục trở nên phổ biến.
"Mọi công ty đều có dữ liệu lớn trong tương lai và mọi công ty cuối cùng sẽ kinh doanh dữ liệu."
Thomas H. Davenport ,
một học giả và chuyên gia người Mỹ về phân tích và đổi mới quy trình kinh doanh
Và bây giờ nói thêm một chút về các công cụ dữ liệu lớn đã nói ở trên, được các nhà phát triển Java sử dụng rộng rãi.

Apache Hadoop

Apache Hadoop là một trong những công nghệ nền tảng cho dữ liệu lớn và nó được viết bằng Java. Hadoop là một bộ tiện ích, thư viện và khung mã nguồn mở, miễn phí do Apache Software Foundation quản lý. Ban đầu được tạo ra cho điện toán có thể mở rộng, phân tán và chịu lỗi, cũng như lưu trữ một lượng lớn thông tin khác nhau, Hadoop đương nhiên trở thành trung tâm của cơ sở hạ tầng dữ liệu lớn cho nhiều công ty. Các công ty trên khắp thế giới đang tích cực tìm kiếm các chuyên gia Hadoop và Java là kỹ năng chính cần có để làm chủ công nghệ này. Theo các nhà phát triển trên Slashdot, năm 2019, nhiều công ty lớn, trong đó có JPMorgan Chase, với mức lương kỷ lục dành cho lập trình viên, đã tích cực tìm kiếm các chuyên gia Hadoop tại hội nghị Hadoop World, nhưng ngay cả ở đó, họ cũng không thể tìm đủ chuyên gia có kỹ năng cần thiết (đặc biệt là kiến ​​thức của mô hình và khung lập trình Hadoop MapReduce). Điều này có nghĩa là tiền lương trong lĩnh vực này sẽ còn tăng hơn nữa. Và chúng đã rất lớn rồi. Đặc biệt, Business Insider ước tính rằng chi phí trung bình của một chuyên gia Hadoop là 103.000 USD mỗi năm, trong khi chi phí trung bình của các chuyên gia dữ liệu lớn là 106.000 USD mỗi năm. Các nhà tuyển dụng đang tìm kiếm các chuyên gia Hadoop nhấn mạnh Java là một trong những kỹ năng quan trọng nhất để có việc làm thành công. Hadoop từ lâu đã được sử dụng hoặc được giới thiệu tương đối gần đây bởi nhiều tập đoàn lớn, bao gồm IBM, Microsoft và Oracle. Ngay bây giờ,
"Ở đâu có khói dữ liệu, ở đó có lửa kinh doanh."

Tia lửa Apache

Apache Spark là một nền tảng dữ liệu lớn quan trọng khác, là đối thủ nặng ký của Hadoop. Do tốc độ, tính linh hoạt và sự tiện lợi mà nó mang lại cho các nhà phát triển, Apache Spark đang trở thành môi trường hàng đầu cho sự phát triển quy mô lớn về SQL, chuyển mạch gói và truyền dữ liệu cũng như máy học. Là một khung để xử lý dữ liệu lớn phân tán, Apache Spark hoạt động rất giống khung Hadoop MapReduce và đang dần cướp đi tính ưu việt của MapReduce trong dữ liệu lớn. Spark có thể được sử dụng theo nhiều cách khác nhau. Nó có API cho Java, cũng như một số ngôn ngữ lập trình khác, chẳng hạn như Scala, Python và R. Ngày nay, Spark được sử dụng rộng rãi bởi các ngân hàng, công ty viễn thông, nhà phát triển trò chơi điện tử và thậm chí cả chính phủ. Đương nhiên, những gã khổng lồ CNTT như Apple, Facebook, IBM và Microsoft yêu thích Apache Spark.

Người quản gia Apache

Apache Mahout là một thư viện máy học Java mã nguồn mở từ Apache. Nó là một công cụ học máy có thể mở rộng, có thể xử lý dữ liệu trên một hoặc nhiều máy. Việc triển khai máy học được viết bằng Java và một số phần được xây dựng trên Apache Hadoop.

Bão Apache

Apache Storm là một khuôn khổ để xử lý luồng phân tán trong thời gian thực. Storm đơn giản hóa quá trình xử lý chịu lỗi đối với các luồng dữ liệu không giới hạn, thực hiện trong thời gian thực những gì Hadoop thực hiện đối với các gói dữ liệu. Storm tích hợp với mọi hệ thống xếp hàng và mọi hệ thống cơ sở dữ liệu.

Java JFreeChart

Java JFreeChart là một thư viện mã nguồn mở được phát triển bằng Java và được thiết kế để sử dụng trong các ứng dụng dựa trên Java nhằm tạo ra nhiều loại biểu đồ. Thực tế là trực quan hóa dữ liệu khá quan trọng để phân tích thành công dữ liệu lớn. Bởi vì dữ liệu lớn liên quan đến việc làm việc với một lượng lớn dữ liệu nên có thể khó xác định xu hướng hoặc thậm chí đưa ra kết luận cụ thể bằng cách xem xét dữ liệu thô. Tuy nhiên, nếu cùng một dữ liệu được hiển thị trong biểu đồ, nó sẽ trở nên dễ hiểu hơn. Nó dễ dàng hơn để tìm các mẫu và xác định các mối tương quan. Khi nó xảy ra, Java JFreeChart giúp tạo các đồ thị và biểu đồ để phân tích dữ liệu lớn.

Deeplearning4j

Deeplearning4j là một thư viện Java được sử dụng để xây dựng nhiều loại mạng thần kinh khác nhau. Deeplearning4j được triển khai bằng Java và chạy trong JVM. Nó cũng tương thích với Clojure và bao gồm API cho ngôn ngữ Scala. Deeplearning4j bao gồm việc triển khai máy Boltzmann bị hạn chế, mạng niềm tin sâu, bộ mã hóa tự động sâu, bộ mã hóa tự động khử nhiễu xếp chồng, mạng tensor thần kinh đệ quy, word2vec, doc2vec và GloVe.
"Dữ liệu đang trở thành nguyên liệu thô mới cho doanh nghiệp."
Craig Mundie ,
Cố vấn cấp cao cho CEO tại Microsoft

Big Data trước ngưỡng cửa 2020: những xu hướng mới nhất

Năm 2020 sẽ là một năm nữa của sự tăng trưởng và phát triển nhanh chóng đối với dữ liệu lớn, cùng với việc các công ty và tổ chức trong các lĩnh vực khác nhau áp dụng rộng rãi dữ liệu lớn. Vì vậy, hãy làm nổi bật ngắn gọn các xu hướng trong dữ liệu lớn sẽ đóng một vai trò quan trọng trong năm tới. Java và Dữ liệu lớn: tại sao các dự án Dữ liệu lớn không thể làm được nếu không có Java - 3

https://www.arnnet.com.au/slideshow/553034/pictures-our-10-favourite-techie-simpsons-episodes-moments/

Internet vạn vật — dữ liệu lớn ngày càng lớn hơn

Internet of Things (IoT) có vẻ lạc đề, nhưng thực tế không phải vậy. IoT tiếp tục là "xu hướng" khi nó đạt được động lực và lan rộng khắp thế giới. Do đó, số lượng thiết bị "thông minh" được lắp đặt trong nhà và văn phòng cũng ngày càng tăng. Như họ nên làm, các thiết bị này đang gửi tất cả các loại dữ liệu đến nơi cần đến. Điều này có nghĩa là khối lượng dữ liệu lớn sẽ chỉ tăng lên. Theo các chuyên gia, nhiều tổ chức đã có rất nhiều dữ liệu, chủ yếu từ IoT, nhưng họ không được chuẩn bị tốt để sử dụng. Vào năm 2020, trận tuyết lở dữ liệu này sẽ còn lớn hơn nữa. Do đó, đầu tư vào các dự án dữ liệu lớn cũng sẽ tăng nhanh. Và hãy nhớ rằng, IoT cũng rất thích Java . Ai không thích nó?

cặp song sinh kỹ thuật số

Song sinh kỹ thuật số là một xu hướng sắp tới thú vị khác có liên quan trực tiếp đến Internet vạn vật và dữ liệu lớn. Theo đó, Java sẽ được sử dụng khá nhiều ở đây. Sinh đôi kỹ thuật số là gì? Đây là một bản sao kỹ thuật số của một đối tượng hoặc hệ thống thực. Một thiết bị tương tự kỹ thuật số của một thiết bị vật lý giúp mô phỏng các quy trình bên trong, đặc điểm kỹ thuật và hành vi bên trong của một đối tượng thực dưới tác động của nhiễu và môi trường của nó. Bản sao kỹ thuật số không thể hoạt động nếu không có một số lượng lớn cảm biến trong thiết bị thực hoạt động song song. Đến năm 2020, dự kiến ​​trên toàn cầu sẽ có hơn 20 tỷ cảm biến được kết nối truyền thông tin cho hàng tỷ cặp song sinh kỹ thuật số. Vào năm 2020, xu hướng này sẽ đạt được đà và trở nên nổi bật.

Chuyển đổi kỹ thuật số sẽ trở nên có chủ ý hơn.

Trong nhiều năm, chuyển đổi kỹ thuật số đã được đề cập như một xu hướng quan trọng. Nhưng các chuyên gia nói rằng nhiều công ty và các nhà quản lý hàng đầu hiểu rất mơ hồ về ý nghĩa của cụm từ này. Đối với nhiều người, chuyển đổi kỹ thuật số có nghĩa là tìm cách bán dữ liệu mà công ty thu thập để tạo ra nguồn doanh thu mới. Đến năm 2020, ngày càng nhiều công ty nhận ra rằng chuyển đổi kỹ thuật số chính là tạo ra lợi thế cạnh tranh bằng cách sử dụng dữ liệu đúng cách trong mọi khía cạnh kinh doanh của họ. Điều này có nghĩa là chúng ta có thể mong đợi rằng các công ty sẽ tăng ngân sách cho các dự án liên quan đến việc sử dụng dữ liệu một cách chính xác và có hiểu biết.
"Chúng ta đang dần tiến vào kỷ nguyên mà Dữ liệu lớn là điểm khởi đầu chứ không phải điểm kết thúc."
Pearl Zhu ,
tác giả của loạt sách Digital Master

Bản tóm tắt

Dữ liệu lớn là một lĩnh vực hoạt động thực sự to lớn khác với rất nhiều cơ hội cho các nhà phát triển Java. Ngoài Internet of Things, lĩnh vực này đang bùng nổ và đang thiếu hụt trầm trọng các lập trình viên và các chuyên gia kỹ thuật khác. Vì vậy, bây giờ là lúc ngừng đọc những bài viết dài này và bắt đầu học Java!
Bình luận
TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION