Big data là gì? Học big data cần chuẩn bị những gì?

09/01/2021

Big data là gì? Tại sao big data lại trở nên quan trọng đến như vậy? Trong thời đại công nghệ 4.0 ngày nay, chúng ta được nghe rất nhiều về AI, big data Machine Learning hay điện toán đám mây… Nhưng tất cả những công nghệ đó đều phải dựa vào một khái niệm, là tài nguyên của người dùng: đó là Big data.

1. Data là gì?

Data được hiểu là dữ liệu, là tập hợp số lượng, ký tự hoặc ký hiệu mà trên đó hoạt động được thực hiện bởi máy tính, được lưu trữ và truyền dưới dạng tín hiệu điện và được ghi trên phương tiện ghi từ tính, quang học hoặc cơ học. Thông thường, data sẽ được quản lý bởi các phần mềm quản trị cơ sở dữ liệu.

Nếu trước đây, bạn học trong trường đại học, bạn thường được các thầy dạy về dữ liệu, các hệ quản trị cơ sở dữ liệu. Bạn có biết về MySQL, MS SQL Server… Rồi cách thiết kế các bảng, mối quan hệ giữa các bảng, primary key…

Khi ngày nay, khi các công nghệ tiên tiến như AI, ML, Deep learning… ra đời thì dữ liệu không chỉ còn gói là những bảng dữ liệu quan hệ với nhau nữa. Mà đó là những dữ liệu chẳng có quan hệ gì với nhau, được tạo bởi người dùng một cách ngẫu nhiên… người ta gọi đó là NoSQL.

data

2. Phân tích dữ liệu là gì?

Nếu dữ liệu chỉ được thu thập và để ở một chỗ thì nó không có ý nghĩa gì cả. Để dữ liệu đó có tác dụng với bạn, thì dữ liệu đó cần phải được phân tích.

Ví dụ: website bán sản phẩm của bạn thu thập dữ liệu của rất nhiều nhiều khách hàng từ địa chỉ email, tên tuổi, sở thích, vị trí, giới tính… Việc tiếp theo, bạn cần phải chỉ ra được: bao nhiêu % người dùng là nam? Sản phẩm thích hợp với người có độ tuổi bao nhiêu? Có sở thích là gì?…

Từ những kết quả phân tích đó thì mới giúp ích cho chiến lược kinh doanh của bạn được.

Những số liệu mà bạn rút ra được ở trên là kết quả của quá trình phân tích dữ liệu.

Phân tích dữ liệu là quá trình đánh giá dữ liệu bằng các công cụ phân tích và thống kê để khám phá những thông tin hữu ích và hỗ trợ trong việc ra quyết định kinh doanh.

Có một số phương pháp phân tích dữ liệu bao gồm:

  • Khai thác dữ liệu
  • Phân tích văn bản,
  • Kinh doanh thông minh và trực quan hóa dữ liệu.

Khi mà dữ liệu không chỉ giới hạn trong vài trăm, vài nghìn người mà lên tới hàng triệu, hàng tỷ… thì bắt đầu nảy sinh khái niệm big data.

phan tich du lieu

3. Big data là gì?

Với mình, hiểu đơn giản khi data trở lên nhiều không đếm xuể thì là big data (dữ liệu lớn). Đơn giản vậy thôi.

Nhưng theo thuật ngữ chuyên ngành thì bạn sẽ hiểu đầy đủ hơn big data là gì.

Big Data hiểu nôm na là các tập dữ liệu cực lớn có thể được phân tích tính toán để cho thấy các mô hình, xu hướng, mối liên kết, đặc biệt liên quan đến hành vi và tương tác của con người.

Big data thường bao gồm các tập dữ liệu với kích thước vượt quá khả năng của các công cụ phần mềm thường được sử dụng để thu thập, quản lý, quản lý và xử lý dữ liệu trong khoảng thời gian đã chấp nhận được.

Kích thước của big data là mục tiêu di chuyển liên tục, tính đến năm 2012, từ vài chục terabyte đến nhiều zettabyte dữ liệu (khoảng 1 tỷ terabyte).

 

4. Tìm hiểu về Big data

Mặc dù khái niệm big data là tương đối mới, nhưng nguồn gốc của big data bắt đầu từ những năm 1960 và 70. Khi thế giới dữ liệu chỉ mới bắt đầu với các trung tâm dữ liệu đầu tiên và sự phát triển của cơ sở dữ liệu SQL (relational database).

Khoảng năm 2005, người ta bắt đầu nhận ra số lượng người dùng tạo ra thông qua Facebook, YouTube và các dịch vụ trực tuyến khác là vô cùng lớn.

Hadoop (một framework open source được tạo riêng để lưu trữ và phân tích big data) đã được phát triển cùng năm đó. NoSQL cũng bắt đầu trở nên phổ biến trong thời gian này.

Sự phát triển của các framework, như Hadoop (và gần đây là Spark) rất cần thiết cho sự phát triển của big data. Vì chúng làm cho big data dễ dàng hoạt động hơn và lưu trữ rẻ hơn.

Trong những năm trở lại đây, khối lượng big data đã tăng vọt. Người dùng vẫn đang tạo ra một lượng dữ liệu khổng lồ. Và một điều cực thú vị là những dữ liệu đó không chỉ do con người tạo ra, mà chủ yếu là do máy móc tạo ra.

Với sự ra đời của Internet of Things (IoT), nhiều đối tượng và thiết bị được kết nối với internet, thu thập dữ liệu về mô hình sử dụng của khách hàng và hiệu suất sản phẩm. Sự xuất hiện của IoT đã tạo ra nhiều dữ liệu hơn.

 

5. Ba đặc điểm chính (3V) của Big data

Big data thường đặc trưng với ba V:

  • Volume: Khối lượng dữ liệu
  • Variety: Sự đa dạng của dữ liệu
  • Velocity: Tốc độ xử lý và phân tích dữ liệu
  • data 1

Volume

Các tổ chức thu thập dữ liệu từ nhiều nguồn khác nhau, bao gồm các giao dịch kinh doanh, phương tiện truyền thông xã hội và thông tin từ cảm biến hoặc dữ liệu từ máy sang máy.

Trước đây, việc lưu trữ nó sẽ là một vấn đề – nhưng các công nghệ mới (như Hadoop) đã giảm bớt gánh nặng này.

Velocity

Luồng dữ liệu với tốc độ chưa từng thấy và phải được xử lý kịp thời. Thẻ RFID, cảm biến và đo sáng thông minh đang thúc đẩy nhu cầu xử lý các luồng dữ liệu trong thời gian gần như realtime.

Variety

Dữ liệu có ở tất cả các loại định dạng – từ có cấu trúc, dữ liệu số trong cơ sở dữ liệu truyền thống đến tài liệu văn bản phi cấu trúc, email, video, âm thanh, dữ liệu đánh dấu chứng khoán và giao dịch tài chính.

 

6. Các công nghệ đặc biệt dành riêng cho Big data

Big data có giá trị to lớn và đòi hỏi một cuộc cách mạng trong lưu trữ và xử lý dữ liệu.

Tuy nhiên, các cơ sở dữ liệu quan hệ truyền thống như Oracle, SQL Server, DB2… không thể xử lý việc này.

Vì vậy, cần phải có những công nghệ chuyên biệt cho big data. Công nghệ mới này được thiết kế để phân tích, xử lý và trích xuất thông tin từ một bộ dữ liệu cực kỳ lớn và phức tạp. Điều mà những phần mềm quản trị cơ sở dữ liệu truyền thống không bao giờ làm được.

Chúng ta cần công nghệ xử lý big data để phân tích lượng dữ liệu thời gian thực khổng lồ này và đưa ra kết luận và dự đoán để giảm thiểu rủi ro trong tương lai.

Công nghệ Big data chủ yếu được phân thành hai loại:

  • Công nghệ lưu trữ và tạo data.
  • Công nghệ phân tích big data (Big data analysis)

big data 1

Thứ nhất, Big data là tất cả về dữ liệu thông thường hàng ngày mà chúng ta tạo ra. Đây có thể là giao dịch trực tuyến, phương tiện truyền thông xã hội hoặc dữ liệu từ một Tổ chức cụ thể, v.v.

Bạn thậm chí có thể coi đây là một loại dữ liệu thô được sử dụng để cung cấp cho công nghệ phân tích big data.

 

7. Ví dụ ứng dụng của Big data

Một vài ứng dụng về dữ liệu được tạo cho big data:

  • Đặt vé trực tuyến
  • Mua sắm trực tuyến
  • Dữ liệu từ các trang mạng xã hội như Facebook, Instagram, các ứng dụng
  • Các chi tiết nhân viên của một Công ty đa quốc gia nào đó.

Phân tích big data giống như phiên bản nâng cao của phân tích dữ liệu. Phân tích big data là nơi phần hiệu suất thực tế xuất hiện và các quyết định kinh doanh thời gian thực quan trọng được đưa ra bằng cách phân tích Dữ liệu lớn hoạt động.

Một số ví dụ ứng dụng của việc phân tích big data:

  • Tiếp thị chứng khoán
  • Thực hiện các nhiệm vụ không gian trong đó mỗi một thông tin là rất quan trọng.
  • Thông tin dự báo thời tiết.
  • Lĩnh vực y tế nơi một tình trạng sức khỏe bệnh nhân cụ thể có thể được theo dõi.

Các công nghệ big data hàng đầu được chia thành 4 lĩnh vực được phân loại như sau:

  • Lưu trữ dữ liệu
  • Khai thác dữ liệu
  • Phân tích dữ liệu
  • Trực quan hóa dữ liệu

Theo vntalking.com

Japan IT Works 



Việc làm theo chuyên ngành

Việc làm theo ngành

Việc làm theo tỉnh thành