Thế giới đang đứng trước một sự bùng nổ dữ liệu vô cùng mạnh mẽ trong những năm qua, theo IDC, tổng dung lượng dữ liệu trên toàn thế giới đến năm 2025 có thể đạt đến 175 Zettabytes (175 tỷ Terabytes).
Trên thực tế, các công nghệ mới mang tính đột phá như 5G đang là tiền đề giúp cho nhiều doanh nghiệp cung cấp nhiều dịch vụ cao cấp hơn cho khách hàng của mình, nhằm tận dụng sức mạnh của mạng 5G và chính điều này đã khiến cho rất nhiều loại dữ liệu mới sẽ được sinh ra và xử lý ở vùng biên (Edge) thay vì trong trung tâm dữ liệu tập trung. Theo dự đoán của Gartner, đến năm 2025 sẽ có khoảng 75% dữ liệu được tạo ra và xử lý bên ngoài các trung tâm dữ liệu tập trung.
Sự tăng trưởng đột biến về dữ liệu này được tạo ra từ một nhóm dữ liệu, đó là “dữ liệu phi cấu trúc – unstructured data”, hiện đang chiếm 80% tổng dung lượng trên toàn thế giới và được dự đoán sẽ tăng gấp 3 lần trong năm 2023. Dữ liệu có cấu trúc là một nhóm dữ liệu đã rất quen thuộc, là những loại dữ liệu thường nằm trong các CSDL quan hệ và có thể được truy vấn thông qua các câu lệnh SQL (ví dụ Oracle DB, IBM DB2, MS SQL…). Dữ liệu phi cấu trúc là tất cả những loại dữ liệu còn lại, ví dụ như file văn bản, email, video, ảnh, dữ liệu di động, dữ liệu mạng xã hội, dữ liệu từ cảm biến, ảnh chụp vệ tinh… đây là nhóm dữ liệu không thể được lưu trữ dưới dạng hàng và cột như dữ liệu có cấu trúc và cũng không thể dùng những kỹ thuật truy vấn dữ liệu truyền thống để khai thác. |
Theo John Roese, CTO của Dell Technologies: “Lần đầu tiên trong lịch sử, chúng ta không chỉ có một khối lượng lớn và đa dạng trong dữ liệu, mà con người còn sáng chế ra nhưng phương thức mới và mang tính kinh tế hơn trong việc lưu trữ và xử lý dữ liệu. Điều quan trọng nhất hiện nay, đó là phần mềm và những giải thuật đã đạt đến một ngưỡng – chủ yếu thông qua Trí tuệ nhân tạo (AI) và Học máy (ML) – mà chúng ta có thể đào sâu vào những dữ liệu mình có được và biến chúng thành những thông tin thú vị, bổ ích phục vụ cho kinh doanh và cuộc sống. |