Tuy nhiên những dữ liệu này thường nằm rải rác ở nhiều nơi trên nhiều hệ thống khác nhau, dẫn đến việc doanh nghiệp khó kết hợp và tìm ra được những thông tin mới từ các hệ thống rời rạc này. Không chỉ vậy, những dữ liệu này thường được sinh ra với tốc độ cao trong khi năng lực của từng hệ thống đơn lẻ lại có giới hạn, dẫn đến doanh nghiệp phải bỏ đi rất nhiều dữ liệu mà chưa kịp khai thác.
Để giải quyết vấn đề, các giải pháp phân tích dữ liệu và data lake thường được triển khai trên nền tảng dữ liệu phân tán Hadoop. Nhưng hệ thống này thường gặp một số vấn đề như: Hadoop cluster chỉ có thể giao tiếp qua giao thức HDFS, dẫn đến việc phải có thêm một hệ thống trung gian tiếp nhận dữ liệu nguồn từ các giao thức khác nhau; Do sử dụng cả 2 khối chức năng tính toán và lưu trữ trên cùng một thiết bị máy chủ nên hệ thống thường không tối ưu được tài nguyên; Tỷ lệ lưu trữ dữ liệu khả dụng thấp, chỉ khoảng 30% so với dung lượng thô…
Chính vì vậy Dell EMC cung cấp đến các doanh nghiệp giải pháp lưu trữ PowerScale – Scale-Out NAS. PowerScale giải quyết các vấn đề của kiến trúc Hadoop truyền thống nhờ những khả năng: Tích hợp sẵn tính năng HDFS, giúp giảm tải phần storage hoàn toàn lên PowerScale, Hadoop cluster chỉ còn đóng vai trò compute; Hỗ trợ đa giao thức, một dữ liệu có thể được truy cập đồng thời qua các giao thức NAS và cả HDFS, không cần phải có hệ thống trung gian; PowerScale cung cấp cùng một mức độ bảo vệ dữ liệu, thậm chí cao hơn mức bảo vệ truyền thống với một tỷ lệ dữ liệu khả dụng cao hơn nhiều, lên đến 85% dữ liệu thô; Khả năng mở rộng dung lượng rất lớn và thao tác mở rộng dễ dàng…