Dữ liệu lớn là gì? Dữ liệu lớn, còn được gọi là dữ liệu lớn, đề cập đến các tập dữ liệu có cấu trúc và phi cấu trúc phức tạp khổng lồ được tạo và truyền nhanh chóng từ nhiều nguồn khác nhau. Ứng dụng và những điều cần biết về Dữ liệu lớn?
Khi xã hội tiếp tục phát triển, ngày càng có nhiều thông tin, còn được gọi là dữ liệu lớn, là một thuật ngữ mô tả khối lượng lớn dữ liệu khó quản lý – cả có cấu trúc và không có cấu trúc – tràn ngập các doanh nghiệp mỗi ngày. Nhưng không chỉ loại hoặc số lượng dữ liệu quan trọng mà còn là cách các tổ chức thực hiện với dữ liệu quan trọng. Dữ liệu lớn có thể được phân tích để có được những hiểu biết sâu sắc nhằm cải thiện các quyết định và mang lại sự tự tin trong việc đưa ra các bước đi chiến lược kinh doanh.
1. Dữ liệu lớn là gì?
Dữ liệu lớn, còn được gọi là dữ liệu lớn, đề cập đến các tập dữ liệu có cấu trúc và phi cấu trúc phức tạp khổng lồ được tạo và truyền nhanh chóng từ nhiều nguồn khác nhau. Các thuộc tính này tạo nên ba chữ V của dữ liệu lớn:
Khối lượng: Lượng dữ liệu khổng lồ đang được lưu trữ.
Tốc độ: Tốc độ cực nhanh mà các luồng dữ liệu phải được xử lý và phân tích.
Đa dạng: Các nguồn và hình thức khác nhau mà dữ liệu được thu thập, chẳng hạn như số, văn bản, video, hình ảnh, âm thanh và văn bản.
Việc thu thập dữ liệu có thể bắt nguồn từ các nền văn minh cổ đại bằng cách sử dụng móng tay để theo dõi thức ăn, nhưng lịch sử của dữ liệu lớn thực sự bắt đầu muộn hơn nhiều. Dưới đây là dòng thời gian ngắn gọn về một số khoảnh khắc đáng chú ý đã đưa chúng ta đến vị trí của ngày hôm nay.
1881
Một trong những trường hợp quá tải dữ liệu đầu tiên xảy ra trong cuộc điều tra dân số năm 1880. Máy lập bảng Hollerith được phát minh và công việc xử lý dữ liệu điều tra dân số đã được cắt giảm từ mười năm lao động. chưa đầy một năm.
1928
Kỹ sư người Đức-Áo Fritz Pfleumer phát triển lưu trữ dữ liệu từ tính trên băng, dẫn đầu cho cách dữ liệu kỹ thuật số sẽ được lưu trữ trong thế kỷ tới.
Năm 1948
Lý thuyết Thông tin của Shannon được phát triển, đặt nền móng cho cơ sở hạ tầng thông tin được sử dụng rộng rãi ngày nay.
1970
Edgar F. Codd, một nhà toán học tại IBM, trình bày một “cơ sở dữ liệu quan hệ” chỉ ra cách thông tin trong cơ sở dữ liệu lớn có thể được truy cập mà không cần biết cấu trúc hoặc vị trí của nó. . Điều này trước đây dành cho các chuyên gia hoặc những người có kiến thức máy tính sâu rộng.
Năm 1976
Sử dụng thương mại Hệ thống lập kế hoạch yêu cầu vật liệu (MRP) được phát triển để tổ chức và lập lịch thông tin, trở nên phổ biến hơn để xúc tác hoạt động kinh doanh.
1989
World Wide Web được tạo ra bởi Tim Berners-Lee.
Năm 2001
Doug Laney đã trình bày một bài báo mô tả “3 Vs của dữ liệu”, đây là một tính năng cơ bản của dữ liệu lớn. Cùng năm đó, lần đầu tiên thuật ngữ “phần mềm như một dịch vụ” được chia sẻ.
2005
Hadoop, một khung phần mềm mã nguồn mở để lưu trữ các tập dữ liệu lớn, đã được tạo ra.
2007
Thuật ngữ “dữ liệu lớn” đã được giới thiệu với công chúng trong bài báo trên Wired “Sự kết thúc của lý thuyết: Cơn lũ dữ liệu khiến phương pháp khoa học trở nên lỗi thời.”
2008
Một nhóm các nhà nghiên cứu khoa học máy tính đã xuất bản bài báo “Điện toán dữ liệu lớn: Tạo đột phá mang tính cách mạng trong thương mại, khoa học và xã hội”, mô tả cách dữ liệu lớn thay đổi cơ bản cách các công ty và tổ chức kinh doanh.
2010
Năm 2014
Ngày càng có nhiều công ty bắt đầu di chuyển Hệ thống lập kế hoạch
2016
Chính quyền Obama đã ban hành “Kế hoạch phát triển chiến lược và nghiên cứu dữ liệu lớn liên bang”, được thiết kế để thúc đẩy nghiên cứu và phát triển các ứng dụng dữ liệu lớn sẽ trực tiếp mang lại lợi ích cho xã hội và nền kinh tế.
2017
Nghiên cứu của IBM cho biết 2,5 nghìn tỷ byte dữ liệu được tạo ra hàng ngày và 90% dữ liệu trên thế giới đã được tạo ra trong hai năm qua.
Ngày nay, dữ liệu liên tục được tạo ra bất cứ khi nào chúng ta mở ứng dụng, tìm kiếm trên Google hoặc đơn giản là đi du lịch đến một địa điểm bằng thiết bị di động của mình. Kết quả? Bộ sưu tập khổng lồ thông tin có giá trị mà các công ty và tổ chức cần để quản lý, lưu trữ, trực quan hóa và phân tích. Các công cụ dữ liệu truyền thống không được trang bị để xử lý loại phức tạp và khối lượng này, điều này đã dẫn đến một loạt các giải pháp kiến trúc và phần mềm dữ liệu lớn chuyên biệt được thiết kế để quản lý tải.
2. Ứng dụng và những điều cần biết về Dữ liệu lớn:
Sự đa dạng của dữ liệu lớn làm cho nó vốn đã trở nên phức tạp, dẫn đến nhu cầu về các hệ thống có khả năng xử lý các khác biệt khác nhau về cấu trúc và ngữ nghĩa của nó. Dữ liệu lớn yêu cầu cơ sở dữ liệu NoSQL chuyên biệt có thể lưu trữ dữ liệu theo cách không yêu cầu tuân thủ nghiêm ngặt một mô hình cụ thể.
Dữ liệu lớn về cơ bản là sự kết hợp của ba chữ V để hiểu rõ hơn và đưa ra dự đoán, vì vậy sẽ hữu ích khi xem xét kỹ hơn từng thuộc tính.
Âm lượng
Dữ liệu lớn là rất lớn. Trong khi dữ liệu truyền thống được đo bằng các kích thước quen thuộc như megabyte, gigabyte và terabyte, dữ liệu lớn được lưu trữ bằng petabyte và zettabyte.
Để biết được mức độ của sự khác biệt về quy mô, hãy xem xét so sánh này từ Trường Thông tin Berkeley: một gigabyte tương đương với video HD 7 phút, trong khi một zettabyte tương đương với 250 tỷ DVD.
Đây chỉ là đỉnh của tảng băng trôi. Theo một báo cáo của EMC, vũ trụ kỹ thuật số đang tăng gấp đôi kích thước sau mỗi hai năm và đến năm 2020 dự kiến sẽ đạt 44 nghìn tỷ zettabyte.
Dữ liệu lớn cung cấp một kiến trúc xử lý loại dữ liệu này. Nếu không có các giải pháp lưu trữ và xử lý thích hợp, thông tin chi tiết sẽ không thể được trích xuất.
Tốc độ, vận tốc
Từ tốc độ tạo cho đến lượng thời gian cần phân tích, mọi thứ về dữ liệu lớn đều nhanh chóng. Một số người đã mô tả nó giống như cố gắng uống từ vòi chữa cháy.
Các công ty và tổ chức phải có khả năng khai thác dữ liệu này và tạo ra thông tin chi tiết từ nó trong thời gian thực, nếu không, nó không hữu ích lắm. Xử lý thời gian thực cho phép người ra quyết định hành động nhanh chóng, giúp họ dẫn đầu đối thủ.
Mặc dù một số dạng dữ liệu có thể được xử lý hàng loạt và vẫn có liên quan theo thời gian, nhưng phần lớn dữ liệu lớn đang truyền trực tuyến vào các tổ chức theo từng phần và yêu cầu hành động ngay lập tức để xử lý đúng. kết quả tốt nhất. Dữ liệu cảm biến từ các thiết bị sức khỏe là một ví dụ tuyệt vời. Khả năng xử lý dữ liệu sức khỏe ngay lập tức có thể cung cấp cho người dùng và bác sĩ thông tin có khả năng cứu sống.
Đa dạng
Khoảng 95% dữ liệu lớn là không có cấu trúc, có nghĩa là nó không dễ dàng phù hợp với một mô hình truyền thống, đơn giản. Mọi thứ, từ email và video đến dữ liệu khoa học và khí tượng có thể tạo thành một luồng dữ liệu lớn, mỗi dữ liệu có các đặc tính riêng biệt.
Điều này cung cấp sự linh hoạt cần thiết để phân tích một cách gắn kết các nguồn thông tin dường như khác nhau để có được cái nhìn tổng thể về những gì đang xảy ra, cách thức và thời điểm hành động. Khi tổng hợp, xử lý và phân tích dữ liệu lớn, nó thường được phân loại là dữ liệu hoạt động hoặc dữ liệu phân tích và được lưu trữ cho phù hợp. Các hệ thống hoạt động cung cấp một loạt dữ liệu lớn trên nhiều máy chủ và bao gồm các đầu vào như khoảng không quảng cáo, dữ liệu khách hàng và mua hàng – thông tin hàng ngày trong một tổ chức.
Hệ thống phân tích phức tạp hơn hệ thống hoạt động của chúng, có khả năng xử lý các phân tích dữ liệu phức tạp và cung cấp cho doanh nghiệp những hiểu biết sâu sắc về việc ra quyết định. Các hệ thống này thường sẽ được tích hợp vào các quy trình và cơ sở hạ tầng hiện có để tối đa hóa việc thu thập và sử dụng dữ liệu.
Bất kể nó được phân loại như thế nào, dữ liệu ở khắp mọi nơi. Điện thoại, thẻ tín dụng, ứng dụng phần mềm, xe cộ, tệp, trang web và hầu hết “mọi thứ” trong thế giới của chúng ta đều có khả năng truyền tải một lượng lớn dữ liệu và thông tin này vô cùng quý giá. giá bán. Dữ liệu lớn được sử dụng trong hầu hết mọi ngành để xác định các mẫu và xu hướng, trả lời các câu hỏi, hiểu rõ hơn về khách hàng và giải quyết các vấn đề phức tạp. Các công ty và tổ chức sử dụng thông tin vì nhiều lý do như phát triển doanh nghiệp của họ, hiểu các quyết định của khách hàng, tăng cường nghiên cứu, đưa ra dự báo và nhắm mục tiêu đến các đối tượng chính để quảng cáo.
Dưới đây là một số ngành ví dụ nơi cuộc cách mạng dữ liệu lớn đang diễn ra:
– Tài chính
Các ngành tài chính và bảo hiểm sử dụng dữ liệu lớn và phân tích dự đoán để phát hiện gian lận, đánh giá rủi ro, xếp hạng tín dụng, dịch vụ môi giới và công nghệ blockchain, trong số các mục đích sử dụng khác. Các tổ chức tài chính cũng đang sử dụng dữ liệu lớn để tăng cường các nỗ lực an ninh mạng và cá nhân hóa các quyết định tài chính cho khách hàng.
– Chăm sóc sức khỏe
Các bệnh viện, nhà nghiên cứu và các công ty dược phẩm đang áp dụng các giải pháp dữ liệu lớn để cải thiện và nâng cao chất lượng chăm sóc sức khỏe. Với quyền truy cập vào lượng lớn dữ liệu bệnh nhân và dân số, chăm sóc sức khỏe đang tăng cường các phương pháp điều trị, giúp nghiên cứu hiệu quả hơn về các bệnh như ung thư và Alzheimer, phát triển các loại thuốc mới và có được những hiểu biết quan trọng về các mô hình sức khỏe dân số.
– Truyền thông & Giải trí
Nếu bạn đã từng sử dụng Netflix, Hulu hoặc bất kỳ dịch vụ phát trực tuyến nào khác cung cấp các đề xuất, bạn đã thấy dữ liệu lớn tại nơi làm việc. Các công ty truyền thông phân tích thói quen đọc, xem và nghe của chúng tôi để xây dựng trải nghiệm cá nhân hóa. Netflix thậm chí còn sử dụng dữ liệu về đồ họa, tiêu đề và màu sắc để đưa ra quyết định về sở thích của khách hàng.
– Nông nghiệp
Từ hạt giống kỹ thuật đến dự đoán năng suất cây trồng với độ chính xác đáng kinh ngạc, dữ liệu lớn và tự động hóa đang thúc đẩy nhanh chóng ngành trồng trọt. Với lượng dữ liệu tràn ngập trong hai thập kỷ qua, thông tin dồi dào hơn cả lương thực ở nhiều quốc gia, các nhà nghiên cứu và nhà khoa học hàng đầu phải sử dụng dữ liệu lớn để giải quyết nạn đói và suy dinh dưỡng. Với các nhóm như Dữ liệu mở Toàn cầu về Nông nghiệp & Dinh dưỡng (GODAN) thúc đẩy quyền truy cập mở và không hạn chế vào dữ liệu dinh dưỡng và nông nghiệp toàn cầu, một số tiến bộ đang đạt được trong cuộc chiến. nạn đói tận cùng thế giới.
– Các lĩnh vực ứng dụng khác
Tiếp thị quảng cáo
Việc kinh doanh
Thương mại điện tử & bán lẻ
Giáo dục
Internet of Things
Các môn thể thao
Chuyên mục: Bạn cần biết
Nhớ để nguồn bài viết: Big Data là gì? Ứng dụng và những điều cần biết về Big Data? của website thcstienhoa.edu.vn