مفهوم كلانداده
در مدلهاي دادهاي سنتي، بيشتر دادههايي كه در سازمانها وجود داشتند شامل مواردي مثل نام محصولات، مشتريان، فروشندگان و مواردي مشابه بود كه پيچيدگي خاصي نداشتند. امروزه با نوع دادهاي بسيار زياد، مختلف، و با پيچيدگي بسيار بيشتر سروكار داريم كه مديريت، سازماندهي، و نگهداري آنها مساله مهمي است.
طبق آمار، 90 درصد دادههاي موجود در جهان تنها در دو سال اخير ايجاد شدهاند. رشد دادهها در سال 2009 چيزي در حدود 0.8 زتابايت (0.8 ZB) بوده است كه پيشبيني ميشود اين مقدار در سال 2020 به 32 ZB افزايش يابد.
1. رشد دادهها همچنان مانند گذشته وجود دارد ولي رشد آنها امروزه بسيار سريعتر شده است.
2. امروزه رشد دادهها به طور چشمگيري در زمينهي دادههاي غير ساخت يافته صورت ميگيرد.
امروزه كلانداده توسط منابع مختلفي مانند دستگاههاي موبايل، GPS، RFID، شبكههاي اجتماعي، مشتريان و بسياري از منابع ديگر توليد ميشود.
تعريف كلانداده
براي كلاندادهها تعاريف متعددي ارائه شده است كه در زير به چند مورد از آنها اشاره ميشود:
• به طور عمومي كلانداده عبارت است از مجموعه دادههايي كه به روشهاي سنتي موجود در فناوري اطلاعات، نرمافزارها و سختافزار و در يك زمان قابل قبول قادر به جمعآوري، درك، و مديريت نباشند.
• تعريغ Apache Hadoop در سال 2010 براي كلانداده: كلانداده عبارت است از مجموعه دادههايي كه باتوجه به كامپيوترهاي موجود براحتي قابل جمعآوري، مديريت، و پردازش نباشند.
• McKinsey & Company كه يك شركت مشاوره دهنده عمومي كلانداده است، كلانداده را اينگونه تعريف كرده است: شامل مجموعه دادههايي است كه با توجه به بستر نرمافزاري موجود قابل جمعآوري، ذخيرهسازي، و مديريت نباشند.
براي كلاندادهها يكسري چالش و فرصت معرفي شده كه به صورت مدل 3V بيان ميشود و شامل افزايش حجم، شتاب، و تنوع ميباشد.
1. حجم (Volume): با توليد و جمعآوري دادهها در نهايت به انبوهي از دادهها دست مييابيم كه گسترهي آنها بسيار زياد است.
2. شتاب (Velocity): دادهها با سرعت زيادي توليد ميشوند و نياز به تحليل سريع و به موقع است.
3. تنوع (Variety): به معني وجود انواع مختلف دادهها است كه خود شامل دادههاي ساخت يافته، نيمه ساخت يافته و غيرساخت يافته است مانند ويدئو، صوت، متن، و صفحات وب.
چرخهي حيات كلانداده
چرخهي حيات كلانداده را ميتوان يك حلقه از چهار عمليات زير در نظر گرفت:
1. جمعآوري (Collection): شامل جمعآوري دادههاي مناسب از مجموعهي دادهاي مناسب است. براي مثال جمعآوري دادهها ميتوانند از يك شبكهي اجتماعي يا شبكههاي حسگر بيسيم باشند.
2. يكپارچهسازي (Integrate): دادههاي جمعآوري شده با يكديگر يكپارچه و سازماندهي (Organize) ميشوند. گاهي ممكن است مجبور شويم آنها را با مجموعهي دادهاي خود منطبق كنيم.
3. تحليل (Analysis): در اين بخش ميتوان تحليلهاي ساده و يا تحليلهاي پيشرفتهي آماري بر روي دادهها انجام داد.
4. تصميمگيريها و اقدامات (Actions Decisions): بعد از جمعآوري، يكپارچهسازي، و تحليل دادهها ميتوان آنها را به مدير تحويل داد و بر اساس اين دادهها مدير ميتواند اقدامات لازم و مفيد را اجرا كند. براي مثال اگر شما يك كتاب در زمينهي علوم كامپيوتر از آمازون خريداري كنيد، ممكن است به شما پيشنهاد خريد كتابي در زمينهي كلانداده نيز ارائه شود.
امكاناتي مثل تحليل دادهها به تحليلگران كمك ميكنند تا با كلاندادهها براحتي كار كنند.
نويسنده: مجيد آراسته