Big data
 
 
مفهوم كلان‌داده‌

در مدل‌هاي داده‌اي سنتي، بيشتر داده‌هايي كه در سازمان‌ها وجود داشتند شامل مواردي مثل نام محصولات، مشتريان، فروشندگان و مواردي مشابه بود كه پيچيدگي خاصي نداشتند. امروزه با نوع داده‌اي بسيار زياد، مختلف، و با پيچيدگي بسيار بيشتر سروكار داريم كه مديريت، سازمان‌دهي، و نگهداري آن‌ها مساله مهمي است.

طبق آمار، 90 درصد داده‌هاي موجود در جهان تنها در دو سال اخير ايجاد شده‌اند. رشد داده‌ها در سال 2009 چيزي در حدود 0.8 زتابايت (0.8 ZB) بوده است كه پيش‌بيني مي‌شود اين مقدار در سال 2020 به 32 ZB افزايش يابد.

1.       رشد داده‌ها همچنان مانند گذشته وجود دارد ولي رشد آن‌ها امروزه بسيار سريعتر شده است.

2.       امروزه رشد داده‌ها به طور چشمگيري در زمينه‌ي داده‌هاي غير ساخت يافته صورت مي‌گيرد.

امروزه كلان‌داده‌ توسط منابع مختلفي مانند دستگاه‌هاي موبايل، GPS، RFID، شبكه‌هاي اجتماعي، مشتريان و بسياري از منابع ديگر توليد مي‌شود.

تعريف كلان‌داده

براي كلان‌داده‌ها تعاريف متعددي ارائه شده است كه در زير به چند مورد از آن‌ها اشاره مي‌شود:

•     به طور عمومي كلان‌داده عبارت است از مجموعه داده‌هايي كه به روش‌هاي سنتي موجود در فناوري اطلاعات، نرم‌افزارها و سخت‌افزار و در يك زمان قابل قبول قادر به جمع‌آوري، درك، و مديريت نباشند.

•     تعريغ  Apache Hadoop در سال 2010 براي كلان‌داده: كلان‌داده عبارت است از مجموعه داده‌هايي كه باتوجه به كامپيوترهاي موجود براحتي قابل جمع‌آوري، مديريت، و پردازش نباشند.

•     McKinsey & Company كه يك شركت مشاوره دهنده عمومي كلان‌داده است، كلان‌داده را اينگونه تعريف كرده است: شامل مجموعه داده‌هايي است كه با توجه به بستر نرم‌افزاري موجود قابل جمع‌آوري، ذخيره‌سازي، و مديريت نباشند.

براي كلان‌داده‌ها يكسري چالش و فرصت معرفي شده كه به صورت مدل 3V بيان مي‌شود و شامل افزايش حجم، شتاب، و تنوع مي‌باشد.

1.    حجم (Volume): با توليد و جمع‌آوري داده‌ها در نهايت به انبوهي از داده‌ها دست مي‌يابيم كه گستره‌ي آن‌ها بسيار زياد است.

2.       شتاب (Velocity): داده‌ها با سرعت زيادي توليد مي‌شوند و نياز به تحليل سريع و به موقع است.

3.    تنوع (Variety): به معني وجود انواع مختلف داده‌ها است كه خود شامل داده‌هاي ساخت يافته، نيمه ساخت يافته و غيرساخت يافته است مانند ويدئو، صوت، متن، و صفحات وب.

چرخه‌ي حيات كلان‌داده

چرخه‌ي حيات كلان‌داده را مي‌توان يك حلقه از چهار عمليات زير در نظر گرفت:

1.    جمع‌آوري (Collection): شامل جمع‌آوري داده‌هاي مناسب از مجموعه‌ي داده‌اي مناسب است. براي مثال جمع‌آوري داده‌ها مي‌توانند از يك شبكه‌ي اجتماعي يا شبكه‌هاي حسگر بي‌سيم باشند.

2.    يكپارچه‌سازي (Integrate): داده‌هاي جمع‌آوري شده با يكديگر يكپارچه و سازماندهي (Organize) مي‌شوند.  گاهي ممكن است مجبور شويم آن‌ها را با مجموعه‌ي داده‌اي خود منطبق كنيم.

3.       تحليل (Analysis): در اين بخش مي‌توان تحليل‌هاي ساده و يا تحليل‌هاي پيشرفته‌ي آماري بر روي داده‌ها انجام داد.

4.    تصميم‌گيري‌ها و اقدامات (Actions Decisions): بعد از جمع‌آوري، يكپارچه‌سازي، و تحليل داده‌ها مي‌توان آن‌ها را به مدير تحويل داد و بر اساس اين داده‌ها مدير مي‌تواند اقدامات لازم و مفيد را اجرا كند. براي مثال اگر شما يك كتاب در زمينه‌ي علوم كامپيوتر از آمازون خريداري كنيد، ممكن است به شما پيشنهاد خريد كتابي در زمينه‌ي كلان‌داده نيز ارائه شود.

    امكاناتي مثل تحليل داده‌ها به تحليلگران كمك مي‌كنند تا با كلان‌داده‌ها براحتي كار كنند.

نويسنده: مجيد آراسته

تاریخ به روز رسانی:
1395/05/31
تعداد بازدید:
3802
كليه حقوق اين وب سايت متعلق به دانشگاه خواجه نصير الدين طوسي ميباشد.