علم کلان داده به تازگی در کسب و کارها جایگاه ویژهای را به خود اختصاص داده است و مدیران کسب و کارها سعی دارند تا با استفاده از آنالیز دادههای خود توسط علم کلان داده به نتایج مطلوب و دلخواه خود دست پیدا کنند.
سوالی که در اینجا مطرح میگردد این است که بهرهگیری از این علم چقدر میتواند با خود چالشهایی را در کسب و کار ایجاد نماید؟
با اصطلاح کلان داده یا همان Big Data قطعا آشنایی دارید و بارها در ابطه با کاربرد آن در مدیریت کسب و کارها ممکن است برخورد کرده باشید.
واقعیتی که غیر قابل انکار است افزایش نرخ رشد دادهها در سراسر دنیا و تمامی کسب و کارها است. روابط در کسب و کارها باید به همراه جزئیات بیشتر مورد تحلیل قرار گیرد و نتایج به دست آمده برای مدیران از اهمیت ویژهای برخوردار خواهد بود.
تاثیر تکنولوژی در ایجاد کلان داده
تکنولوژیهای در حال توسعه مانند انواع برنامههای موجود بر روی گوشیهای هوشمند بخشی از نیازهای مردم و کسب و کارها را برطرف میکنند. همین تکنولوژیها در حال تولید داده در شکلهای مختلف هستند.
از شبکههای اجتماعی گرفته تا موقعیتهای مکانی و انواع دادههای تصویری و ویدیویی که روزانه توسط افراد تولید مششود برای بسیاری از کسب و کارها و حتی مدیریت شهری بسیار پراهمیت هستند.
در کنار این تکنولوژیها باید مواردی چون انواع سنسورها و وسایلی که به نوعی از اینترنت استفاده می کنند را نیز اضافه کنیم. کسب و کارهایی که به دادههای تولید شده توسط انواع نرمافزارهای شخصی و سازمانی وابستهاند و برای توسعه کار خود یا ارائه خدمات بهتر باید تحلیل این دادهها را در اختیار داشته باشند.
کرونا و کلان داده
در چالشهای اخیر به وجود آمده بابت بیماری کرونا و تغییرات در رفتار مشتریان بسیاری از کسب و کارها به این موضوع و واقعیت رسیدند که امروز در هر لحظه نیاز به مدیریت کلان دادهها دارند زیرا به یکباره رفتار مشتریان در حوزههای مختلف مورد تغییرات بسیاری قرار گرفت.
اولین کسب و کاری که در دوران کرونا نیاز به تحلیل کلان دادهها پیدا کرد خود کسب و کار پزشکی، مراکز درمانی، بیمارستانها و تولید کنندگان و وارد کنندگان تجهیزات پزشکی بودند.
زیرا خدمات و کالا در این حوزه وارد چالش جدیدی شدند و این چالش مستقیما با سلامتی افراد جامعه سر وکار داشت. روشهای خرید مشتریان از مراکز فروشگاهی تغییر کرد و همه به دنبال یک خرید راحت اینترنتی با کمترین تاخیر ممکن بودند.
افراد تا جای ممکن تمایل داشتند که تعامل مستقیم با هم نداشته باشند و خدمات مورد نیاز خود را به صورت دورکاری برطرف نمایند. بنابراین صاحبان کسب و کار دیگر نمیتوانستند با دادههای قبلی خود مشتریان را مدیریت کنند.
در عین حال باید دادههای لحظهای و بلادرنگ را نیز مورد تحلیل قرار میدادند که مجموع این موضوعات بر اهمیت استفاده از کلان داده و تحلیل کلان داده میافزود.
قطعا در این حالت شما علاوه بر دادههای معمول و همیشگی با ریز دادههایی برخورد خواهید کرد که دیگر تکنولوژیهای معمولی ذخیره سازی دادهها ممکن است نیازتان را برطرف نسازد.
این یعنی روبرو شدن با حجمی از دادهها که فراتر از گیگا و ترا بایت خواهد بود. لذا نیازمند توسعه زیرساختهای فنی برای مدیریت داده و رشد آن در بخشهایی نظیر جمع آوری، ذخیرهسازی، جستجو، به اشتراکگذاری و تحلیل میباشیم.
به کار گیری بستر آنالیز کلان داده این توانایی را به ما می دهد تا در زمانی که با اطلاعات بی شمار مواجه می شویم با بازدهی بالاتری شرایط را ارتقا دهیم و هنگامی که خطرات امنیتی افزایش پیدا میکند، سطح امنیت بیشتری را فراهم کنیم، یا وقتی که با رویدادهای بیشتری روبرو هستیم، توان پیشبینی دقیقتر و بهتری به دست آوریم.
در دنیایی که تعداد تراکنشهای بانکی، بیمه و مالی رو به افزایش است، تقلب کمتری را شاهد باشیم و بسیاری موارد دیگر از این دست که اهمیت کلان داده را نشان میدهد.
در ابتدا چالش های کلان داده ( داده های عظیم ) در سه بعد اصلی حجم داده، نرخ تولید و تنوع داده مطرح شدند، ولی در ادامه با موارد بیشتری روبرو شدیم:
• حجم داده در کلان داده (Volume)
حجم دادههای درون سازمان و خارج آن به دلیل وجود اینترنت، دستگاههای الکترونیکی و موبایلها، زیرساختهای شبکه و سایر منابع هر ساله رشد قابل توجهی در تمامی کسب و کارها دارد و پیشبینی شده است که تا سال ۲۰۲۰ تا ده زتابایت داده در جهان تولید شود.
• نرخ تولید (Velocity)
دادههای بزرگ از طریق برنامههای کاربردی و سنسورهای بسیار زیادی که در محیط وجود دارند، با سرعت بسیار زیاد تولید می شوند که اغلب باید در لحظه پردازش و ذخیره شوند.
• تنوع (Variety)
انواع منابع داده و تنوع در نوع داده در کلان داده بسیار زیاد میباشد که در نتیجه ساختارهای دادهای بسیار زیادی وجود دارد و بیشتر حجم داده دنیا هم بیساختار و بسیار متنوع است.
بخشی از داده ها در بانکهای اطلاعاتی، بخشی به صورت XML و JSON و سایر دادهها نیز در فایلها با قالبهای متفاوت ذخیره شدهاند که عمل پردازش آنها را پیچیده می کند.
• صحت (Veracity)
با توجه به اینکه دادهها از منابع مختلف دریافت میشوند، ممکن است نتوان به همه آنها اطمینان کرد به ویژه در کسب و کارهای متوسط و بزرگ تحلیل دادههای مرتبط کمک ویژهای خواهد کرد ، موضوعی که نمی توان به سادگی از کنار آن در حجم بسیار زیادی از اطلاعات گذشت.
• اعتبار (Validity)
با فرض اینکه داده صحیح باشد، ممکن است برای برخی کاربردها مناسب نباشد یا به عبارت دیگر از اعتبار کافی برای استفاده در برخی از کاربردها برخوردار نباشد.
• نوسان (Volatility)
سرعت تغییر ارزش دادههای بزرگ ، مختلف و در طول زمان میتواند متفاوت باشد. اگرچه نگهداری اطلاعات در زمان طولانی به منظور تحلیل دادهها حائز اهمیت است.
افزایش دوره نگهداری اطلاعات، هزینههای پیادهسازی زیادی را در بر خواهد داشت که باید در نظر گرفته شود.
• نمایش (Visualization)
یکی از کارهای مشکل در حوزه کلان داده یا Big Data ، نمایش اطلاعات است. اینکه بخواهیم کاری کنیم که حجم عظیم اطلاعات با ارتباطات پیچیده، به خوبی قابل فهم و قابل مطالعه باشد؛ از طریق روشهای تحلیلی و بصریسازی مناسب اطلاعات امکانپذیر است.
• ارزش (Value)
آیا هزینهای که برای نگهداری داده و پردازش آنها میشود، ارزش آن را از نظر تصمیمگیری دارد.
کلان داده ( داده عظیم ) یا بیگ دیتا Big Data ، داده هایی با اندازه بزرگ هستند. کلان داده اصطلاحی است برای توصیف مجموعه ای از اطلاعات در اندازه بزرگ و در حال تغییر که نرخ تولید و تنوع آن به طور روزافزون درحال رشد است.
بخشی از این داده ها به طور خودکار توسط ماشین ها تولید و بخش دیگر توسط کاربران تولید می شود.
کلان داده میتوانند بر اساس ویژگیهای زیر تعریف شود:
• اندازه
اندازه دادههای آزانیده (تولید شده) و انباریده (ذخیره شده). اندازهٔ داده در شناسایی ارزش یا کلانگی داده کلیدی است. اگر داده خُرد باشد، کلان داده خوانده نمیشود.
• تنوع
گونهٔ داده. دستهبندی دادهها به گونهها به شناخت بهتر میانجامد.
• نرخ تولید
همان سرعت تولید دادهاست. نرخ بالای تولید داده، چالشهایی را در زمینه ذخیرهسازی و پردازش کلان داده پدید میآورد.
• تغییرپذیری
ناپایداری داده میتواند پردازشها را از رسیدگی و مدیریت داده بازدارد.
• صحت داده
کیفیت داده گردآوری شده میتواند بر داده کاوی دقیق داده اثر بگذارد.
اگر بخواهیم تعریفی از کلان داده ارائه کنیم، می توانیم آن را مجموعه دادههایی بدانیم که اندازه آنها فراتر از حدی است که با نرمافزارها و روشهای معمول بتوان آنها را در یک زمان قابل قبول، دریافت، ذخیره، مدیریت و پردازش کرد.
به طور کلی، تفاوتهای اصلی کلان داده و دادههای سنتی در جدول زیر بیان شده است:
معیار | دادههای سنتی | کلان داده |
اندازه | گیگابایت تا ترابایت | پتابایت تا اگزابایت |
معماری | متمرکز | توزیع شده |
ساختار | دارای ساختار | بیساختار یا نیمساختار |
مدل داده | مدل داده ثابت | بدون شِمای مشخص |
ارتباط داخلی | ارتباطات پیچیده بین رکوردها | فاقد ارتباطات داخلی پیچیده |
منابع کلان داده به خودی خود هیچگونه اطلاعاتی را در اختیار ما نمیگذارند، در واقع شخصی باید باشد که مفهوم این اطلاعات را دریابد. در واقع کل کاری که در تجزیه و تحلیل کلان داده باید انجام شود به این صورت است:
بررسی حجم زیادی از اطلاعات غیر قابل فهم و سپس فهمیدن آنچه میتوان از آن استخراج کرد.
اجرای سامانههای مبتنی بر پلتفرم Big Data یکی دیگر از فعالیتهای سان از چند سال گذشته میباشد.
رویکرد این سامانهها بیشتر برای دادههای انباشته و گاهی متنوع با حجم بالا و بهمنظور پردازشهای سریع و Real Time و پیچیده مناسب است. از تکنولوژیهایی که در این سامانهها استفاده میشود میتوان به موارد زیر اشاره نمود:
آپاچی اسپارک
یک چارچوب محاسباتی برای دادههای عظیم است. اسپارک از MapReduce به عنوان موتور اجرای خودش، استفاده نمیکند؛ اما بهخوبی با هادوپ یکپارچه است.
درواقع اسپارک میتواند در Yarn اجرا شود و با فرمت دادههای هادوپ و HDFS کار کند. اسپارک بیشتر به خاطر توانایی نگهداشتن مجموعههای دادهای بین کارها در حافظه شناخته میشود.
این قابلیت، سبب میشود تا سریعتر از جریان کاری MapReduce معادل که مجموعههای دادهای همیشه از دیسک بار میشوند، عمل کند.
دو نوع کاربردی که از مدل پردازشی اسپارک بهره میبرند، الگوریتمهای تکرارشونده (که یک تابع بر روی مجموعه دادهای بهصورت تکراری تا حصول شرط خروج، اعمال میگردد و تحلیل تعاملی که یک کاربر مجموعهای از پرسوجوهای اکتشافی تککاره را بر روی مجموعه دادهای، اعمال میکنند) است. همچنین اسپارک APIهایی در زبانهای Java،Scala و Python، ارائه میکند.
پروژه Apache Spark شامل ماژولهایی یادگیری ماشین (MLlib)، پردازش گراف (GraphX)، پردازش جریانی (Spark Streaming) و SQL (Spark SQL) است.
یکی از ویژگیهای اصلی Spark که برای سرعت ارائه میدهد، اجرای پردازشها در حافظه است، اما این سیستم همچنین در اجرای برنامه در دیسک هم از MapReduce کاراتر است. Spark میتواند در کلاسترهای هادوپ اجرا شود و به هر منبع دادهای هادوپ مانند Cassandra دسترسی داشته باشد.
جرقه هسته
هسته Spark شامل قابلیتهای اساسی Spark از قبیل اجزایی برای زمانبندی وظیفه، مدیریت حافظه، ترمیم خطا، تعامل با سیستمهای ذخیرهسازی و دیگر اجزا است.
همچنین هسته Spark مکان API است که مجموعه دادهای توزیعشده ارتجاعی (resilient distributed datasets-RDD) که انتزاع برنامهنویسی اصلی Spark است را تعریف میکند.
RDDها مجموعه اقلام توزیعشده در چندین گره پردازشی که میتوانند بهطور موازی استفاده شوند را نشان میدهد.
Spark SQL
این بسته برای کار کردن با دادههای دارای ساختار است. ما را قادر میسازد تا از دادهها با SQL مانند زبان پرس و جوی Hive، پرسوجو بگیریم.
Spark SQL از چندین منبع دادهای شامل جداول Hive، Parquet و JSON پشتیبانی میکند. همچنین میتوان پرسوجوهای SQL را با عملیات دیگری که توسط RDD ها در پایتون، جاوا و اسکالا انجام میشود، در یک برنامه واحد انجام داد که منجر به ترکیب SQL با تحلیلهای پیچیده میشود.
Shark نسخه قدیمی Spark SQL بود که اکنون توسط Spark SQL جایگزین شده است.
جریان جرقه
جزء جریانی Spark، به ما امکان پردازش زنده جریانهایی از داده را میدهد. مثالهایی از دادههای جریانی شامل فایلهای نگاره تولیدشده توسط سرویسدهندههای وب یا صفهای پیامهایی شامل بهروزرسانی وضع و حالت که توسط کاربران یک سرویس وب ارسال میشوند؛ است.
فرسوده
این بسته شامل قابلیتهای یادگیری ماشین متداول است. Mllib شامل چندین نوع الگوریتم یادگیری ماشین از قبیل کلاسبندی، رگرسیون، خوشهبندی و پالایش گروهی و همچنین شامل قابلیتهای ارزیابی مدل و ورودی دادههاست. تمام این روشها طراحیشدهاند تا در یک کلاستر مقیاسپذیر باشند.
GraphX
کتابخانهای برای پردازش گرافها (گراف دوست شبکه اجتماعی) است؛ مانند جریان و SQL، این کتابخانه نیز Spark RDD API را توسعه میدهد و ما را قادر میسازد تا یک گراف جهتدار با مشخصههای دلخواه ضمیمهشده به هر لبه و رأس را ایجاد کنیم.
مدیران خوشه
Spark طراحی شده است تا بهصورت کارا از یک تا چند هزار گره پردازشی مقیاس یابد. برای حصول این قابلیت درحالیکه قابلیت انعطافپذیری نیز به حداکثر برسد، Spark میتواند بر روی انواعی از مدیران خوشه از قبیل Hadoop YARN، Apache Mesos و مدیر خوشه سادهای که در خود Spark به نام زمانبند مستقل است، پردازش کند.
- متمایز بودن از رقبا به دلیل تجربه فراوان با ورود اطلاعات با حجم بیش از 6 میلیارد رکورد و ظرفیت بیش از 2 پتابایت
- استفاده از تکنولوژیهای روز دنیا در مدیریت و آنالیز کلان داده
- مدیریت کلان داده در حوزههای بانکی و مخابراتی
- تحول در عملیات برای دستیابی به برتری تجاری و سرویسدهی
- طراحی مقیاسپذیر