02 Apr تحلیل داده چیست؟
تحلیل داده فرایند ارزیابی داده با استفاده از ابزارهای آماری و تحلیلی به منظور تعیین اطلاعات مفید و کمک به تصمیم گیری بهتر در کسب و کار است. برای تحلیل داده چندین روش مختلف وجود دارد که شامل داده کاوی، تحلیل متن، هوش تجاری و مصورسازی داده ها است.
تحلیل داده چگونه صورت می گیرد تحلیل داده بخشی از فرایند بزرگتر استخراج اطلاعات است که شامل یک یا چند مورد از مراحل زیر است: تعریف اهداف: هر مطالعه باید با چند هدف تجاری روشن شروع شود. بخش عمده ای از تصمیم ها در بخش های بعدی پروژه، به میزان مشخص بودن اهداف بستگی دارند. طرح مساله: در این بخش باید مساله در قالب یک پرسش مطرح شود؛ برای مثال آیا ماشین های قرمز بیشتر در معرض تصادف قرار دارند؟ جمع آوری داده: داده های مرتبط به سوال باید از منابع مناسب جمع آوری شوند. در مثال فوق می توان از منابع مختلفی برای جمع آوری داده استفاده کرد که شامل گزارشات پلیس راهنمایی و رانندگی، دعاوی بیمه و سوابق بستری شدن افراد بر اثر تصادف می باشد. در صورت جمع آوری داده از طریق نظرسنجی باید یک فرم مناسب تهیه شده و سوالات آن با توجه به روش های آماری مدل سازی شوند. ساماندهی داده: داده های خام را می توان به چندین فرمت جمع آوری کرد اما باید آنها را به گونه ای پالایش و مرتب کرد که در ابزارهای تحلیل داده قابل استفاده باشند. در مثال ما ممکن است گزارشات پلیس از تصادف را در قالب فایل های متنی، دعاوی بیمه را به صورت پایگاه داده های رابطه ای و سوابق بستری شدن را به صورت یک api بررسی کنیم. تحلیلگر داده باید این داده ها را از منابع مختلف جمع آوری کرده و در قالب فرمت مناسب برای ابزارهای تحلیل ساماندهی کند.
تحلیل داده: در این مرحله داده های جمع آوری و ساماندهی شده به ابزارهای تحلیل وارد می شوند. این ابزارها امکان بررسی داده ها، شناسایی الگوهای موجود، طرح سوال و یافتن پاسخ را فراهم می کنند. طی این فرایند الگوهای منطقی داده ها از طریق استفاده صحیح از روش های آماری استخراج می شوند. نتیجه گیری و پیش بینی: در این بخش پس از تحلیل صحیح، می توان نتیجه گیری را مشخص کرده و بر اساس آن پیش بینی هایی را مطرح کرد. این موارد باید در قالب یک گزارش خلاصه شده و در اختیار کاربران نهایی قرار بگیرند.
در ادامه روش های تحلیل داده همراه با جزئیات شرح داده شده اند.
داده کاوی
داده کاوی روش تحلیل داده برای کشف الگوهای موجود در مجموعه های بزرگ داده با استفاده از روش های آماری، هوش مصنوعی، یادگیری ماشینی و پایگاه های داده است. هدف از این کار تبدیل داده های خام به اطلاعات تجاری قابل فهم است که ممکن است شامل شناسایی گروه های رکورد داده (تحلیل خوشه ای) یا شناسایی ناهنجاری ها و وابستگی های بین گروه های داده باشد.
کاربردهای داده کاوی: شناسایی ناهنجاری – Anomaly Detection- می تواند مقادیر عظیمی از داده را پردازش کرده و موارد خارج از محدوده –Outlier cases- را به صورت خودکار شناسایی کند تا در تصمیم گیری دخالت داده نشوند. کاربرد دیگر آن هم می تواند شناسایی تقلب –Fraud detection – باشد. یادگیری عادت های خرید مشتری. تکنیک های یادگیری ماشینی را می توان برای مدل سازی عادات خرید مشتریان و تعیین آیتم های پرفروش بکار برد. خوشه بندی -Clustering- می تواند گروه های ناشناخته را در داده ها مشخص کند. طبقه بندی -Classification- را می توان برای دسته بندی داده های ورودی به بخش های از پیش تعریف شده مورد استفاده قرار داد. یک مثال معین از این کاربرد دسته بندی ایمیل ها به عنوان اسپم و غیر اسپم و آموزش سیستم بر اساس درخواست های کاربر است.
تحلیل متن تحلیل متن –Text Analytics- فرایند استخراج اطلاعات مفید از متن است که از طریق پردازش اطلاعات متنی غیر ساخت یافته و استخراج اندیس های عددی با معنی از اطلاعات و مرتب ساختن آنها برای استفاده در الگوریتم های آماری یادگیری ماشینی صورت می گیرد.
فرایند متن کاوی –Text Mining- شامل یک یا چند مرحله زیر است: جمع آوری داده از چندین منبع مختلف از جمله وب، سیستم فایل، دیتابیس و غیره تحلیل زبانی شامل پردازش زبان طبیعی – NLP شناسایی الگو (برای مثال شناسایی شماره تلفن ها، ادرس های ایمیل و غیره) استخراج اطلاعات خلاصه از متن از قیبل فراوانی روابط بین کلمات، تعیین شباهات های بین اسناد و غیره
مثال هایی از کاربردهای تحلیل متن تحلیل پاسخ های نظرسنجی با پایان باز-Open-Ended Survey. این نظرسنجی های تحقیقاتی شامل سوالات با پایان بازی هستند که به موضوع ارتباط مستقیم دارد اما افراد شرکت کننده در نظرسنجی به پاسخ های مشخص محدود نمی شوند. تحلیل ایمیلها، سند وغیره برای فیلتر کردن موارد بلااستفاده -Junks. این کاربرد هم شامل طبقه بندی خودکار پیام ها به گروه های از پیش تعیین شده می شود. نظارت بر رقبا از طریق بررسی وب سایت های آنها که می توان از آن برای استخراج اطلاعات درباره فعالیت های آنها بهره برد. کاربردهای امنیتی شامل پردازش فایل های ثبت شده برای شناسایی تهدیدات
هوش تجاری
هوش تجاری داده ها را در راستای اهداف کسب و کار به اطلاعات عملگرایانه تبدیل کرده و می توان از ،ن برای سازماندهی تصمیمات آماری و فنی بهره برد. این بخش روشی را برای آزمایش گرایشات استخراج شده از داده ها و تصمیم گیری بر اساس آنها ارائه می کند.
نمونه هایی از هوش تجاری متداول: تصمیمات عملیاتی یک سازمان از قبیل تبلیغات و تعیین قیمت محصول شناسایی بازارهای جدید، ارزیابی نیاز و ثبات محصولات در بخش های مختلف بازار بودجه بندی و پیش بینی استفاده از ابزارهای بصری مثل نقشه های گرمایی، جداول متغیرمحوری و نقشه نگاری جغرافیایی
مصورسازی داده
این بخش به نمایش بصری داده ها اشاره دارد که در زمینه تحلیل داده به معنی استفاده از ابزارهای آماری، احتمالاتی، جداول متغیر محوری و دیگر ابزارها برای نمایش بصری داده، است. هدف از اینکار تسهیل درک و استفاده از داده های پیچیده است. امروزه میزان داده های تولیدی از دستگاه ها و حسگرهای مختلف در حال افزایش است که از آن به عنوان اینترنت اشیا نام برده می شود. درک این داده ها که کلان داده نامیده می شوند، با چالش های خاصی همراه است اما با استفاده از ابزارهای مصورسازی داده می توان آن را تسهیل کرد.
مصورسازی داده کاربردهای زیر را به همراه دارد:
استخراج اطلاعات مفید از داده های خام اینترنت اشیا استفاده از یک چارت برای نمایش میزان فروش در بازه های مختلف نمایش توزیع متغیرهایی از قبیل درآمد با استفاده از بافت نگار و تقسیم بندی محدوده های مختلف
خلاصه تحلیل داده تحلیل داده به منظور ارزیابی داده با استفاده از ابزارهای آماری صورت گرفته و هدف از آن تعیین اطلاعات مفید است. روش های مختلفی برای تحلیل داده وجود دارد که شامل داده کاوی، تحلیل متن، هوش تجاری و مصورسازی داده می باشد.
No Comments