📖 کتاب بخوانیم؛
"تحلیل عظیمداده، سیستمها، الگوریتمها و کاربردها"
"Big Data Analytics: Systems, Algorithms, Applications"
📌 بخش هشتم: اینترنت اشیا و تحلیلگری عظیمداده
🔸در این فصل یک حوزه کاربردی بسیار مهم دیگر از تحلیلگری عظیمداده (Big Data) مورد بررسی قرار گرفته است که عبارتست از اینترنت اشیا (IOT). اینترنت اشیا را میتوان به عنوان تعامل و قابلیت همکاری فعالیت حوزههای مختلف نظیر صنعت مخابرات، نرمافزار، سختافزار و صنایع تولید دستگاه دانست که نویدبخش فرصتهای بزرگی برای بخشهای مختلف صنعت و تجارت است.
🔹افزایش قابل توجه در دستگاههای متصل، منجر به افزایش نمایی در اندازه دادههایی است که انتظار میرود توسط شرکتها مدیریت و تحلیل، و بر اساس آن اقدام شود. بنابراین اینترنت اشیا یک شریک طبیعی برای عظیمداده محسوب میشود چرا که حجم داده مورد نیاز برای تحلیلگری عظیمداده را فراهم مینماید. تمام دادههای بلادرنگی که از منابع مختلف از جمله لوازم خانگی، ماشین آلات، مسیرهای قطار، کانتینرهای حمل و نقل، برق ایستگاهها و غیره به دست میآید باید مورد تحلیل قرار گرفته و جهت اقدام مورد استفاده قرار گیرد.
🔸تلفیق عظیمداده با اینترنت اشیا وابسته به محیط زیرساخت است. این محیط شامل زیرساخت ابری و ذخیرهسازی است. سازمانهای بسیاری تلاش میکنند تا به سمت پلتفرم به عنوان سرویس (PaaS) ابری برای میزبانی و تحلیل دادههای بزرگ اینترنت اشیا حرکت کنند چرا که در اختیار داشتن و نگهداشت فضای ذخیرهسازی بسیار هزینهبر است. انتظار میرود PaaS ابری مقیاسپذیری، انعطافپذیری و معماری پیچیده و موثر برای ذخیره دادههای ابری که از دستگاههای اینترنت اشیا دریافت میشود را داشته باشد. اگر دادهها حساس باشد، معماری ابر خصوصی میتواند استقرار یابد. در غیر اینصورت خدمات ابر عمومی مانند AWS (آمازون) یا Azure (مایکروسافت) قابل استقرار میباشند.
✅ برای خواندن این مطلب میتوانید به لینک زیر مراجعه فرمایید:
🔗 https://b2n.ir/w69325
#کتاب_بخوانیم
#فصل_هشتم
#فاطمه_مظفری
#تحلیل_عظیمداده_سیستمها_الگوریتمها_و_کاربردها
www.bdbanalytics.ir
@BigData_BusinessAnalytics
"تحلیل عظیمداده، سیستمها، الگوریتمها و کاربردها"
"Big Data Analytics: Systems, Algorithms, Applications"
📌 بخش هشتم: اینترنت اشیا و تحلیلگری عظیمداده
🔸در این فصل یک حوزه کاربردی بسیار مهم دیگر از تحلیلگری عظیمداده (Big Data) مورد بررسی قرار گرفته است که عبارتست از اینترنت اشیا (IOT). اینترنت اشیا را میتوان به عنوان تعامل و قابلیت همکاری فعالیت حوزههای مختلف نظیر صنعت مخابرات، نرمافزار، سختافزار و صنایع تولید دستگاه دانست که نویدبخش فرصتهای بزرگی برای بخشهای مختلف صنعت و تجارت است.
🔹افزایش قابل توجه در دستگاههای متصل، منجر به افزایش نمایی در اندازه دادههایی است که انتظار میرود توسط شرکتها مدیریت و تحلیل، و بر اساس آن اقدام شود. بنابراین اینترنت اشیا یک شریک طبیعی برای عظیمداده محسوب میشود چرا که حجم داده مورد نیاز برای تحلیلگری عظیمداده را فراهم مینماید. تمام دادههای بلادرنگی که از منابع مختلف از جمله لوازم خانگی، ماشین آلات، مسیرهای قطار، کانتینرهای حمل و نقل، برق ایستگاهها و غیره به دست میآید باید مورد تحلیل قرار گرفته و جهت اقدام مورد استفاده قرار گیرد.
🔸تلفیق عظیمداده با اینترنت اشیا وابسته به محیط زیرساخت است. این محیط شامل زیرساخت ابری و ذخیرهسازی است. سازمانهای بسیاری تلاش میکنند تا به سمت پلتفرم به عنوان سرویس (PaaS) ابری برای میزبانی و تحلیل دادههای بزرگ اینترنت اشیا حرکت کنند چرا که در اختیار داشتن و نگهداشت فضای ذخیرهسازی بسیار هزینهبر است. انتظار میرود PaaS ابری مقیاسپذیری، انعطافپذیری و معماری پیچیده و موثر برای ذخیره دادههای ابری که از دستگاههای اینترنت اشیا دریافت میشود را داشته باشد. اگر دادهها حساس باشد، معماری ابر خصوصی میتواند استقرار یابد. در غیر اینصورت خدمات ابر عمومی مانند AWS (آمازون) یا Azure (مایکروسافت) قابل استقرار میباشند.
✅ برای خواندن این مطلب میتوانید به لینک زیر مراجعه فرمایید:
🔗 https://b2n.ir/w69325
#کتاب_بخوانیم
#فصل_هشتم
#فاطمه_مظفری
#تحلیل_عظیمداده_سیستمها_الگوریتمها_و_کاربردها
www.bdbanalytics.ir
@BigData_BusinessAnalytics
📖 کتاب بخوانیم؛
"تحلیل عظیمداده، سیستمها، الگوریتمها و کاربردها"
"Big Data Analytics: Systems, Algorithms, Applications"
📌 بخش یازدهم: تحلیلگری عظیم داده در صنعت بیمه
🔸 در این بخش خلاصهای از تحلیلگری عظیم داده در صنعت بیمه مطرح شده است که شامل موارد کاربردی همچون اجتناب از ریسک، شخصیسازی محصولات، فروش متقابل، کشف تقلب، برنامهریزی برای رخدادهای فاجعهآمیز و تحلیل نیازهای مشتری میباشد. میتوان گفت حوزه بیمه در زمره کاربران قدیمی تکنیکهای پردازش دادهها شامل اطلاعاتی در خصوص مشتریان، روندهای بازار و رقابت که به طور فراوانی در دسترس سیستمهای قدیمی موجود بوده است، میباشد. علاوه بر دادههای این سیستمها، حجم زیادی از دادههای بدون ساختار که از ایمیلها، شبکههای اجتماعی، پیامها و بلاگها یا دادههای سنسورها میآید، در کنار هم قرار داده شده و عظیم داده را در این صنعت شکل میدهد. تحلیل این تنوع از دادهها میتواند ارزش قابل توجهی برای فعالیتهای بیمه نظیر بازاریابی و پذیرهنویسی و همچنین کاهش هزینههای فعالیتهای عملیاتی که میتواند فرموله کردن بهتر استراتژی و کاهش ریسک در بیمه را به همراه داشته باشد، ایجاد نماید.
✅ برای خواندن این مطلب میتوانید به لینک زیر مراجعه فرمایید:
🔗 https://b2n.ir/x29755
#کتاب_بخوانیم
#فصل_یازدهم
#صنعت_بیمه
#فاطمه_مظفری
#تحلیل_عظیمداده_سیستمها_الگوریتمها_و_کاربردها
www.bdbanalytics.ir
@BigData_BusinessAnalytics
"تحلیل عظیمداده، سیستمها، الگوریتمها و کاربردها"
"Big Data Analytics: Systems, Algorithms, Applications"
📌 بخش یازدهم: تحلیلگری عظیم داده در صنعت بیمه
🔸 در این بخش خلاصهای از تحلیلگری عظیم داده در صنعت بیمه مطرح شده است که شامل موارد کاربردی همچون اجتناب از ریسک، شخصیسازی محصولات، فروش متقابل، کشف تقلب، برنامهریزی برای رخدادهای فاجعهآمیز و تحلیل نیازهای مشتری میباشد. میتوان گفت حوزه بیمه در زمره کاربران قدیمی تکنیکهای پردازش دادهها شامل اطلاعاتی در خصوص مشتریان، روندهای بازار و رقابت که به طور فراوانی در دسترس سیستمهای قدیمی موجود بوده است، میباشد. علاوه بر دادههای این سیستمها، حجم زیادی از دادههای بدون ساختار که از ایمیلها، شبکههای اجتماعی، پیامها و بلاگها یا دادههای سنسورها میآید، در کنار هم قرار داده شده و عظیم داده را در این صنعت شکل میدهد. تحلیل این تنوع از دادهها میتواند ارزش قابل توجهی برای فعالیتهای بیمه نظیر بازاریابی و پذیرهنویسی و همچنین کاهش هزینههای فعالیتهای عملیاتی که میتواند فرموله کردن بهتر استراتژی و کاهش ریسک در بیمه را به همراه داشته باشد، ایجاد نماید.
✅ برای خواندن این مطلب میتوانید به لینک زیر مراجعه فرمایید:
🔗 https://b2n.ir/x29755
#کتاب_بخوانیم
#فصل_یازدهم
#صنعت_بیمه
#فاطمه_مظفری
#تحلیل_عظیمداده_سیستمها_الگوریتمها_و_کاربردها
www.bdbanalytics.ir
@BigData_BusinessAnalytics
🔸دادههای به کار گرفته شده: تأکید در رولز رویس بر دادههای داخلی، به ویژه سنسورهای نصب شده بر روی محصولات این شرکت است. دادههای اپراتورها به شکل ارسال وایرلس از هواپیما (VHF و SATCOM، Wi-Fi) و شامل ترکیبی از گزارشهای عملکردی است. این دادهها معمولاً شامل تصاویر لحظهای از عملکرد موتور در مراحل کلیدی پرواز نظیر بلند شدن است، که موتور در حداکثر قدرت خود است. سایر گزارشها هرگونه رخداد جالب توجه در حین پرواز را در جایی که ثبت داده با فرکانس بالا در دسترس است را شامل میشود. پیامهای نگهداشت تولید شده توسط هواپیما، گزارشهای حرکت (زمان و مکان) و پروفایل کل پرواز حتی جزئیات بیشتری را ارائه مینماید. همچنین دادههای عظیمی در حین فرآیند تولید ایجاد میشود.
🔹جزئیات فنی: ذخیرهسازی: با توجه به تقاضا برای ذخیرهسازی کم هزینه و مقیاسپذیر و همچنین پردازش و بازیابی سریع، رولز رویس از امکانات ابری خصوصی، مقاوم و امن به همراه رویکرد ذخیرهسازی اختصاصی استفاده مینماید که توان پردازشی را بهینه میسازد در حالیکه از data lake برای بررسیهای آفلاین استفاده میکند. استفاده از ذخیرهسازی ابری به ذخیرهسازی منابع دادهای بیشتر و ترکیب آنها شامل دادههای اینترنت اشیا کمک میکند که منجر به ارائه خدمات جدید به مشتریان و شناسایی فرصتهای جدید برای بهبود میگردد.
تحلیلگری: رولز رویس از تحلیلگری پیچیده و پیشرو برای پایش دقیق جریانهای دادهای استفاده مینماید. شناسایی رفتارهای ناهنجار و حداقلسازی نرخ مثبت کاذب در برنامه تحلیلگری شرکت قرار دارد.
🔸چالشها: فقدان کارکنان آموزش دیده و با تجربه در زمینه تحلیلگری دادهها به عنوان چالش اصلی ذکر شده است. بر این اساس جذب استعدادهای برتر در این زمینه همواره مدنظر بوده است. در سال 2013، رولز رویس برای غلبه بر این چالش آزمایشگاه تحقیقاتی عظیم داده را با شراکت دانشگاه تکنولوژی سنگاپور بنا نهاد و زمینهای را برای دسترسی راحتتر به استعدادهای برتر در جهان را ایجاد نمود.
🔹درس آموختهها: رولز رویس به عنوان نمونهای عالی از یک غول صنعتی در عصر گذشته است که توانسته است به عصر جدید با بهبودهای داده محور و کارایی مبتنی بر داده، گذار پیدا کند. رولز رویس مانند بسیاری از شرکتهای موفق صنعتی باید بیش از پیش دیجیتالی شدن را تجربه نماید و عظیم داده این تحول را رقم میزند. امروزه دیگر صحبت از این نیست که آیا کسب و کارها باید از دادههای عظیم استفاده کنند یا خیر، بلکه صحبت از این است که چه زمانی و چگونه باید از آن استفاده کنند.
#نمونه_موردی
#عظیم_داده
#تولید
#فاطمه_مظفری
www.bdbanalytics.ir
@BigData_BusinessAnalytics
🔹جزئیات فنی: ذخیرهسازی: با توجه به تقاضا برای ذخیرهسازی کم هزینه و مقیاسپذیر و همچنین پردازش و بازیابی سریع، رولز رویس از امکانات ابری خصوصی، مقاوم و امن به همراه رویکرد ذخیرهسازی اختصاصی استفاده مینماید که توان پردازشی را بهینه میسازد در حالیکه از data lake برای بررسیهای آفلاین استفاده میکند. استفاده از ذخیرهسازی ابری به ذخیرهسازی منابع دادهای بیشتر و ترکیب آنها شامل دادههای اینترنت اشیا کمک میکند که منجر به ارائه خدمات جدید به مشتریان و شناسایی فرصتهای جدید برای بهبود میگردد.
تحلیلگری: رولز رویس از تحلیلگری پیچیده و پیشرو برای پایش دقیق جریانهای دادهای استفاده مینماید. شناسایی رفتارهای ناهنجار و حداقلسازی نرخ مثبت کاذب در برنامه تحلیلگری شرکت قرار دارد.
🔸چالشها: فقدان کارکنان آموزش دیده و با تجربه در زمینه تحلیلگری دادهها به عنوان چالش اصلی ذکر شده است. بر این اساس جذب استعدادهای برتر در این زمینه همواره مدنظر بوده است. در سال 2013، رولز رویس برای غلبه بر این چالش آزمایشگاه تحقیقاتی عظیم داده را با شراکت دانشگاه تکنولوژی سنگاپور بنا نهاد و زمینهای را برای دسترسی راحتتر به استعدادهای برتر در جهان را ایجاد نمود.
🔹درس آموختهها: رولز رویس به عنوان نمونهای عالی از یک غول صنعتی در عصر گذشته است که توانسته است به عصر جدید با بهبودهای داده محور و کارایی مبتنی بر داده، گذار پیدا کند. رولز رویس مانند بسیاری از شرکتهای موفق صنعتی باید بیش از پیش دیجیتالی شدن را تجربه نماید و عظیم داده این تحول را رقم میزند. امروزه دیگر صحبت از این نیست که آیا کسب و کارها باید از دادههای عظیم استفاده کنند یا خیر، بلکه صحبت از این است که چه زمانی و چگونه باید از آن استفاده کنند.
#نمونه_موردی
#عظیم_داده
#تولید
#فاطمه_مظفری
www.bdbanalytics.ir
@BigData_BusinessAnalytics
📌📌 معرفی ابزار : Apache Druid
🖌ابزار Apache Druid یک پایگاه داده تحلیلی بلادرنگ است که برای پردازش تحلیلی آنلاین (OLAP) در مجموعه دادههای بزرگ طراحی شده است. اغلب Druid در مواردی استفاده میشود که در آن ورود داده بلادرنگ، عملکرد سریع کوئری و زمان مهم است.
🔸معماری اصلی Druid ایدههایی از انبارهای داده، پایگاههای داده سری زمانی و سیستمهای جستجوی لاگ را ترکیب میکند.
🔹برخی از ویژگی های کلیدی Druid عبارتند از: قالب ذخیره سازی ستونی، سیستم توزیع شده مقیاس پذیر، پردازش موازی، پردازش به صورت بلادرنگ یا دستهای، معماری ابری و مقاوم در برابر خطا، ایندکسهایی برای فیلتر کردن سریع، پارتیشنبندی مبتنی بر زمان، الگوریتمهای تقریبی و خلاصهسازی خودکار.
🔸این پایگاه داده برای مواردی که نرخ درج دادهها بالا اما بروزرسانی کمتر است، اکثر کوئریها عبارتند از کوئریهای تجمیع و گزارش، تأخیرهای کوئری از 100 میلی ثانیه تا چند ثانیه مورد نظر است، دادهها دارای یک جزء زمان است و load دادهها از Kafka، HDFS، فایلهای فلت، یا ذخیرهسازی آبجکت مانند Amazon S3 انجام میگیرد، کاملاً مناسب است.
✅ متن کامل یادداشت را در لینک زیر بخوانید:
🔗 https://b2n.ir/g89758
#معرفی_ابزار
#Apache_Druid
#فاطمه_مظفری
@BigData_BusinessAnalytics
www.bdbanalytics.ir
🖌ابزار Apache Druid یک پایگاه داده تحلیلی بلادرنگ است که برای پردازش تحلیلی آنلاین (OLAP) در مجموعه دادههای بزرگ طراحی شده است. اغلب Druid در مواردی استفاده میشود که در آن ورود داده بلادرنگ، عملکرد سریع کوئری و زمان مهم است.
🔸معماری اصلی Druid ایدههایی از انبارهای داده، پایگاههای داده سری زمانی و سیستمهای جستجوی لاگ را ترکیب میکند.
🔹برخی از ویژگی های کلیدی Druid عبارتند از: قالب ذخیره سازی ستونی، سیستم توزیع شده مقیاس پذیر، پردازش موازی، پردازش به صورت بلادرنگ یا دستهای، معماری ابری و مقاوم در برابر خطا، ایندکسهایی برای فیلتر کردن سریع، پارتیشنبندی مبتنی بر زمان، الگوریتمهای تقریبی و خلاصهسازی خودکار.
🔸این پایگاه داده برای مواردی که نرخ درج دادهها بالا اما بروزرسانی کمتر است، اکثر کوئریها عبارتند از کوئریهای تجمیع و گزارش، تأخیرهای کوئری از 100 میلی ثانیه تا چند ثانیه مورد نظر است، دادهها دارای یک جزء زمان است و load دادهها از Kafka، HDFS، فایلهای فلت، یا ذخیرهسازی آبجکت مانند Amazon S3 انجام میگیرد، کاملاً مناسب است.
✅ متن کامل یادداشت را در لینک زیر بخوانید:
🔗 https://b2n.ir/g89758
#معرفی_ابزار
#Apache_Druid
#فاطمه_مظفری
@BigData_BusinessAnalytics
www.bdbanalytics.ir
Telegram
attach 📎
🔎 استفاده از هوش مصنوعی در تحقیقات علمی و بهبود تصمیمات پزشکی
🔻 مورد مطالعه: Elsevier
🔸 الزویر یک انتشارات چندرسانهای جهانی است که بیش از 20000 محصول آموزشی و حرفهای را برای جوامع علمی و حوزههای پزشکی، از جمله نشریات تحقیقاتی برجسته مانند The Lancet و Cell ارائه میدهد. مرحله اول از تحول دیجیتال مستمر شرکت شامل دیجیتالی کردن حجم عظیمی از دادههای منتشر شده در گزارشها و مجلات در طول تاریخ 140 ساله شرکت بوده است و اکنون در حال ساخت ابزارهای هوش مصنوعی (AI) است که بینشهای جدیدی را از این دادهها و همچنین ترکیب آن با سایر منابع دادههای عظیم مانند دادههای ناشناس شده بیماران و بیمهها استخراج میکند.
🔹 پلتفرم الزویر از دادههای ناشناس شده بیماران، از جمله سوابق پزشکی، سوابق درمان و نتایج استفاده میکند. همچنین از پایگاه داده دارای 5 میلیون رکورد مرتبط با بیمه درمانی استفاده میکند. علاوه بر این، تمام مقالات و تحقیقات منتشر شده در مجلات الزویر در طول 140 سال گذشته نیز از جمله منابع مورد استفاده است. الزویر برای انجام تجزیه و تحلیل بر روی این دادهها، ابزارهای تحلیلی اختصاصی خود را ساخته است که از پردازش زبان طبیعی برای درک محتویات ادبیات پزشکی در پایگاه داده خود و همچنین سوابق بیمار استفاده میکنند. این شرکت، دادههای عظیم تجاری و راهحلهای هوش مصنوعی همچون راهکارهای پیشنهاد شده توسط مایکروسافت و آمازون را برای مرحله بعدی هوش مصنوعی خود در نظر دارد.
🔸 با در نظر گرفتن این موضوع که الزویر 25 درصد از تولیدات تحقیقات علمی و پزشکی منتشر شده ایالات متحده را در اختیار دارد، بهرهگیری از هوش مصنوعی موجب شده است تا بتواند روشهای جدیدی برای استخراج ارزش از این اطلاعات ایجاد کند. همچنین استفاده از ماشین برای تعیین مسیرهای درمانی بهینه بسته به جزئیات بیماری و بیمار، سابقه پزشکی و علائم ظاهر شده میتواند منجر به استانداردسازی درمانها گردد. اگر درمانهای استاندارد شده با استفاده از دادهها بهینه شوند، منجر به نتایج بهتری برای بیمار میشوند و به ارائهدهندگان مراقبتهای بهداشتی نیز کمک میکند تا هزینههای کلی را کاهش دهند.
🔹الزویر علاوه بر پلتفرم پشتیبانی تصمیمگیری بالینی پیشرفته خود، از هوش مصنوعی برای راهحلهای تحقیقاتی خارج از حوزه مراقبتهای بهداشتی، مانند ابزار ScienceDirect خود استفاده میکند. این ابزار همچنین با استفاده از مجموعه مقالات علمی منتشر شده پژوهشگران را به سمت مقالات مرتبط با کار تحقیقاتیشان که با استفاده از پیشبینی هوش مصنوعی مشخص میشوند، هدایت کرده و به این ترتیب از پژوهشگران حمایت میکند.
🔺 برای خواندن این مطلب میتوانید به لینک زیر مراجعه فرمایید:
🔗 https://b2n.ir/r19056
#نمونه_موردی
#عظیم_داده
#هوش_مصنوعی
#پزشکی
#فاطمه_مظفری
www.bdbanalytics.ir
@BigData_BusinessAnalytics
🔻 مورد مطالعه: Elsevier
🔸 الزویر یک انتشارات چندرسانهای جهانی است که بیش از 20000 محصول آموزشی و حرفهای را برای جوامع علمی و حوزههای پزشکی، از جمله نشریات تحقیقاتی برجسته مانند The Lancet و Cell ارائه میدهد. مرحله اول از تحول دیجیتال مستمر شرکت شامل دیجیتالی کردن حجم عظیمی از دادههای منتشر شده در گزارشها و مجلات در طول تاریخ 140 ساله شرکت بوده است و اکنون در حال ساخت ابزارهای هوش مصنوعی (AI) است که بینشهای جدیدی را از این دادهها و همچنین ترکیب آن با سایر منابع دادههای عظیم مانند دادههای ناشناس شده بیماران و بیمهها استخراج میکند.
🔹 پلتفرم الزویر از دادههای ناشناس شده بیماران، از جمله سوابق پزشکی، سوابق درمان و نتایج استفاده میکند. همچنین از پایگاه داده دارای 5 میلیون رکورد مرتبط با بیمه درمانی استفاده میکند. علاوه بر این، تمام مقالات و تحقیقات منتشر شده در مجلات الزویر در طول 140 سال گذشته نیز از جمله منابع مورد استفاده است. الزویر برای انجام تجزیه و تحلیل بر روی این دادهها، ابزارهای تحلیلی اختصاصی خود را ساخته است که از پردازش زبان طبیعی برای درک محتویات ادبیات پزشکی در پایگاه داده خود و همچنین سوابق بیمار استفاده میکنند. این شرکت، دادههای عظیم تجاری و راهحلهای هوش مصنوعی همچون راهکارهای پیشنهاد شده توسط مایکروسافت و آمازون را برای مرحله بعدی هوش مصنوعی خود در نظر دارد.
🔸 با در نظر گرفتن این موضوع که الزویر 25 درصد از تولیدات تحقیقات علمی و پزشکی منتشر شده ایالات متحده را در اختیار دارد، بهرهگیری از هوش مصنوعی موجب شده است تا بتواند روشهای جدیدی برای استخراج ارزش از این اطلاعات ایجاد کند. همچنین استفاده از ماشین برای تعیین مسیرهای درمانی بهینه بسته به جزئیات بیماری و بیمار، سابقه پزشکی و علائم ظاهر شده میتواند منجر به استانداردسازی درمانها گردد. اگر درمانهای استاندارد شده با استفاده از دادهها بهینه شوند، منجر به نتایج بهتری برای بیمار میشوند و به ارائهدهندگان مراقبتهای بهداشتی نیز کمک میکند تا هزینههای کلی را کاهش دهند.
🔹الزویر علاوه بر پلتفرم پشتیبانی تصمیمگیری بالینی پیشرفته خود، از هوش مصنوعی برای راهحلهای تحقیقاتی خارج از حوزه مراقبتهای بهداشتی، مانند ابزار ScienceDirect خود استفاده میکند. این ابزار همچنین با استفاده از مجموعه مقالات علمی منتشر شده پژوهشگران را به سمت مقالات مرتبط با کار تحقیقاتیشان که با استفاده از پیشبینی هوش مصنوعی مشخص میشوند، هدایت کرده و به این ترتیب از پژوهشگران حمایت میکند.
🔺 برای خواندن این مطلب میتوانید به لینک زیر مراجعه فرمایید:
🔗 https://b2n.ir/r19056
#نمونه_موردی
#عظیم_داده
#هوش_مصنوعی
#پزشکی
#فاطمه_مظفری
www.bdbanalytics.ir
@BigData_BusinessAnalytics
📌 معرفی مقالات داغ حوزه عظیمداده
Sentiment analysis researches story narrated by topic modeling approach
🖋نویسندگان: دکتر سعید روحانی، فاطمه مظفری
🖋 سال انتشار: 2022
🔸رشد فزاینده محتوای تولید شده توسط کاربران همچون وبسایتها، رسانههای اجتماعی و اپلیکیشنهای موبایل، افراد را به سمت ایجاد انبوهی از نظرات و بررسیها در مورد محصولات، خدمات و رویدادهای روزانه سوق میدهد. تحلیل احساسات (sentiment analysis) ابزاری قدرتمند برای کسب و کارها و محققان جهت بررسی و مطالعه نگرشها، تفسیرها و کسب بینش از پیامدهای آنها برای پشتیبانی از تصمیم گیری است.
🔹بر این اساس، این مقاله یک مطالعه جامع در مورد موضوعات اصلی پژوهشی، روندهای پژوهش و مقایسه موضوعات پژوهشی در زمینه "تحلیل احساسات" از طریق "رسانههای اجتماعی" با استفاده از تاپیک مدلینگ و به طور خاص مدل LDA Latent Dirichlet Allocation که یک مدل احتمالی برای کشف تاپیکهای پنهان در حجم زیادی از دادهها است ارائه میدهد.
🔸یافتههای این مقاله نشان میهد که روشهای «یادگیری ماشین» از مهمترین موضوعاتی است که در سالهای اخیر روی آنها کار شده است. همچنین پلتفرمهای مختلف رسانههای اجتماعی مانند «توئیتر، فیسبوک، یوتیوب و بلاگ» زیرساختهای تحلیل احساسات هستند.
🔹در میان کاربردها، حوزه حمل و نقل، تشخیص اسپم و تصمیمگیری از نقطه نظر فراوانی نرمال شده دارای اهمیت شناخته شدهاند. همچنین یافتهها تأیید میکنند که مفهوم «بهبود خدمات از طریق تحلیل احساسات» موضوع مهمی است که بهبود کیفیت خدمات شرکت را از طریق تمرکز بر تحلیل نظرات مشتریان میسر میسازد و به پژوهشگران و متخصصان و همچنین مدیران اجازه میدهد دیدگاههای بهتری در مورد دوران داغ «تحلیل احساسات» داشته باشند.
🔹برای دریافت مقاله به لینک زیر مراجعه فرمایید:
🔗 https://b2n.ir/h34363
#معرفی_مقاله
#دکتر_سعید_روحانی
#فاطمه_مظفری
#تحلیل_احساسات
#شبکههای_اجتماعی
#تاپیک_مدلینگ
www.bdbanalytics.ir
@BigData_BusinessAnalytics
Sentiment analysis researches story narrated by topic modeling approach
🖋نویسندگان: دکتر سعید روحانی، فاطمه مظفری
🖋 سال انتشار: 2022
🔸رشد فزاینده محتوای تولید شده توسط کاربران همچون وبسایتها، رسانههای اجتماعی و اپلیکیشنهای موبایل، افراد را به سمت ایجاد انبوهی از نظرات و بررسیها در مورد محصولات، خدمات و رویدادهای روزانه سوق میدهد. تحلیل احساسات (sentiment analysis) ابزاری قدرتمند برای کسب و کارها و محققان جهت بررسی و مطالعه نگرشها، تفسیرها و کسب بینش از پیامدهای آنها برای پشتیبانی از تصمیم گیری است.
🔹بر این اساس، این مقاله یک مطالعه جامع در مورد موضوعات اصلی پژوهشی، روندهای پژوهش و مقایسه موضوعات پژوهشی در زمینه "تحلیل احساسات" از طریق "رسانههای اجتماعی" با استفاده از تاپیک مدلینگ و به طور خاص مدل LDA Latent Dirichlet Allocation که یک مدل احتمالی برای کشف تاپیکهای پنهان در حجم زیادی از دادهها است ارائه میدهد.
🔸یافتههای این مقاله نشان میهد که روشهای «یادگیری ماشین» از مهمترین موضوعاتی است که در سالهای اخیر روی آنها کار شده است. همچنین پلتفرمهای مختلف رسانههای اجتماعی مانند «توئیتر، فیسبوک، یوتیوب و بلاگ» زیرساختهای تحلیل احساسات هستند.
🔹در میان کاربردها، حوزه حمل و نقل، تشخیص اسپم و تصمیمگیری از نقطه نظر فراوانی نرمال شده دارای اهمیت شناخته شدهاند. همچنین یافتهها تأیید میکنند که مفهوم «بهبود خدمات از طریق تحلیل احساسات» موضوع مهمی است که بهبود کیفیت خدمات شرکت را از طریق تمرکز بر تحلیل نظرات مشتریان میسر میسازد و به پژوهشگران و متخصصان و همچنین مدیران اجازه میدهد دیدگاههای بهتری در مورد دوران داغ «تحلیل احساسات» داشته باشند.
🔹برای دریافت مقاله به لینک زیر مراجعه فرمایید:
🔗 https://b2n.ir/h34363
#معرفی_مقاله
#دکتر_سعید_روحانی
#فاطمه_مظفری
#تحلیل_احساسات
#شبکههای_اجتماعی
#تاپیک_مدلینگ
www.bdbanalytics.ir
@BigData_BusinessAnalytics
🔎 استفاده از هوش مصنوعی در خدمات مالی
🔻 مورد مطالعه: آمریکن اکسپرس
🔸 امریکن اکسپرس بیش از 25 درصد از موارد استفاده از کارت اعتباری در ایالات متحده را بر عهده دارد که در سال 2017 معادل 1.1 تریلیون دلار تراکنش در سال بوده است و بر اساس فوربس یکی از با ارزشترین برندها در خدمات مالی است. این شرکت در محور هر کاری که انجام میدهد، دادهها و تحلیلگری را قرار داده است. با این حال، دو مورد از موارد استفاده کلیدی آن کشف تقلب و بهبود تجربه مشتری است.
🔹 بانکها و موسسات مالی از جمله صادر کنندگان کارت اعتباری و بیمهها، همواره از الگوهای به دست آمده در دادههای تاریخی برای کشف تقلب استفاده میکنند. این موضوع به موسسات مالی امکان ایجاد مدلهایی را میدهد که میتوانند برای پیشبینی قابل اعتماد بودن معاملات آتی مورد استفاده قرار دهند.
🔸 مطالعه موردی شرکت آمریکن اکسپرس در خصوص بهرهگیری از سیستمهای هوش مصنوعی نشان میدهد مدلهای یادگیری ماشین برای کشف تقلب باید به طور مداوم و به صورت بلادرنگ تطبیق یافته و بروزرسانی شوند به این معنا که نیازمند جریان دادهای پیوسته برای یادگیری هستند. همچنین ذخیره سازی توزیع شده و میزان قابل توجه توان محاسباتی از الزامات استفاده از این حجم از داده جهت پیشبینی دقیق و بلادرنگ میباشد.
🔸 تعداد بالای تراکنشهای پردازش شده توسط آمریکن اکسپرس به این معناست که افزایش کمی در کارایی میتواند بهبودهای بزرگی را در امنیت کلی ایجاد نماید.
🔹 علاوه بر کشف تقلب، کسب و کارهای ارائه دهنده خدمات مالی از هوش مصنوعی برای ایجاد ارزش افزوده برای مشتریان در راه تغییر در بهرهگیری از خدمات خود استفاده میکنند. از جمله میتوان از اپلیکیشن «دستیار سفر شخصی» مبتنی بر هوش مصنوعی آمریکن اکسپرس نام برد که در آن از هوش مصنوعی برای کمک به دارنده کارت با استفاده از توصیههای خرید شخصیسازی شده بر اساس عادات و سابقه خرید قبلی وی استفاده شده است.
🔺 برای خواندن این مطلب میتوانید به لینک زیر مراجعه فرمایید:
🔗 https://b2n.ir/a95709
#نمونه_موردی
#عظیم_داده
#هوش_مصنوعی
#خدمات_مالی
#فاطمه_مظفری
www.bdbanalytics.ir
@BigData_BusinessAnalytics
🔻 مورد مطالعه: آمریکن اکسپرس
🔸 امریکن اکسپرس بیش از 25 درصد از موارد استفاده از کارت اعتباری در ایالات متحده را بر عهده دارد که در سال 2017 معادل 1.1 تریلیون دلار تراکنش در سال بوده است و بر اساس فوربس یکی از با ارزشترین برندها در خدمات مالی است. این شرکت در محور هر کاری که انجام میدهد، دادهها و تحلیلگری را قرار داده است. با این حال، دو مورد از موارد استفاده کلیدی آن کشف تقلب و بهبود تجربه مشتری است.
🔹 بانکها و موسسات مالی از جمله صادر کنندگان کارت اعتباری و بیمهها، همواره از الگوهای به دست آمده در دادههای تاریخی برای کشف تقلب استفاده میکنند. این موضوع به موسسات مالی امکان ایجاد مدلهایی را میدهد که میتوانند برای پیشبینی قابل اعتماد بودن معاملات آتی مورد استفاده قرار دهند.
🔸 مطالعه موردی شرکت آمریکن اکسپرس در خصوص بهرهگیری از سیستمهای هوش مصنوعی نشان میدهد مدلهای یادگیری ماشین برای کشف تقلب باید به طور مداوم و به صورت بلادرنگ تطبیق یافته و بروزرسانی شوند به این معنا که نیازمند جریان دادهای پیوسته برای یادگیری هستند. همچنین ذخیره سازی توزیع شده و میزان قابل توجه توان محاسباتی از الزامات استفاده از این حجم از داده جهت پیشبینی دقیق و بلادرنگ میباشد.
🔸 تعداد بالای تراکنشهای پردازش شده توسط آمریکن اکسپرس به این معناست که افزایش کمی در کارایی میتواند بهبودهای بزرگی را در امنیت کلی ایجاد نماید.
🔹 علاوه بر کشف تقلب، کسب و کارهای ارائه دهنده خدمات مالی از هوش مصنوعی برای ایجاد ارزش افزوده برای مشتریان در راه تغییر در بهرهگیری از خدمات خود استفاده میکنند. از جمله میتوان از اپلیکیشن «دستیار سفر شخصی» مبتنی بر هوش مصنوعی آمریکن اکسپرس نام برد که در آن از هوش مصنوعی برای کمک به دارنده کارت با استفاده از توصیههای خرید شخصیسازی شده بر اساس عادات و سابقه خرید قبلی وی استفاده شده است.
🔺 برای خواندن این مطلب میتوانید به لینک زیر مراجعه فرمایید:
🔗 https://b2n.ir/a95709
#نمونه_موردی
#عظیم_داده
#هوش_مصنوعی
#خدمات_مالی
#فاطمه_مظفری
www.bdbanalytics.ir
@BigData_BusinessAnalytics
📚 معرفی کتاب
📌 پردازش زبان طبیعی با Spark NLP
"Natural Language Processing with Spark NLP: Learning to Understand Text at Scale”
📌 نویسنده: Alex Thomas
📌 این کتاب در سال 2020 و توسط انتشارات O'Reilly منتشر شده است.
📍این کتاب درباره به کارگیری Spark NLP برای ایجاد اپلیکیشنهای پردازش زبان طبیعی (NLP) میباشد. Spark NLP یک کتابخانه NLP است که بر روی آپاچی اسپارک ساخته شده است. در این کتاب چگونگی به کارگیری Spark NLP و همچنین مبانی پردازش زبان طبیعی پوشش داده میشود. با مطالعه این کتاب یک ابزار نرم افزاری جدید برای کار با زبان طبیعی و Spark NLP را در اختیار خواهید داشت و همچنین با مجموعهای از تکنیکها و چگونگی کارکرد آنها در این حوزه آشنا میشوید.
📍در بخش اول کتاب فناوریها و تکنیکهاي مورد نیاز جهت به کارگیری در Spark NLP نظیر مبانی زبان طبیعی، NLP بر روی آپاچی اسپارک و مبانی یادگیری عمیق معرفی شدهاند. سپس در بخش دوم در مورد بلوکهای سازنده NLP از جمله پردازش کلمات، بازیابی اطلاعات، دسته بندی و رگرسیون، مدلسازی توالی با Keras، استخراج اطلاعات، تاپیک مدلینگ و word embeddings بحث شده است. در نهایت در بخش سوم و چهارم کتاب به اپلیکیشنها و سیستمهای پردازش زبان طبیعی پرداخته شده است که شامل تحلیل احساسات و تشخیص احساس، ایجاد پایگاههای دانشی، موتور جستجو، چت بات، بازشناسی ویژگی آبجکت، پشتیبانی از چندین زبان، برچسب زدن توسط انسان، و تولید اپلیکیشنهای NLP میباشد.
📍کار بر روی یک اپلیکیشنی که نیازمند پردازش زبان طبیعی است، توأم با سه رویکرد توسعه دهنده نرم افزار، زبان شناس، و دانشمند داده میباشد. رویکرد توسعه نرم افزار بر آنچه که اپلیکیشن باید انجام دهد تمرکز دارد و مبتنی بر محصولی است که میخواهیم ایجاد نماییم. رویکرد زبان شناسی بر آنچه که میخواهیم از دادهها استخراج کنیم متمرکز است و در نهایت رویکرد دانشمند داده بر چگونگی استخراج اطلاعات مورد نیاز ار دادهها تمرکز دارد.
📍در این کتاب علاوه بر Spark NLP، آپاچی اسپارک، و تنسورفلو، از سایر ابزار نظیر پایتون، آناکوندا، ژوپیتر نوتبوک و داکر نیز استفاده شده است و در هر بخش کدهای مربوطه ارائه شده است.
این کتاب را میتوانید در پست بعد دریافت نمایید.
#معرفی_کتاب
#پردازش_زبان_طبیعی
#اسپارک
#Spark_NLP
#فاطمه_مظفری
@BigData_BusinessAnalytics
www.bdbanalytics.ir
📌 پردازش زبان طبیعی با Spark NLP
"Natural Language Processing with Spark NLP: Learning to Understand Text at Scale”
📌 نویسنده: Alex Thomas
📌 این کتاب در سال 2020 و توسط انتشارات O'Reilly منتشر شده است.
📍این کتاب درباره به کارگیری Spark NLP برای ایجاد اپلیکیشنهای پردازش زبان طبیعی (NLP) میباشد. Spark NLP یک کتابخانه NLP است که بر روی آپاچی اسپارک ساخته شده است. در این کتاب چگونگی به کارگیری Spark NLP و همچنین مبانی پردازش زبان طبیعی پوشش داده میشود. با مطالعه این کتاب یک ابزار نرم افزاری جدید برای کار با زبان طبیعی و Spark NLP را در اختیار خواهید داشت و همچنین با مجموعهای از تکنیکها و چگونگی کارکرد آنها در این حوزه آشنا میشوید.
📍در بخش اول کتاب فناوریها و تکنیکهاي مورد نیاز جهت به کارگیری در Spark NLP نظیر مبانی زبان طبیعی، NLP بر روی آپاچی اسپارک و مبانی یادگیری عمیق معرفی شدهاند. سپس در بخش دوم در مورد بلوکهای سازنده NLP از جمله پردازش کلمات، بازیابی اطلاعات، دسته بندی و رگرسیون، مدلسازی توالی با Keras، استخراج اطلاعات، تاپیک مدلینگ و word embeddings بحث شده است. در نهایت در بخش سوم و چهارم کتاب به اپلیکیشنها و سیستمهای پردازش زبان طبیعی پرداخته شده است که شامل تحلیل احساسات و تشخیص احساس، ایجاد پایگاههای دانشی، موتور جستجو، چت بات، بازشناسی ویژگی آبجکت، پشتیبانی از چندین زبان، برچسب زدن توسط انسان، و تولید اپلیکیشنهای NLP میباشد.
📍کار بر روی یک اپلیکیشنی که نیازمند پردازش زبان طبیعی است، توأم با سه رویکرد توسعه دهنده نرم افزار، زبان شناس، و دانشمند داده میباشد. رویکرد توسعه نرم افزار بر آنچه که اپلیکیشن باید انجام دهد تمرکز دارد و مبتنی بر محصولی است که میخواهیم ایجاد نماییم. رویکرد زبان شناسی بر آنچه که میخواهیم از دادهها استخراج کنیم متمرکز است و در نهایت رویکرد دانشمند داده بر چگونگی استخراج اطلاعات مورد نیاز ار دادهها تمرکز دارد.
📍در این کتاب علاوه بر Spark NLP، آپاچی اسپارک، و تنسورفلو، از سایر ابزار نظیر پایتون، آناکوندا، ژوپیتر نوتبوک و داکر نیز استفاده شده است و در هر بخش کدهای مربوطه ارائه شده است.
این کتاب را میتوانید در پست بعد دریافت نمایید.
#معرفی_کتاب
#پردازش_زبان_طبیعی
#اسپارک
#Spark_NLP
#فاطمه_مظفری
@BigData_BusinessAnalytics
www.bdbanalytics.ir
Telegram
attach 📎
📚 معرفی کتاب
📌 دادههای عظیم برای تصمیمات بزرگ: ایجاد یک سازمان داده محور
"Big Data for Big Decisions: Building a Data-Driven Organization”
📌 نویسنده: Krishna Pera
📌 این کتاب در سال 2023 و توسط CRC Press انتشار یافته است.
📍ایجاد یک سازمان داده محور (data-driven organization)، ابتکاری در سطح سازمانی است که میتواند منابع را برای مدت طولانی مصرف نماید. بنابراین هر سازمانی که به دنبال چنین ابتکاری است، بر اساس نقشه راه و مورد کسب و کاری که باید قبل از تصویب تهیه و ارزیابی شود، اصرار دارد. این کتاب یک متدولوژی گام به گام به منظور ایجاد نقشه راه و مورد کسب و کاری ارائه میدهد و روایتی از محدودیتها و تجربیات مدیرانی است که برای راه اندازی سازمانهای داده محور تلاش کردهاند. در این کتاب تأکید بر تصمیمات بزرگ است یعنی تصمیمات کلیدی که بر 90 درصد نتایج کسب و کار تأثیر میگذارند. این تصمیمات از ابتدا تصمیمگیری و مهندسی مجدد دادهها تا فرآیند-زنجیره تصمیمگیری و حاکمیت دادهها، به طوری که اطمینان حاصل شود که دادههای درست همواره در زمان مناسب در دسترس هستند.
📍سرمایه گذاری در هوش مصنوعی و تصمیم گیری داده محور در حال حاضر به عنوان یک ضرورت بقا برای سازمانها در نظر گرفته میشود تا بتوانند رقابتی باقی بمانند. در حالی که هر شرکتی آرزو دارد 100% داده محور شود و هر مدیر ارشد اطلاعات (CIO) بودجه ای دارد، گارتنر تخمین می زند که بیش از 80٪ از تمام پروژه های تحلیلگری در ارائه ارزش مورد نظر ناکام هستند. در این راستا این کتاب متدولوژی برای اطمینان از موفقیت در استخراج ارزش مورد نظر از سرمایه گذاری در تحلیلگری ارائه میدهد و راهنمایی برای ایجاد یک نقشه راه تحول گام به گام است که دادههای عظیم را برای تصمیمهای بزرگ، 10 درصد تصمیمهایی که بر 90 درصد نتایج کسبوکار تأثیر میگذارند، اولویتبندی میکند، و همچنین بهبودهای اساسی در کیفیت تصمیمها و ارزش قابل اندازه گیری از سرمایه گذاریهای تحلیلگری ارائه مینماید.
📍علاوه بر این، به برخی از موضوعات مهم که تاکنون در چارچوب سازمان داده محور پرداخته نشده است، مانند «اولویتبندی تصمیمگیری»، مفهوم «شناختهها و ناشناختهها» و ... در این کتاب پرداخته میشود. ارائه نقشه راه برای تحلیلگری، استراتژی فناوری اطلاعات داده محور، ایجاد استراتژی داده، ایجاد استراتژی بازاریابی داده محور و حکمرانی داده یکپارچه از دیگر موضوعات مورد بررسی در این کتاب است.
این کتاب را میتوانید در پست بعد دریافت نمایید.
#معرفی_کتاب
#سازمان_داده_محور
#تصمیمگیری
#عظیم_داده
#فاطمه_مظفری
@BigData_BusinessAnalytics
www.bdbanalytics.ir
📌 دادههای عظیم برای تصمیمات بزرگ: ایجاد یک سازمان داده محور
"Big Data for Big Decisions: Building a Data-Driven Organization”
📌 نویسنده: Krishna Pera
📌 این کتاب در سال 2023 و توسط CRC Press انتشار یافته است.
📍ایجاد یک سازمان داده محور (data-driven organization)، ابتکاری در سطح سازمانی است که میتواند منابع را برای مدت طولانی مصرف نماید. بنابراین هر سازمانی که به دنبال چنین ابتکاری است، بر اساس نقشه راه و مورد کسب و کاری که باید قبل از تصویب تهیه و ارزیابی شود، اصرار دارد. این کتاب یک متدولوژی گام به گام به منظور ایجاد نقشه راه و مورد کسب و کاری ارائه میدهد و روایتی از محدودیتها و تجربیات مدیرانی است که برای راه اندازی سازمانهای داده محور تلاش کردهاند. در این کتاب تأکید بر تصمیمات بزرگ است یعنی تصمیمات کلیدی که بر 90 درصد نتایج کسب و کار تأثیر میگذارند. این تصمیمات از ابتدا تصمیمگیری و مهندسی مجدد دادهها تا فرآیند-زنجیره تصمیمگیری و حاکمیت دادهها، به طوری که اطمینان حاصل شود که دادههای درست همواره در زمان مناسب در دسترس هستند.
📍سرمایه گذاری در هوش مصنوعی و تصمیم گیری داده محور در حال حاضر به عنوان یک ضرورت بقا برای سازمانها در نظر گرفته میشود تا بتوانند رقابتی باقی بمانند. در حالی که هر شرکتی آرزو دارد 100% داده محور شود و هر مدیر ارشد اطلاعات (CIO) بودجه ای دارد، گارتنر تخمین می زند که بیش از 80٪ از تمام پروژه های تحلیلگری در ارائه ارزش مورد نظر ناکام هستند. در این راستا این کتاب متدولوژی برای اطمینان از موفقیت در استخراج ارزش مورد نظر از سرمایه گذاری در تحلیلگری ارائه میدهد و راهنمایی برای ایجاد یک نقشه راه تحول گام به گام است که دادههای عظیم را برای تصمیمهای بزرگ، 10 درصد تصمیمهایی که بر 90 درصد نتایج کسبوکار تأثیر میگذارند، اولویتبندی میکند، و همچنین بهبودهای اساسی در کیفیت تصمیمها و ارزش قابل اندازه گیری از سرمایه گذاریهای تحلیلگری ارائه مینماید.
📍علاوه بر این، به برخی از موضوعات مهم که تاکنون در چارچوب سازمان داده محور پرداخته نشده است، مانند «اولویتبندی تصمیمگیری»، مفهوم «شناختهها و ناشناختهها» و ... در این کتاب پرداخته میشود. ارائه نقشه راه برای تحلیلگری، استراتژی فناوری اطلاعات داده محور، ایجاد استراتژی داده، ایجاد استراتژی بازاریابی داده محور و حکمرانی داده یکپارچه از دیگر موضوعات مورد بررسی در این کتاب است.
این کتاب را میتوانید در پست بعد دریافت نمایید.
#معرفی_کتاب
#سازمان_داده_محور
#تصمیمگیری
#عظیم_داده
#فاطمه_مظفری
@BigData_BusinessAnalytics
www.bdbanalytics.ir
📖 کتاب بخوانیم؛
📌 "Big Data for Big Decisions: Building a Data-Driven Organization"
📍تصمیممحوری پیش از دادهمحوری
🔸فصل دوم کتاب دادههای عظیم برای تصمیمات بزرگ به بحث تصمیمگیری در سازمان میپردازد. یک سازمان باید خودآگاه باشد، به این معنا که باید برای عملکرد مطلوب و رقابتپذیری در بازار، خود را به طور کامل بشناسد. تحلیلگری به سازمان کمک میکند تا کسب و کار خود را به طور دقیقتر بشناسد. در واقع یک سازمان باید شایستگیها، نقاط قوت و ضعف، تهدیدها و فرصتهای خود را بشناسد. باید بداند چه محصولاتی تولید کند، چگونه مواد خام خود را تامین نماید، چگونه موجودیها و سرمایه در گردش خود را کنترل کند، چگونه مصرف منابع را بهینه و در عین حال تولید را به حداکثر برساند، در کجا بازاریابی و چگونه محصولات خود را به بازار عرضه نماید. همچنین سازمان باید مشتریان، فروشندگان و کارمندان خود را بشناسد. اگر هدف از تحلیلگری داده کمک به شرکت برای شناخت دقیق خود و اتخاذ تصمیمات مبتنی بر دادهها و بینشهای قابل اقدام منتج از آن باشد، آنگاه کسانی که مسئول سرمایه گذاری بر تحلیلگری هستند باید بدانند که کدام تصمیمات باید در اولویت قرار گیرند و در واقع باید از تصمیمات حیاتی شروع کنند.
🔹 یک سازمان قبل از اینکه بخواهد داده محور شود، لزوماً نیاز به تصمیم گیری دارد. یک سازمان تصمیممحور میداند چه تصمیمهایی میگیرد و هر یک از آن تصمیمها چگونه بر نتایج کسبوکار تأثیر میگذارند. یک سازمان تصمیممحور یک فرآیند رسمی و مسیر حسابرسی را اگر نگوییم برای همه تصمیمات، دست کم برای تصمیمات مهم در نظر میگیرد.
🔸به طور مثال، تنها راهی که یک مدیر می تواند کنترل حساب شدهای بر زنجیره ارزش سازمانی اعمال کند، تصمیمگیری است. در این خصوص انتظار میرود تصمیمات با کیفیت خوب به حداکثر رساندن توان عملیاتی سازمان با کاهش محدودیتها در زنجیره ارزش کمک نماید. یک مدیر فقط به اندازه کیفیت تصمیماتش خوب است و مدیری که تصمیمات را به تأخیر می اندازد معمولاً منجر به تنگناهای فرآیند در زنجیره ارزش میشود. انتظار میرود ایجاد یک فرآیند رسمی برای تصمیم گیری به مدیران کمک کند تا در کیفیت تصمیماتی که میگیرند ایجاد ثبات و انسجام کرده و از هر ده بار، نه بار تصمیمات "خوب" بگیرند و در قبال تصمیمات خود پاسخگو باشند.
با این حال، فرآیند تصمیمگیری در بین سازمانها غیررسمی است و اغلب فاقد هرگونه حسابرسی به دنبال اتخاذ تصمیمات است. شاید به ندرت بتوان سازمانی را یافت که ساختار سازمانی مبتنی بر «نقشهای تصمیمگیری شفاف» داشته باشند. در واقع سازمانهایی که به خودی خود تعاریف روشن نقش را مستند می کنند، بسیار کم هستند چه رسد به ایجاد نقشها بر اساس فهرست مستندی از «تصمیمات».
🔹شایان ذکر است که صدها تصمیم عملیاتی وجود دارد که ماهیتاً تکراری هستند و معمولاً توسط یک مدیر به طور روزمره گرفته میشوند و به طور انباشته ارزش بسیار بالاتری نسبت به تمام تصمیمات مربوط به مخارج سرمایهای دارند که در شرکت گرفته میشود. به بیان دیگر، یک تصمیم کوچک میتواند با ارزش تجمعی خود به طور قابل توجهی بر سودآوری و عملکرد شرکت تأثیر بگذارد. با توجه به اهمیت این تصمیمات عملیاتی «با اثر تجمعی بزرگ»، شناسایی و ایجاد یک فرآیند رسمی برای حفظ کیفیت تصمیمات، علاوه بر ایجاد یک مسیر حسابرسی، مهم است.
🔸نکته حائز اهمیت دیگر آن است که همه تصمیمات 100% مبتنی بر قواعد و کاملا منطقی نیستند. اما بسیاری از مراحل فرعی درگیر در فرآیند تصمیم گیری میتواند منطقی و مبتنی بر قاعده باشد. بنابراین، تجزیه فرآیند تصمیمگیری به فرآیندهای فرعی و بررسی دقیق این موضوع که آیا هر یک از این فرآیندهای فرعی میتواند مبتنی بر قانون و خودکار باشد یا خیر، شیوهای مناسب به شمار میرود.
♦️ بنابراین، یک سازمان تصمیممحور باید بداند چه تصمیماتی میگیرد و کدام یک از این تصمیمات، تصمیمات کلیدی هستند که بر نتایج کسبوکار بیشترین تأثیر را میگذارند. انتظار میرود یک سازمان تصمیم محور برای هر یک از تصمیماتی که به عنوان تصمیم مهم شناخته میشوند -به طور ویژه در خصوص 10% از تصمیماتی که %90 از نتایج کسب و کار را تحت تأثیر قرار میدهند- با استفاده از رویههای عملیاتی استاندارد جهانی مستند شده، فرآیند محور شود. و از همه مهمتر اینکه یک سازمان تصمیممحور تضمین میکند که موفقیتش فرآیند محور و پایدار است و نه مبتنی بر افراد.
#کتاب_بخوانیم
#فصل_دوم
#فاطمه_مظفری
#تصمیمگیری
#سازمان_داده_محور
www.bdbanalytics.ir
@BigData_BusinessAnalytics
📌 "Big Data for Big Decisions: Building a Data-Driven Organization"
📍تصمیممحوری پیش از دادهمحوری
🔸فصل دوم کتاب دادههای عظیم برای تصمیمات بزرگ به بحث تصمیمگیری در سازمان میپردازد. یک سازمان باید خودآگاه باشد، به این معنا که باید برای عملکرد مطلوب و رقابتپذیری در بازار، خود را به طور کامل بشناسد. تحلیلگری به سازمان کمک میکند تا کسب و کار خود را به طور دقیقتر بشناسد. در واقع یک سازمان باید شایستگیها، نقاط قوت و ضعف، تهدیدها و فرصتهای خود را بشناسد. باید بداند چه محصولاتی تولید کند، چگونه مواد خام خود را تامین نماید، چگونه موجودیها و سرمایه در گردش خود را کنترل کند، چگونه مصرف منابع را بهینه و در عین حال تولید را به حداکثر برساند، در کجا بازاریابی و چگونه محصولات خود را به بازار عرضه نماید. همچنین سازمان باید مشتریان، فروشندگان و کارمندان خود را بشناسد. اگر هدف از تحلیلگری داده کمک به شرکت برای شناخت دقیق خود و اتخاذ تصمیمات مبتنی بر دادهها و بینشهای قابل اقدام منتج از آن باشد، آنگاه کسانی که مسئول سرمایه گذاری بر تحلیلگری هستند باید بدانند که کدام تصمیمات باید در اولویت قرار گیرند و در واقع باید از تصمیمات حیاتی شروع کنند.
🔹 یک سازمان قبل از اینکه بخواهد داده محور شود، لزوماً نیاز به تصمیم گیری دارد. یک سازمان تصمیممحور میداند چه تصمیمهایی میگیرد و هر یک از آن تصمیمها چگونه بر نتایج کسبوکار تأثیر میگذارند. یک سازمان تصمیممحور یک فرآیند رسمی و مسیر حسابرسی را اگر نگوییم برای همه تصمیمات، دست کم برای تصمیمات مهم در نظر میگیرد.
🔸به طور مثال، تنها راهی که یک مدیر می تواند کنترل حساب شدهای بر زنجیره ارزش سازمانی اعمال کند، تصمیمگیری است. در این خصوص انتظار میرود تصمیمات با کیفیت خوب به حداکثر رساندن توان عملیاتی سازمان با کاهش محدودیتها در زنجیره ارزش کمک نماید. یک مدیر فقط به اندازه کیفیت تصمیماتش خوب است و مدیری که تصمیمات را به تأخیر می اندازد معمولاً منجر به تنگناهای فرآیند در زنجیره ارزش میشود. انتظار میرود ایجاد یک فرآیند رسمی برای تصمیم گیری به مدیران کمک کند تا در کیفیت تصمیماتی که میگیرند ایجاد ثبات و انسجام کرده و از هر ده بار، نه بار تصمیمات "خوب" بگیرند و در قبال تصمیمات خود پاسخگو باشند.
با این حال، فرآیند تصمیمگیری در بین سازمانها غیررسمی است و اغلب فاقد هرگونه حسابرسی به دنبال اتخاذ تصمیمات است. شاید به ندرت بتوان سازمانی را یافت که ساختار سازمانی مبتنی بر «نقشهای تصمیمگیری شفاف» داشته باشند. در واقع سازمانهایی که به خودی خود تعاریف روشن نقش را مستند می کنند، بسیار کم هستند چه رسد به ایجاد نقشها بر اساس فهرست مستندی از «تصمیمات».
🔹شایان ذکر است که صدها تصمیم عملیاتی وجود دارد که ماهیتاً تکراری هستند و معمولاً توسط یک مدیر به طور روزمره گرفته میشوند و به طور انباشته ارزش بسیار بالاتری نسبت به تمام تصمیمات مربوط به مخارج سرمایهای دارند که در شرکت گرفته میشود. به بیان دیگر، یک تصمیم کوچک میتواند با ارزش تجمعی خود به طور قابل توجهی بر سودآوری و عملکرد شرکت تأثیر بگذارد. با توجه به اهمیت این تصمیمات عملیاتی «با اثر تجمعی بزرگ»، شناسایی و ایجاد یک فرآیند رسمی برای حفظ کیفیت تصمیمات، علاوه بر ایجاد یک مسیر حسابرسی، مهم است.
🔸نکته حائز اهمیت دیگر آن است که همه تصمیمات 100% مبتنی بر قواعد و کاملا منطقی نیستند. اما بسیاری از مراحل فرعی درگیر در فرآیند تصمیم گیری میتواند منطقی و مبتنی بر قاعده باشد. بنابراین، تجزیه فرآیند تصمیمگیری به فرآیندهای فرعی و بررسی دقیق این موضوع که آیا هر یک از این فرآیندهای فرعی میتواند مبتنی بر قانون و خودکار باشد یا خیر، شیوهای مناسب به شمار میرود.
♦️ بنابراین، یک سازمان تصمیممحور باید بداند چه تصمیماتی میگیرد و کدام یک از این تصمیمات، تصمیمات کلیدی هستند که بر نتایج کسبوکار بیشترین تأثیر را میگذارند. انتظار میرود یک سازمان تصمیم محور برای هر یک از تصمیماتی که به عنوان تصمیم مهم شناخته میشوند -به طور ویژه در خصوص 10% از تصمیماتی که %90 از نتایج کسب و کار را تحت تأثیر قرار میدهند- با استفاده از رویههای عملیاتی استاندارد جهانی مستند شده، فرآیند محور شود. و از همه مهمتر اینکه یک سازمان تصمیممحور تضمین میکند که موفقیتش فرآیند محور و پایدار است و نه مبتنی بر افراد.
#کتاب_بخوانیم
#فصل_دوم
#فاطمه_مظفری
#تصمیمگیری
#سازمان_داده_محور
www.bdbanalytics.ir
@BigData_BusinessAnalytics
📌📌 معرفی ابزار: Apache Impala
🖌آپاچی ایمپالا (Apache Impala) یک پایگاه داده تحلیلی منبع باز و طراحی شده برای آپاچی هدوپ (Apache Hadoop) است.
✳️ ایمپالا با حفظ تجربه کاربری، عملکرد کوئری SQL را در آپاچی هدوپ بالا میبرد. با استفاده از این ابزار میتوانید کوئریهای مختلف، از جمله SELECT، JOIN و توابع تجمیعی را به صورت بلادرنگ بر روی دادههایی که در HDFS یا Apache HBase ذخیره شدهاند اجرا نمایید. علاوه بر این، ایمپالا با به کارگیری متادیتا، سینتکس SQL (Hive SQL)، درایور ODBC، و واسط کاربری (Hue Beeswax) مشابه آپاچی هایو، یک پلتفرم یکپارچه و آشنا برای کوئریهای دستهای و بلادرنگ را فراهم مینماید. به همین دلیل، کاربران آپاچی هایو میتوانند به راحتی از ایمپالا استفاده نمایند.
♦️ معماری
برای جلوگیری از تأخیر، ایمپالا، MapReduce را دور میزند تا مستقیماً به دادهها از طریق یک موتور جستجوی توزیع شده تخصصی دسترسی پیدا کند که بسیار شبیه به موتورهایی است که در RDBMS های موازی تجاری یافت میشود. نتیجه، بسته به نوع کوئری و پیکربندی، عملکرد سریعتر نسبت به هایو است.
مزایای زیادی برای این رویکرد نسبت به روشهای جایگزین برای کوئری بر روی دادههای هدوپ وجود دارد، از جمله:
🔸به لطف پردازش محلی روی گرههای داده، از گلوگاههای شبکه جلوگیری میشود.
🔹میتوان از یک متادیتای واحد، باز و یکپارچه استفاده کرد.
🔸 تبدیلهای پرهزینه در فرمت داده غیرضروری است و در نتیجه هزینه چندانی تحمیل نمیشود.
🔹به سرعت و بدون تاخیر بابت ETL، میتوان بر روی تمام دادهها کوئری زد.
🔸تمام سخت افزار برای درخواستهای ایمپالا و همچنین برای MapReduce استفاده میشود.
🔹برای افزایش مقیاس فقط به یک ماشین نیاز است.
به طور خلاصه ویژگیهای ایمپالا عبارتند از:
📍کوئریهای با سبک هوش کسب و کار بر روی هدوپ: ایمپالا کوئریهای با تأخیر پایین و همزمان برای هدف هوش کسب و کار و تحلیلگری را بر روی هدوپ میسر میسازد (که توسط چارچوبهای دستهای مانند آپاچی هایو ارائه میشود). ایمپالا همچنین به صورت خطی مقیاس پذیر است، حتی در محیطهای multi-tenant.
📍یکپارچه ساختن زیرساخت: به کارگیری فایل، فرمت داده، متادیتا، چارچوبهای امنیت و مدیریت منابع مشابه با استقرار هدوپ که عدم نیاز به افزونگی در زیرساخت یا تبدیل داده و دادههای تکراری را امکانپذیر مینماید.
📍پیادهسازی سریع: برای کاربران آپاچی هایو، ایمپالا همان متادیتا و درایور ODBC را مورد استفاده قرار میدهد. مشابه هایو، ایمپالا از SQL پشتیبانی مینماید بنابراین سرعت بالای پیادهسازی را به همراه خواهد داشت.
📍امنیت در کلاس سازمانی: ایمپالا با امنیت طراحی شده برای هدوپ و پروتکلهای امنیتی آن یکپارچه شده است و با استفاده از ماژول Sentry میتوان از تعریف دسترسی کاربران و اپلیکیشنها به دادهها اطمینان حاصل نمود.
📍گسترش محدوده کاربری هدوپ: با استفاده از ایمپالا، کاربران بیشتری برای به کارگیری کوئریهای SQL و یا اپلیکیشنهای هوش کسب و کار، میتوانند با دادههای بیشتری از طریق مخزن داده و متادیتای واحد جهت تحلیل بهره مند شوند.
#معرفی_ابزار
#آپاچی_ایمپالا
#هدوپ
#Apache_Impala
#فاطمه_مظفری
@BigData_BusinessAnalytics
www.bdbanalytics.ir
🖌آپاچی ایمپالا (Apache Impala) یک پایگاه داده تحلیلی منبع باز و طراحی شده برای آپاچی هدوپ (Apache Hadoop) است.
✳️ ایمپالا با حفظ تجربه کاربری، عملکرد کوئری SQL را در آپاچی هدوپ بالا میبرد. با استفاده از این ابزار میتوانید کوئریهای مختلف، از جمله SELECT، JOIN و توابع تجمیعی را به صورت بلادرنگ بر روی دادههایی که در HDFS یا Apache HBase ذخیره شدهاند اجرا نمایید. علاوه بر این، ایمپالا با به کارگیری متادیتا، سینتکس SQL (Hive SQL)، درایور ODBC، و واسط کاربری (Hue Beeswax) مشابه آپاچی هایو، یک پلتفرم یکپارچه و آشنا برای کوئریهای دستهای و بلادرنگ را فراهم مینماید. به همین دلیل، کاربران آپاچی هایو میتوانند به راحتی از ایمپالا استفاده نمایند.
♦️ معماری
برای جلوگیری از تأخیر، ایمپالا، MapReduce را دور میزند تا مستقیماً به دادهها از طریق یک موتور جستجوی توزیع شده تخصصی دسترسی پیدا کند که بسیار شبیه به موتورهایی است که در RDBMS های موازی تجاری یافت میشود. نتیجه، بسته به نوع کوئری و پیکربندی، عملکرد سریعتر نسبت به هایو است.
مزایای زیادی برای این رویکرد نسبت به روشهای جایگزین برای کوئری بر روی دادههای هدوپ وجود دارد، از جمله:
🔸به لطف پردازش محلی روی گرههای داده، از گلوگاههای شبکه جلوگیری میشود.
🔹میتوان از یک متادیتای واحد، باز و یکپارچه استفاده کرد.
🔸 تبدیلهای پرهزینه در فرمت داده غیرضروری است و در نتیجه هزینه چندانی تحمیل نمیشود.
🔹به سرعت و بدون تاخیر بابت ETL، میتوان بر روی تمام دادهها کوئری زد.
🔸تمام سخت افزار برای درخواستهای ایمپالا و همچنین برای MapReduce استفاده میشود.
🔹برای افزایش مقیاس فقط به یک ماشین نیاز است.
به طور خلاصه ویژگیهای ایمپالا عبارتند از:
📍کوئریهای با سبک هوش کسب و کار بر روی هدوپ: ایمپالا کوئریهای با تأخیر پایین و همزمان برای هدف هوش کسب و کار و تحلیلگری را بر روی هدوپ میسر میسازد (که توسط چارچوبهای دستهای مانند آپاچی هایو ارائه میشود). ایمپالا همچنین به صورت خطی مقیاس پذیر است، حتی در محیطهای multi-tenant.
📍یکپارچه ساختن زیرساخت: به کارگیری فایل، فرمت داده، متادیتا، چارچوبهای امنیت و مدیریت منابع مشابه با استقرار هدوپ که عدم نیاز به افزونگی در زیرساخت یا تبدیل داده و دادههای تکراری را امکانپذیر مینماید.
📍پیادهسازی سریع: برای کاربران آپاچی هایو، ایمپالا همان متادیتا و درایور ODBC را مورد استفاده قرار میدهد. مشابه هایو، ایمپالا از SQL پشتیبانی مینماید بنابراین سرعت بالای پیادهسازی را به همراه خواهد داشت.
📍امنیت در کلاس سازمانی: ایمپالا با امنیت طراحی شده برای هدوپ و پروتکلهای امنیتی آن یکپارچه شده است و با استفاده از ماژول Sentry میتوان از تعریف دسترسی کاربران و اپلیکیشنها به دادهها اطمینان حاصل نمود.
📍گسترش محدوده کاربری هدوپ: با استفاده از ایمپالا، کاربران بیشتری برای به کارگیری کوئریهای SQL و یا اپلیکیشنهای هوش کسب و کار، میتوانند با دادههای بیشتری از طریق مخزن داده و متادیتای واحد جهت تحلیل بهره مند شوند.
#معرفی_ابزار
#آپاچی_ایمپالا
#هدوپ
#Apache_Impala
#فاطمه_مظفری
@BigData_BusinessAnalytics
www.bdbanalytics.ir
📖 کتاب بخوانیم؛
📌 "Big Data for Big Decisions: Building a Data-Driven Organization"
✳️ فصل چهارم کتاب "دادههای عظیم برای تصمیمات بزرگ: ایجاد یک سازمان داده محور" به ارائه نقشه راه برای تحلیلگری در راستای ایجاد یک سازمان داده محور میپردازد.
📍بر این اساس هشت موضوع در این فصل مورد بررسی قرار میگیرد:
1️⃣ چالش کسب ارزش از تحلیلگری: هر چند ضرورت سرمایه گذاری بر روی تحلیلگری پیشرفته به عنوان یک ضرورت مطرح است، اما طبق گزارش گارتنر فقط بین 30 تا 40 درصد از ابتکارات تحلیلگری نوعی ارزش کسب و کاری را حاصل مینماید.
2️⃣ تحلیلگری تصمیمگرا: اهمیت شروع از تصمیم و کار کردن با دادههای پشت تصمیمات
3️⃣ اهمیت شروع از پایان: مشکل شروع از داده. چه تضمینی وجود دارد که پس از پردازش دادههای خام، بینشهای ارزشمندی وجود داشته باشد؟
4️⃣ رمزگشایی از دادههای پشت تصمیمات: بر خلاف رویکرد سنتی، این فرآیند به شناسایی شکافهای دادهای پشت تصمیم کمک کرده و استراتژی منبع یابی داده را برای دادههای گمشده ایجاد مینماید.
5️⃣ با مدیر موقت ملاقات کنید: در حالی که مدیران موقت پیشرفت میکنند، آن عده معدودی که به دنبال راهحلهای دائمی و جامع هستند ضرر میکنند، زیرا برداشت عمومی از «جستجوی راهحل دائمی سازمانی» عالی به نظر نمیرسد.
6️⃣ راه حلهای محلی در مقابل عمومی: یک استدلال قانع کننده برای اینکه چرا سازمانها باید اجرای یک تمرین تحولی داده-به-تصمیم در سطح سازمان را در نظر بگیرند.
7️⃣ طرز تفکر مشکل در مقابل فرصت: مفهوم حل نقطه ای راهحلی برای "مشکل خاص" بر اساس این پیشفرض است که سیستم با حل مشکل در اوج بهرهوری خود است و از این رو نیازی نیست که به دنبال فرصتهای بیشتری برای بهینه سازی هزینه و زمان چرخه، یا دستیابی به مشتریان بیشتر باشید.
8️⃣ نقشه راه برای سازمان داده محور: تصمیمات بزرگ کدامند؟ تصمیماتی که توسط CxO ها گرفته میشوند؟ تصمیمات راهبردی؟ تصمیمات مربوط به سرمایههای کلان؟
❇️ بنابراین با بررسی هر یک از موضوعات مذکور، اگر سازمانی بخواهد خارج از چارچوب فکر کند و بتواند تمام فرصتهای "بزرگ" را که در آن تحلیلگری میتواند تفاوت ملموسی در کیفیت تصمیمها ایجاد کند کشف نماید، نکات زیر میتواند راهگشا باشد:
✅ تصمیمات بزرگ را شناسایی کنید - 10٪ از تصمیماتی که 90٪ از نتایج کسب و کار را تحت تأثیر قرار میدهند.
✅ یک نقشه راه اولویت برای تحلیلگری پیشرفته، بر اساس حیاتی بودن تصمیمات کسب و کاری و اندازه ارزش مادی حاصل از آن ایجاد کنید.
✅ یک نقشه راه تحول آفرین و یک مورد کسب و کاری برای تحلیلگری ایجاد کنید.
✅ دادههای پشت تصمیمات را برای هر یک از تصمیمات شناسایی شده درک نمایید.
✅ شکاف دادهها را شناسایی کنید. به عنوان مثال دادههایی که برای پشتیبانی از تصمیم نیاز دارید، اما در حال حاضر ندارید.
✅ کیفیت دادهها را بهبود بخشید.
✅ نهادینه کردن حاکمیت دادهها. استانداردهای داده و تعاریف داده و سایر موارد را معرفی کنید.
✅ پیاده سازی تحلیلگری مطابق با نقشه راه تحول.
✅ یک ممیزی ارزش به صورت دوره ای انجام دهید.
#کتاب_بخوانیم
#فصل_چهارم
#فاطمه_مظفری
#تصمیم_گیری
#سازمان_داده_محور
#Big_Data_for_Big_Decisions_Building_a_Data_Driven_Organization
www.bdbanalytics.ir
@BigData_BusinessAnalytics
📌 "Big Data for Big Decisions: Building a Data-Driven Organization"
✳️ فصل چهارم کتاب "دادههای عظیم برای تصمیمات بزرگ: ایجاد یک سازمان داده محور" به ارائه نقشه راه برای تحلیلگری در راستای ایجاد یک سازمان داده محور میپردازد.
📍بر این اساس هشت موضوع در این فصل مورد بررسی قرار میگیرد:
1️⃣ چالش کسب ارزش از تحلیلگری: هر چند ضرورت سرمایه گذاری بر روی تحلیلگری پیشرفته به عنوان یک ضرورت مطرح است، اما طبق گزارش گارتنر فقط بین 30 تا 40 درصد از ابتکارات تحلیلگری نوعی ارزش کسب و کاری را حاصل مینماید.
2️⃣ تحلیلگری تصمیمگرا: اهمیت شروع از تصمیم و کار کردن با دادههای پشت تصمیمات
3️⃣ اهمیت شروع از پایان: مشکل شروع از داده. چه تضمینی وجود دارد که پس از پردازش دادههای خام، بینشهای ارزشمندی وجود داشته باشد؟
4️⃣ رمزگشایی از دادههای پشت تصمیمات: بر خلاف رویکرد سنتی، این فرآیند به شناسایی شکافهای دادهای پشت تصمیم کمک کرده و استراتژی منبع یابی داده را برای دادههای گمشده ایجاد مینماید.
5️⃣ با مدیر موقت ملاقات کنید: در حالی که مدیران موقت پیشرفت میکنند، آن عده معدودی که به دنبال راهحلهای دائمی و جامع هستند ضرر میکنند، زیرا برداشت عمومی از «جستجوی راهحل دائمی سازمانی» عالی به نظر نمیرسد.
6️⃣ راه حلهای محلی در مقابل عمومی: یک استدلال قانع کننده برای اینکه چرا سازمانها باید اجرای یک تمرین تحولی داده-به-تصمیم در سطح سازمان را در نظر بگیرند.
7️⃣ طرز تفکر مشکل در مقابل فرصت: مفهوم حل نقطه ای راهحلی برای "مشکل خاص" بر اساس این پیشفرض است که سیستم با حل مشکل در اوج بهرهوری خود است و از این رو نیازی نیست که به دنبال فرصتهای بیشتری برای بهینه سازی هزینه و زمان چرخه، یا دستیابی به مشتریان بیشتر باشید.
8️⃣ نقشه راه برای سازمان داده محور: تصمیمات بزرگ کدامند؟ تصمیماتی که توسط CxO ها گرفته میشوند؟ تصمیمات راهبردی؟ تصمیمات مربوط به سرمایههای کلان؟
❇️ بنابراین با بررسی هر یک از موضوعات مذکور، اگر سازمانی بخواهد خارج از چارچوب فکر کند و بتواند تمام فرصتهای "بزرگ" را که در آن تحلیلگری میتواند تفاوت ملموسی در کیفیت تصمیمها ایجاد کند کشف نماید، نکات زیر میتواند راهگشا باشد:
✅ تصمیمات بزرگ را شناسایی کنید - 10٪ از تصمیماتی که 90٪ از نتایج کسب و کار را تحت تأثیر قرار میدهند.
✅ یک نقشه راه اولویت برای تحلیلگری پیشرفته، بر اساس حیاتی بودن تصمیمات کسب و کاری و اندازه ارزش مادی حاصل از آن ایجاد کنید.
✅ یک نقشه راه تحول آفرین و یک مورد کسب و کاری برای تحلیلگری ایجاد کنید.
✅ دادههای پشت تصمیمات را برای هر یک از تصمیمات شناسایی شده درک نمایید.
✅ شکاف دادهها را شناسایی کنید. به عنوان مثال دادههایی که برای پشتیبانی از تصمیم نیاز دارید، اما در حال حاضر ندارید.
✅ کیفیت دادهها را بهبود بخشید.
✅ نهادینه کردن حاکمیت دادهها. استانداردهای داده و تعاریف داده و سایر موارد را معرفی کنید.
✅ پیاده سازی تحلیلگری مطابق با نقشه راه تحول.
✅ یک ممیزی ارزش به صورت دوره ای انجام دهید.
#کتاب_بخوانیم
#فصل_چهارم
#فاطمه_مظفری
#تصمیم_گیری
#سازمان_داده_محور
#Big_Data_for_Big_Decisions_Building_a_Data_Driven_Organization
www.bdbanalytics.ir
@BigData_BusinessAnalytics
📌📌 معرفی ابزار: InfluxDB
🖌 پایگاه داده InfluxDB یک پایگاه داده سری زمانی متن باز (TSDB) است که توسط شرکت InfluxData توسعه یافته است. این پایگاه داده با استفاده از زبان برنامه نویسی Go برای ذخیره و بازیابی دادههای سری زمانی با کاربردهایی مانند پایش عملیات، دادههای حسگرهای اینترنت اشیا و تحلیلگری بلادرنگ نوشته شده است.
✳️ به طور کلی پایگاه دادههای سری زمانی شامل اندازهگیریها یا رویدادهایی است که تحت پایش، ردیابی و پالایش دادهها شامل نمونهبرداری و جمعآوری در طول زمان قرار میگیرند و بنابراین میتوانند شامل دادههای نظارت بر اپلیکیشنها، دادههای مربوط به حسگرها، دادههای معاملات بازار و بورس اوراق بهادار باشند. پایگاه داده سری زمانی قادر به دریافت میلیونها نقطه داده در ثانیه است که بر این اساس عملکرد سطح بالایی را ارائه میدهد.
♦️ بنابراین با استفاده از InfluxDB، اپلیکیشنهای بلادرنگ برای تحلیلگری، اینترنت اشیا و سرویسهای ابری بومی (cloud-native) در زمان کمتر و با کد کمتر قابل دستیابی است. همچنین InfluxDB دارای یک زبان پرس و جو (کوئری) از نوع SQL است که به طور خاص برای دادههای سری زمانی ایجاد شده است.
📍مفاهیم پایه در InfluxDB عبارتند از:
1️⃣ اندازهگیری (measurement): اندازهگیری تقریباً معادل مفهوم جدول در پایگاههای داده رابطهای است. بنابراین دادهها در آن ذخیره میشود و پایگاه داده میتواند چندین اندازهگیری داشته باشد. یک اندازه گیری از 3 نوع ستون Time، Tags و Fields تشکیل شده است.
2️⃣ زمان: یکی دیگر از اجزای این پایگاه داده زمان است که به صورت timestamp جهت ردیابی ستون برای انجام عملیات سری زمانی به روشی بهتر مورد استفاده قرار میگیرد. به طور پیشفرض زمان مورد استفاده، زمان Influxdb است که بر حسب نانوثانیه میباشد، اما میتوان آن را با زمان رویداد جایگزین کرد.
3️⃣ برچسبها: یک برچسب شبیه به یک ستون ایندکس شده در یک پایگاه داده رابطهای است. نکته مهمی که در این خصوص وجود دارد این است که عملیات رابطهای مانند WHERE، GROUP BY و غیره را میتوان بر روی یک ستون تنها در صورتی انجام داد که به عنوان یک برچسب مشخص شده باشد.
4️⃣ فیلدها: فیلدها ستونهایی هستند که عملیات ریاضی مانند مجموع، میانگین و غیره را میتوان بر روی آنها انجام داد. با این حال، در نسخه های اخیر، مقادیر به صورت رشته را نیز میتوان به عنوان یک فیلد ذخیره کرد.
5️⃣ سریها: سریها مهمترین مفهوم Influxdb هستند. یک سری ترکیبی از برچسبها، اندازهگیری و سیاست نگهداشت است. عملکرد پایگاه داده Influxdb به شدت به تعداد سریهای منحصر به فرد آن بستگی دارد.
📍با توجه به اینکه Spark از متداولترین ابزارهای متن باز در زمینه پردازش دادههای عظیم است، پایگاه داده InfluxDB میتواند به همراه جریان با ساختار اسپارک برای پردازش، ذخیره و مصورسازی دادهها به صورت بلادرنگ مورد استفاده گیرد. در حال حاضر دو پیادهسازی متن باز از InfluxDb sink برای نوشتن دادهها از طریق جریان ساختاریافته، chronicler و reactive-influx وجود دارد. همچنین با ذخیره داده میتوان از ابزارهای مختلفی مانند Grafana و Chronograph و غیره برای مصورسازی آن استفاده نمود.
❇️ برای دانلود میتوانید به سایت زیر مراجعه فرمایید:
🔗 https://www.influxdata.com
#معرفی_ابزار
#InfluxDB
#سری_زمانی
#دادههای_عظیم
#فاطمه_مظفری
@BigData_BusinessAnalytics
www.bdbanalytics.ir
🖌 پایگاه داده InfluxDB یک پایگاه داده سری زمانی متن باز (TSDB) است که توسط شرکت InfluxData توسعه یافته است. این پایگاه داده با استفاده از زبان برنامه نویسی Go برای ذخیره و بازیابی دادههای سری زمانی با کاربردهایی مانند پایش عملیات، دادههای حسگرهای اینترنت اشیا و تحلیلگری بلادرنگ نوشته شده است.
✳️ به طور کلی پایگاه دادههای سری زمانی شامل اندازهگیریها یا رویدادهایی است که تحت پایش، ردیابی و پالایش دادهها شامل نمونهبرداری و جمعآوری در طول زمان قرار میگیرند و بنابراین میتوانند شامل دادههای نظارت بر اپلیکیشنها، دادههای مربوط به حسگرها، دادههای معاملات بازار و بورس اوراق بهادار باشند. پایگاه داده سری زمانی قادر به دریافت میلیونها نقطه داده در ثانیه است که بر این اساس عملکرد سطح بالایی را ارائه میدهد.
♦️ بنابراین با استفاده از InfluxDB، اپلیکیشنهای بلادرنگ برای تحلیلگری، اینترنت اشیا و سرویسهای ابری بومی (cloud-native) در زمان کمتر و با کد کمتر قابل دستیابی است. همچنین InfluxDB دارای یک زبان پرس و جو (کوئری) از نوع SQL است که به طور خاص برای دادههای سری زمانی ایجاد شده است.
📍مفاهیم پایه در InfluxDB عبارتند از:
1️⃣ اندازهگیری (measurement): اندازهگیری تقریباً معادل مفهوم جدول در پایگاههای داده رابطهای است. بنابراین دادهها در آن ذخیره میشود و پایگاه داده میتواند چندین اندازهگیری داشته باشد. یک اندازه گیری از 3 نوع ستون Time، Tags و Fields تشکیل شده است.
2️⃣ زمان: یکی دیگر از اجزای این پایگاه داده زمان است که به صورت timestamp جهت ردیابی ستون برای انجام عملیات سری زمانی به روشی بهتر مورد استفاده قرار میگیرد. به طور پیشفرض زمان مورد استفاده، زمان Influxdb است که بر حسب نانوثانیه میباشد، اما میتوان آن را با زمان رویداد جایگزین کرد.
3️⃣ برچسبها: یک برچسب شبیه به یک ستون ایندکس شده در یک پایگاه داده رابطهای است. نکته مهمی که در این خصوص وجود دارد این است که عملیات رابطهای مانند WHERE، GROUP BY و غیره را میتوان بر روی یک ستون تنها در صورتی انجام داد که به عنوان یک برچسب مشخص شده باشد.
4️⃣ فیلدها: فیلدها ستونهایی هستند که عملیات ریاضی مانند مجموع، میانگین و غیره را میتوان بر روی آنها انجام داد. با این حال، در نسخه های اخیر، مقادیر به صورت رشته را نیز میتوان به عنوان یک فیلد ذخیره کرد.
5️⃣ سریها: سریها مهمترین مفهوم Influxdb هستند. یک سری ترکیبی از برچسبها، اندازهگیری و سیاست نگهداشت است. عملکرد پایگاه داده Influxdb به شدت به تعداد سریهای منحصر به فرد آن بستگی دارد.
📍با توجه به اینکه Spark از متداولترین ابزارهای متن باز در زمینه پردازش دادههای عظیم است، پایگاه داده InfluxDB میتواند به همراه جریان با ساختار اسپارک برای پردازش، ذخیره و مصورسازی دادهها به صورت بلادرنگ مورد استفاده گیرد. در حال حاضر دو پیادهسازی متن باز از InfluxDb sink برای نوشتن دادهها از طریق جریان ساختاریافته، chronicler و reactive-influx وجود دارد. همچنین با ذخیره داده میتوان از ابزارهای مختلفی مانند Grafana و Chronograph و غیره برای مصورسازی آن استفاده نمود.
❇️ برای دانلود میتوانید به سایت زیر مراجعه فرمایید:
🔗 https://www.influxdata.com
#معرفی_ابزار
#InfluxDB
#سری_زمانی
#دادههای_عظیم
#فاطمه_مظفری
@BigData_BusinessAnalytics
www.bdbanalytics.ir
Telegram
attach 📎
📖 کتاب بخوانیم؛
📌 "Big Data for Big Decisions: Building a Data-Driven Organization"
🔹 فصل ششم کتاب "دادههای عظیم برای تصمیمات بزرگ: ایجاد یک سازمان داده محور،" عوامل موثر و شرایط بالقوهای که منجر به شکست پروژههای تحلیلگری میشود را مورد بررسی قرار میدهد.
📍در سال 2019، گارتنر پیشبینی کرد که بیش از 80 درصد از پروژههای تحلیلگری احتمالاً با شکست مواجه خواهند شد و تا سال 2022 نتایج تجاری مورد نظر را به دست نمیآورند. بنابراین قبل از ایجاد یک نقشه راه برای یک سازمان داده محور، درک محدودیتهای حل نشده و شرایط بالقوه منجر به شکست حائز اهمیت است.
📍در واقع هدف ما موفقیت یک یا دو پروژه تحلیلگری جداگانه نیست، بلکه در واقع ایجاد یک سازمان دادهمحور است که نیازمند آن است که تمام تصمیمات کلیدی (اگر نگوییم تمام تصمیمات) بر مبنای دادهها اتخاذ شود، و در جایی که ممکن است در ادامه مورد حسابرسی قرار گیرد.
🔹نقشه راه تحلیلگری اساساً مجموعهای از پروژهها است که به ترتیب نزولی بر اساس ارزش نسبی خالص برنامهریزی برای آنها صورت میگیرد. به این معنی که پروژه ای که بالاترین ارزش نسبی را در برخواهد داشت اولویت بالاتری را به خود اختصاص میدهد و پس از آن به همین ترتیب سایر پروژهها اولویت بندی میشوند. ارزش نسبی مورد بحث در اینجا به ارزش دلاری نتایج تجاری اشاره دارد که بهبود کیفیت تصمیمگیری منجر به آن میشود. از آنجایی که ما فقط پروژههایی را انتخاب میکنیم که بالاترین پتانسیل را برای تحویل ارزش دارند، انتظار میرود ریسک شکست پروژهها حداقل باشد.
❓اما آیا این برای تضمین موفقیت پروژههای تحلیلگری کافی است؟ چه عوامل دیگری اولویت نسبی تصمیمات «بزرگ» را در شرکت تعیین میکند؟ چه زمانی میتوانیم بگوییم یک پروژه تحلیلگری را به انجام رساندهایم که در واقع ارزشی را ارائه میدهد؟ دقیقا چه چیزی باعث موفقیت پروژههای تحلیلگری میشود؟ مهمتر از آن چه چیزی میتواند به طور بالقوه مانع از ارائه ارزش مورد نظر پروژههای تحلیلگری شود؟ برای شناسایی تصمیمات «بزرگ» و ایجاد یک نقشه راه اولویتبندی، چه نوع بررسی لازم است؟ ارزش در معرض خطر را چگونه برآورد میکنید؟ چگونه میتوان یک مورد تجاری برای تحلیلگری ایجاد کرد؟
📍جهت پاسخگویی به سوالات مطرح شده موضوعاتی که در بخش ششم کتاب به آن پرداخته شده است عبارتند از:
✅ ایجاد نقشه راه برای تصمیمات بزرگ شامل شناسایی و اولویت بندی تصمیمات و همچنین نقشه راهی برای سازمان داده محور: یک چارچوب فرآیندی با جزئیات برای شناسایی و اولویتبندی تصمیمات بزرگ جهت ایجاد نقشه راه سازمان داده محور
✅ رمزگشایی از دادههایی که در پشت تصمیمات قرار دارند، مدلسازی و تحلیل تصمیمات: نیاز به مدلسازی و تحلیل تصمیمات پیش از تلاش جهت تبدیل نقشه راه تصمیمات بزرگ به یک طرح پروژه تمام عیار، با رویدادهای «راهحلهای تحلیلی» به عنوان نقاط عطف پروژه
✅ ایجاد یک مورد کسب و کاری با تحلیلگری و منابع ارزش (پیشرانهای ارزش)، تخمین بازده و مقایسه شاخصهای کلیدی عملکرد با معیارهای صنعت و برآورد سرمایهگذاریها: از هر CDO (یا CIO) خواسته میشود که یک مورد کسب و کاری برای سرمایهگذاریهای تحلیلی پیشرفته ایجاد نماید. ارزش افزایشی تولید شده از طریق تحلیلگری لزوماً باید بیش از سرمایهگذاری انجام شده باشد.
✅ از داده تا تصمیم: خلاصه سازی گامهای دخیل در ایجاد نقشه راه و مورد کسب و کاری برای یک سازمان داده محور
✅ دادهها، اعتماد و تصمیم گیرنده: در اینجا موردی بررسی میشود که همه چیز به طور صحیح انجام شده است؛ تصمیم درست، مدل تحلیلگری صحیح، و دادههای درست، با این حال مدیران در مقابل استفاده از تحلیلگری مقاومت میکنند. درک این موضوع که دقیقا چه چیزی بر روی چنین رفتاری تاثیر میگذارد حائز اهمیت است چرا که برای پاسخگویی به این سوال کمک میکند که چه چیز دیگری به طور بالقوه میتواند منجر به شکست پروژههای تحلیلگری و عدم تحویل ارزشهای مورد نظر شود؟
#کتاب_بخوانیم
#فصل_ششم
#فاطمه_مظفری
#تصمیم_گیری
#سازمان_داده_محور
www.bdbanalytics.ir
@BigData_BusinessAnalytics
📌 "Big Data for Big Decisions: Building a Data-Driven Organization"
🔹 فصل ششم کتاب "دادههای عظیم برای تصمیمات بزرگ: ایجاد یک سازمان داده محور،" عوامل موثر و شرایط بالقوهای که منجر به شکست پروژههای تحلیلگری میشود را مورد بررسی قرار میدهد.
📍در سال 2019، گارتنر پیشبینی کرد که بیش از 80 درصد از پروژههای تحلیلگری احتمالاً با شکست مواجه خواهند شد و تا سال 2022 نتایج تجاری مورد نظر را به دست نمیآورند. بنابراین قبل از ایجاد یک نقشه راه برای یک سازمان داده محور، درک محدودیتهای حل نشده و شرایط بالقوه منجر به شکست حائز اهمیت است.
📍در واقع هدف ما موفقیت یک یا دو پروژه تحلیلگری جداگانه نیست، بلکه در واقع ایجاد یک سازمان دادهمحور است که نیازمند آن است که تمام تصمیمات کلیدی (اگر نگوییم تمام تصمیمات) بر مبنای دادهها اتخاذ شود، و در جایی که ممکن است در ادامه مورد حسابرسی قرار گیرد.
🔹نقشه راه تحلیلگری اساساً مجموعهای از پروژهها است که به ترتیب نزولی بر اساس ارزش نسبی خالص برنامهریزی برای آنها صورت میگیرد. به این معنی که پروژه ای که بالاترین ارزش نسبی را در برخواهد داشت اولویت بالاتری را به خود اختصاص میدهد و پس از آن به همین ترتیب سایر پروژهها اولویت بندی میشوند. ارزش نسبی مورد بحث در اینجا به ارزش دلاری نتایج تجاری اشاره دارد که بهبود کیفیت تصمیمگیری منجر به آن میشود. از آنجایی که ما فقط پروژههایی را انتخاب میکنیم که بالاترین پتانسیل را برای تحویل ارزش دارند، انتظار میرود ریسک شکست پروژهها حداقل باشد.
❓اما آیا این برای تضمین موفقیت پروژههای تحلیلگری کافی است؟ چه عوامل دیگری اولویت نسبی تصمیمات «بزرگ» را در شرکت تعیین میکند؟ چه زمانی میتوانیم بگوییم یک پروژه تحلیلگری را به انجام رساندهایم که در واقع ارزشی را ارائه میدهد؟ دقیقا چه چیزی باعث موفقیت پروژههای تحلیلگری میشود؟ مهمتر از آن چه چیزی میتواند به طور بالقوه مانع از ارائه ارزش مورد نظر پروژههای تحلیلگری شود؟ برای شناسایی تصمیمات «بزرگ» و ایجاد یک نقشه راه اولویتبندی، چه نوع بررسی لازم است؟ ارزش در معرض خطر را چگونه برآورد میکنید؟ چگونه میتوان یک مورد تجاری برای تحلیلگری ایجاد کرد؟
📍جهت پاسخگویی به سوالات مطرح شده موضوعاتی که در بخش ششم کتاب به آن پرداخته شده است عبارتند از:
✅ ایجاد نقشه راه برای تصمیمات بزرگ شامل شناسایی و اولویت بندی تصمیمات و همچنین نقشه راهی برای سازمان داده محور: یک چارچوب فرآیندی با جزئیات برای شناسایی و اولویتبندی تصمیمات بزرگ جهت ایجاد نقشه راه سازمان داده محور
✅ رمزگشایی از دادههایی که در پشت تصمیمات قرار دارند، مدلسازی و تحلیل تصمیمات: نیاز به مدلسازی و تحلیل تصمیمات پیش از تلاش جهت تبدیل نقشه راه تصمیمات بزرگ به یک طرح پروژه تمام عیار، با رویدادهای «راهحلهای تحلیلی» به عنوان نقاط عطف پروژه
✅ ایجاد یک مورد کسب و کاری با تحلیلگری و منابع ارزش (پیشرانهای ارزش)، تخمین بازده و مقایسه شاخصهای کلیدی عملکرد با معیارهای صنعت و برآورد سرمایهگذاریها: از هر CDO (یا CIO) خواسته میشود که یک مورد کسب و کاری برای سرمایهگذاریهای تحلیلی پیشرفته ایجاد نماید. ارزش افزایشی تولید شده از طریق تحلیلگری لزوماً باید بیش از سرمایهگذاری انجام شده باشد.
✅ از داده تا تصمیم: خلاصه سازی گامهای دخیل در ایجاد نقشه راه و مورد کسب و کاری برای یک سازمان داده محور
✅ دادهها، اعتماد و تصمیم گیرنده: در اینجا موردی بررسی میشود که همه چیز به طور صحیح انجام شده است؛ تصمیم درست، مدل تحلیلگری صحیح، و دادههای درست، با این حال مدیران در مقابل استفاده از تحلیلگری مقاومت میکنند. درک این موضوع که دقیقا چه چیزی بر روی چنین رفتاری تاثیر میگذارد حائز اهمیت است چرا که برای پاسخگویی به این سوال کمک میکند که چه چیز دیگری به طور بالقوه میتواند منجر به شکست پروژههای تحلیلگری و عدم تحویل ارزشهای مورد نظر شود؟
#کتاب_بخوانیم
#فصل_ششم
#فاطمه_مظفری
#تصمیم_گیری
#سازمان_داده_محور
www.bdbanalytics.ir
@BigData_BusinessAnalytics
📌📌معرفی ابزار: Apache Accumulo
🖌ابزار Apache Accumulo یک ابزار ذخیرهسازی کلید/مقدار توزیع شده و مرتب شده است که ذخیرهسازی و بازیابی دادهها به صورت پایدار و مقیاسپذیر را فراهم میکند. با استفاده از این ابزار، کاربران میتوانند مجموعه دادههای عظیم را در یک خوشه ذخیره و مدیریت کنند. Accumulo از HDFS آپاچی هدوپ برای ذخیره دادهها و از آپاچی زوکیپر برای هماهنگی استفاده میکند. بنابراین Accumulo به اجرای زوکیپر و HDFS نیاز دارد که باید قبل از پیکربندی Accumulo تنظیم شوند. در حالی که بسیاری از کاربران مستقیماً با Accumulo تعامل دارند، پروژههای منبع باز مختلفی از Accumulo به عنوان ابزار ذخیرهسازی اصلی خود استفاده میکنند.
✳️ ویژگیهای اصلی:
♦️برنامهنویسی سمت سرور: Accumulo دارای یک مکانیسم برنامهنویسی به نام Iterators است که میتواند زوجهای کلید/مقدار را در نقاط مختلف فرآیند مدیریت داده تغییر دهد.
♦️ کنترل دسترسی مبتنی بر سلول: هر زوج کلید/مقدار دارای برچسب امنیتی خاص خود است که نتایج کوئری را بر اساس مجوزهای کاربر محدود میکند.
♦️برای مقیاسپذیری طراحی شده است: Accumulo روی یک خوشه با استفاده از یک یا چند نمونه HDFS اجرا میشود. گرهها را میتوان با تغییر مقدار دادههای ذخیره شده در Accumulo اضافه یا حذف کرد.
♦️ پایدار: دارای یک کلاینت API پایدار است. هر نسخه Accumulo تستهای گستردهای را پشت سر میگذارد.
✳️ طراحی Apache Accumulo از BigTable گوگل الهام گرفته شده است. Accumulo یک دیتامدل غنیتر از ذخیرهسازی ساده کلید/مقدار ارائه میکند، اما یک پایگاه داده کاملاً رابطهای نیست. دادهها به صورت زوج کلید/مقدار نمایش داده میشوند که در آن کلید و مقدار از عناصر مختلفی تشکیل میشوند. همه عناصر کلید و مقدار، به جز Timestamp که به صورت long است، بهعنوان آرایههای بایتی نشان داده میشوند.
📍یک نمونه از Accumulo شامل تعداد زیادی TabletServer، یک فرآیند زبالهروبی، یک سرور مدیر و تعداد زیادی کلاینت است.
♦️ تبلت سرور: زیرمجموعهای از تمام تبلتها (پارتیشنهایی از جداول) را مدیریت میکند.
♦️زباله روب (garbage collector): فرآیندهای Accumulo فایلهای ذخیره شده در HDFS را به اشتراک خواهند گذاشت. در فرآیند زبالهروبی، به صورت دورهای، فایلهایی که دیگر توسط هیچ فرآیندی مورد نیاز نمیباشند، شناسایی و حذف میشوند.
♦️سرور مدیر: مدیریت Accumulo مسئول تشخیص و پاسخگویی در صورت خرابی تبلت سرور است. با اختصاص دقیق تبلتها و دستور دادن به تبلت سرورها برای کاهش بار تبلتها در صورت لزوم، این سرور سعی میکند بار را در سراسر تبلت سرور متعادل کند.
♦️ردیاب: فرآیند Accumulo Tracer از API توزیع شده ارائه شده توسط Accumulo پشتیبانی میکند. به طور مثال اطلاعات زمانبندی را در جدول Accumulo مشخص برای ارجاعات بعدی مینویسد.
♦️پایش: پایش در Accumulo یک برنامه تحت وب است که اطلاعات زیادی در مورد وضعیت یک نمونه ارائه میدهد. این برنامه نمودارها و جداولی را نشان میدهد که حاوی اطلاعاتی در مورد نرخ خواندن/نوشتن، نرخ عدم دسترسی به حافظه و غیره است.
♦️کلاینت: Accumulo دارای یک کتابخانه کلاینت است که میتواند برای نوشتن اپلیکیشنهایی که دادهها را در/از Accumulo مینویسند و میخوانند استفاده شود.
✳️از نقطه نظر مدیریت دادهها، Accumulo دادهها را در جداول ذخیره میکند که این جداول به تبلتها تقسیم میشوند. تبلتها بر روی مرزهای ردیف تقسیمبندی میشوند به طوری که تمام ستونها و مقادیر یک ردیف خاص با هم در یک تبلت قرار میگیرند. سرور مدیر هر بار تبلتها را به یک تبلت سرور اختصاص میدهد. این کار تراکنشهای سطح ردیف را قادر میسازد بدون استفاده از قفل توزیع شده یا مکانیزمهای سنکرونسازی پیچیده دیگر انجام شوند. هنگامی که کلاینتها دادهها را وارد میکنند و کوئری میزنند و همچنین هنگامی که ماشینها به خوشه اضافه و یا از آن حذف میشوند، این سرور، تبلتها را انتقال میدهد تا از در دسترس بودن آنها و تعادل بار در کل خوشه اطمینان حاصل شود.
📍این ابزار را میتوانید از لینک زیر دانلود فرمایید:
🔗 https://accumulo.apache.org/downloads/
#معرفی_ابزار
#Apache_Accumulo
#دادههای_عظیم
#فاطمه_مظفری
@BigData_BusinessAnalytics
www.bdbanalytics.ir
🖌ابزار Apache Accumulo یک ابزار ذخیرهسازی کلید/مقدار توزیع شده و مرتب شده است که ذخیرهسازی و بازیابی دادهها به صورت پایدار و مقیاسپذیر را فراهم میکند. با استفاده از این ابزار، کاربران میتوانند مجموعه دادههای عظیم را در یک خوشه ذخیره و مدیریت کنند. Accumulo از HDFS آپاچی هدوپ برای ذخیره دادهها و از آپاچی زوکیپر برای هماهنگی استفاده میکند. بنابراین Accumulo به اجرای زوکیپر و HDFS نیاز دارد که باید قبل از پیکربندی Accumulo تنظیم شوند. در حالی که بسیاری از کاربران مستقیماً با Accumulo تعامل دارند، پروژههای منبع باز مختلفی از Accumulo به عنوان ابزار ذخیرهسازی اصلی خود استفاده میکنند.
✳️ ویژگیهای اصلی:
♦️برنامهنویسی سمت سرور: Accumulo دارای یک مکانیسم برنامهنویسی به نام Iterators است که میتواند زوجهای کلید/مقدار را در نقاط مختلف فرآیند مدیریت داده تغییر دهد.
♦️ کنترل دسترسی مبتنی بر سلول: هر زوج کلید/مقدار دارای برچسب امنیتی خاص خود است که نتایج کوئری را بر اساس مجوزهای کاربر محدود میکند.
♦️برای مقیاسپذیری طراحی شده است: Accumulo روی یک خوشه با استفاده از یک یا چند نمونه HDFS اجرا میشود. گرهها را میتوان با تغییر مقدار دادههای ذخیره شده در Accumulo اضافه یا حذف کرد.
♦️ پایدار: دارای یک کلاینت API پایدار است. هر نسخه Accumulo تستهای گستردهای را پشت سر میگذارد.
✳️ طراحی Apache Accumulo از BigTable گوگل الهام گرفته شده است. Accumulo یک دیتامدل غنیتر از ذخیرهسازی ساده کلید/مقدار ارائه میکند، اما یک پایگاه داده کاملاً رابطهای نیست. دادهها به صورت زوج کلید/مقدار نمایش داده میشوند که در آن کلید و مقدار از عناصر مختلفی تشکیل میشوند. همه عناصر کلید و مقدار، به جز Timestamp که به صورت long است، بهعنوان آرایههای بایتی نشان داده میشوند.
📍یک نمونه از Accumulo شامل تعداد زیادی TabletServer، یک فرآیند زبالهروبی، یک سرور مدیر و تعداد زیادی کلاینت است.
♦️ تبلت سرور: زیرمجموعهای از تمام تبلتها (پارتیشنهایی از جداول) را مدیریت میکند.
♦️زباله روب (garbage collector): فرآیندهای Accumulo فایلهای ذخیره شده در HDFS را به اشتراک خواهند گذاشت. در فرآیند زبالهروبی، به صورت دورهای، فایلهایی که دیگر توسط هیچ فرآیندی مورد نیاز نمیباشند، شناسایی و حذف میشوند.
♦️سرور مدیر: مدیریت Accumulo مسئول تشخیص و پاسخگویی در صورت خرابی تبلت سرور است. با اختصاص دقیق تبلتها و دستور دادن به تبلت سرورها برای کاهش بار تبلتها در صورت لزوم، این سرور سعی میکند بار را در سراسر تبلت سرور متعادل کند.
♦️ردیاب: فرآیند Accumulo Tracer از API توزیع شده ارائه شده توسط Accumulo پشتیبانی میکند. به طور مثال اطلاعات زمانبندی را در جدول Accumulo مشخص برای ارجاعات بعدی مینویسد.
♦️پایش: پایش در Accumulo یک برنامه تحت وب است که اطلاعات زیادی در مورد وضعیت یک نمونه ارائه میدهد. این برنامه نمودارها و جداولی را نشان میدهد که حاوی اطلاعاتی در مورد نرخ خواندن/نوشتن، نرخ عدم دسترسی به حافظه و غیره است.
♦️کلاینت: Accumulo دارای یک کتابخانه کلاینت است که میتواند برای نوشتن اپلیکیشنهایی که دادهها را در/از Accumulo مینویسند و میخوانند استفاده شود.
✳️از نقطه نظر مدیریت دادهها، Accumulo دادهها را در جداول ذخیره میکند که این جداول به تبلتها تقسیم میشوند. تبلتها بر روی مرزهای ردیف تقسیمبندی میشوند به طوری که تمام ستونها و مقادیر یک ردیف خاص با هم در یک تبلت قرار میگیرند. سرور مدیر هر بار تبلتها را به یک تبلت سرور اختصاص میدهد. این کار تراکنشهای سطح ردیف را قادر میسازد بدون استفاده از قفل توزیع شده یا مکانیزمهای سنکرونسازی پیچیده دیگر انجام شوند. هنگامی که کلاینتها دادهها را وارد میکنند و کوئری میزنند و همچنین هنگامی که ماشینها به خوشه اضافه و یا از آن حذف میشوند، این سرور، تبلتها را انتقال میدهد تا از در دسترس بودن آنها و تعادل بار در کل خوشه اطمینان حاصل شود.
📍این ابزار را میتوانید از لینک زیر دانلود فرمایید:
🔗 https://accumulo.apache.org/downloads/
#معرفی_ابزار
#Apache_Accumulo
#دادههای_عظیم
#فاطمه_مظفری
@BigData_BusinessAnalytics
www.bdbanalytics.ir
📖 کتاب بخوانیم؛
📌 "Big Data for Big Decisions: Building a Data-Driven Organization"
🔹 فصل هشتم: ایجاد یک استراتژی فناوری اطلاعات داده محور
📍تا سالهای اخیر، استراتژی داده، اگر اصولاً چنین چیزی در یک سازمان وجود داشت، همواره به عنوان جزئی از استراتژی فناوری اطلاعات به شمار میرفت. گفته شده است که اگر داده ها را مانند خون بدانیم، زیرساخت فناوری اطلاعات، سیستم گردش خونی است که سازمان ها را توانمند میسازد. طراحی ضعیف استراتژی IT میتواند به معنای دادههای با کیفیت پایین و پراکنده باشد که با تاخیر زمانی بیشتر از عمر مفید دادهها تحویل میشود. از این رو، ایجاد یک استراتژی فناوری اطلاعات منسجم و همسو با کسب و کار، به اندازه ساختن یک استراتژی اثربخش دادهای در سازمان حیاتی است.
❓سوال اساسی که در اینجا مطرح است این است که آیا سازمان باید استراتژی IT خود را پیش از استراتژی داده تعریف کند یا بالعکس؟ به عبارت دیگر، آیا ظرف باید محتویات آن را تعریف نماید یا محتویات باید ظرف را تعریف نماید؟
📍یک استراتژی اساساً مجموعهای از تصمیمات بلندمدت است. استراتژی فناوری اطلاعات یک جزء از استراتژی کسب و کار است - مجموعه ای از تصمیمات بلند مدت در مورد چگونگی شکل دادن به فناوری اطلاعات به گونهای که از سازمان در تحقق اهداف بلندمدت کسب و کاری خود حمایت کند. بنابراین، یک استراتژی فناوری اطلاعات، در هسته، مجموعه ای از تصمیمات استراتژیک مهم است. سوال این است: چگونه می توان اطمینان حاصل کرد که این تصمیمات مبتنی بر داده هستند؟ در فصل هشتم کتاب دادههای عظیم برای تصمیمات بزرگ با نگاهی انتقادی به آنچه که یک استراتژی فناوری اطلاعات مبتنی بر داده را تشکیل می دهد پرداخته میشود.
🔹با توجه به اینکه هدف اصلی استراتژی فناوری اطلاعات داده محور، ارائه ارزش کسب و کاری و افزایش عملکرد کسب و کاری شرکت است، کشف پیشران کلیدی ارزش ضروری میباشد و در این راستا سوالاتی مطرح است:
1️⃣ پیشرانهای کلیدی ارزش برای استراتژی فناوری اطلاعات چیست؟ آیا آنها تصمیمات "بزرگ" استراتژی فناوری اطلاعات را تعریف میکنند؟
2️⃣ چه نوع دادهای برای حمایت از تصمیمات بزرگ استراتژی فناوری اطلاعات مورد نیاز است؟
3️⃣ منابع چنین دادههایی چیست؟
📍پیشرانهای کلیدی باید با استراتژی کسب و کار همراستا باشند. ابتکارات فناوری اطلاعات باید سازمان را برای دستیابی به اهداف استراتژیک کسب و کار توانمند سازند و منابع کلیدی داده برای طرحریزی و ابداع استراتژی فناوری اطلاعات به کار روند.
در واقع استراتژی فناوری اطلاعات داده محور بر پایههای زیر قرار میگیرد:
✅ همراستایی با استراتژی کسب و کار
✅ بهینه کاوی با صنعت، رقابت و داخل سازمان
✅ جریان کاری و زنجیره ارزش اطلاعات
✅ پوشش زنجیره ارزش سازمان
✅ بهینه سازی منابع
✅ ارزش کسب و کاری
✅ معماری سازمانی از دید سازمان، داده، کنترل، کارکرد و محصول یا خدمت
📍این پایهها بر ممیزی امنیت اطلاعات و زیرساخت، تحلیل پورتفولیوی کاربردها و استراتژی دادهای سازمانی همراستا با استراتژی کسب و کار قرار میگیرند که به نوبه خود بر منابع دادهای مختلف سازمان شامل اپلیکیشنهای سازمانی محوری قرار گرفته بر روی ابر یا مراکز داده سازمان، دادههای اینترنت اشیا، موبایل، دستگاههای متصل، دادههای عظیم، هوش مصنوعی، روباتیک، شبکههای اجتماعی، تجارت الکترونیک و ... بنا شده است.
بنابراین فصل هشتم کتاب به بررسی اجزای شکل دهنده استراتژی فناوری اطلاعات داده محور و پاسخ به سوالاتی پیرامون آنها میپردازد.
#کتاب_بخوانیم
#فصل_هشتم
#فاطمه_مظفری
#استراتژی_فناوری_اطلاعات_داده_محور
#دادههای_عظیم_برای_تصمیمات_بزرگ
www.bdbanalytics.ir
@BigData_BusinessAnalytics
📌 "Big Data for Big Decisions: Building a Data-Driven Organization"
🔹 فصل هشتم: ایجاد یک استراتژی فناوری اطلاعات داده محور
📍تا سالهای اخیر، استراتژی داده، اگر اصولاً چنین چیزی در یک سازمان وجود داشت، همواره به عنوان جزئی از استراتژی فناوری اطلاعات به شمار میرفت. گفته شده است که اگر داده ها را مانند خون بدانیم، زیرساخت فناوری اطلاعات، سیستم گردش خونی است که سازمان ها را توانمند میسازد. طراحی ضعیف استراتژی IT میتواند به معنای دادههای با کیفیت پایین و پراکنده باشد که با تاخیر زمانی بیشتر از عمر مفید دادهها تحویل میشود. از این رو، ایجاد یک استراتژی فناوری اطلاعات منسجم و همسو با کسب و کار، به اندازه ساختن یک استراتژی اثربخش دادهای در سازمان حیاتی است.
❓سوال اساسی که در اینجا مطرح است این است که آیا سازمان باید استراتژی IT خود را پیش از استراتژی داده تعریف کند یا بالعکس؟ به عبارت دیگر، آیا ظرف باید محتویات آن را تعریف نماید یا محتویات باید ظرف را تعریف نماید؟
📍یک استراتژی اساساً مجموعهای از تصمیمات بلندمدت است. استراتژی فناوری اطلاعات یک جزء از استراتژی کسب و کار است - مجموعه ای از تصمیمات بلند مدت در مورد چگونگی شکل دادن به فناوری اطلاعات به گونهای که از سازمان در تحقق اهداف بلندمدت کسب و کاری خود حمایت کند. بنابراین، یک استراتژی فناوری اطلاعات، در هسته، مجموعه ای از تصمیمات استراتژیک مهم است. سوال این است: چگونه می توان اطمینان حاصل کرد که این تصمیمات مبتنی بر داده هستند؟ در فصل هشتم کتاب دادههای عظیم برای تصمیمات بزرگ با نگاهی انتقادی به آنچه که یک استراتژی فناوری اطلاعات مبتنی بر داده را تشکیل می دهد پرداخته میشود.
🔹با توجه به اینکه هدف اصلی استراتژی فناوری اطلاعات داده محور، ارائه ارزش کسب و کاری و افزایش عملکرد کسب و کاری شرکت است، کشف پیشران کلیدی ارزش ضروری میباشد و در این راستا سوالاتی مطرح است:
1️⃣ پیشرانهای کلیدی ارزش برای استراتژی فناوری اطلاعات چیست؟ آیا آنها تصمیمات "بزرگ" استراتژی فناوری اطلاعات را تعریف میکنند؟
2️⃣ چه نوع دادهای برای حمایت از تصمیمات بزرگ استراتژی فناوری اطلاعات مورد نیاز است؟
3️⃣ منابع چنین دادههایی چیست؟
📍پیشرانهای کلیدی باید با استراتژی کسب و کار همراستا باشند. ابتکارات فناوری اطلاعات باید سازمان را برای دستیابی به اهداف استراتژیک کسب و کار توانمند سازند و منابع کلیدی داده برای طرحریزی و ابداع استراتژی فناوری اطلاعات به کار روند.
در واقع استراتژی فناوری اطلاعات داده محور بر پایههای زیر قرار میگیرد:
✅ همراستایی با استراتژی کسب و کار
✅ بهینه کاوی با صنعت، رقابت و داخل سازمان
✅ جریان کاری و زنجیره ارزش اطلاعات
✅ پوشش زنجیره ارزش سازمان
✅ بهینه سازی منابع
✅ ارزش کسب و کاری
✅ معماری سازمانی از دید سازمان، داده، کنترل، کارکرد و محصول یا خدمت
📍این پایهها بر ممیزی امنیت اطلاعات و زیرساخت، تحلیل پورتفولیوی کاربردها و استراتژی دادهای سازمانی همراستا با استراتژی کسب و کار قرار میگیرند که به نوبه خود بر منابع دادهای مختلف سازمان شامل اپلیکیشنهای سازمانی محوری قرار گرفته بر روی ابر یا مراکز داده سازمان، دادههای اینترنت اشیا، موبایل، دستگاههای متصل، دادههای عظیم، هوش مصنوعی، روباتیک، شبکههای اجتماعی، تجارت الکترونیک و ... بنا شده است.
بنابراین فصل هشتم کتاب به بررسی اجزای شکل دهنده استراتژی فناوری اطلاعات داده محور و پاسخ به سوالاتی پیرامون آنها میپردازد.
#کتاب_بخوانیم
#فصل_هشتم
#فاطمه_مظفری
#استراتژی_فناوری_اطلاعات_داده_محور
#دادههای_عظیم_برای_تصمیمات_بزرگ
www.bdbanalytics.ir
@BigData_BusinessAnalytics
📌📌معرفی ابزار: Databricks Lakehouse Platform
🖌نوع جدیدی از معماری داده تحت عنوان "data lakehouse" دریاچه داده و انبارداده را ترکیب مینماید تا نقاط ضعفی را که هر یک از آنها به طور مستقل میتوانند داشته باشند، برطرف نماید. پلتفرم lakehouse، مانند دریاچههای داده از ذخیرهسازی کم هزینه برای نگهداری حجم عظیمی از دادهها در فرمت اصلی خود بهره میبرد و افزودن یک لایه متادیتا بر روی محل ذخیرهسازی نیز ساختار داده را فراهم نموده و ابزارهای مدیریت داده را مشابه آنچه در انبارداده وجود دارد امکان پذیر میسازد.
🔹این معماری شامل حجم از عظیمی از دادههای ساختیافته، نیمه ساختیافته و بدون ساختار است که از اپلیکیشنها، سیستمها و دستگاههای مختلفی که در سراسر سازمان مورد استفاده قرار میگیرند، به دست میآیند.
بر خلاف دریاچه داده، پلتفرمهای lakehouse میتوانند دادهها را برای عملکرد SQL مدیریت و بهینهسازی نمایند. همچنین این قابلیت را دارند تا حجم بزرگی از دادههای متنوع را با هزینهای پایینتر از انبارهای داده ذخیرهسازی و پردازش نمایند. این پلتفرمها هنگامی که نیاز به اجرای هر گونه دسترسی به دادهها یا تحلیلگری داریم اما در خصوص دادهها یا تحلیل مورد نظر اطمینان نداریم میتوانند بسیار مفید باشند.
❇️ ویژگیهای data lakehouse عبارتند از:
✅ خواندن و نوشتن همزمان دادهها
✅ سازگاری و مقیاس پذیری
✅ اسکیماهای مورد نیاز توسط ابزارهای حکمرانی داده
✅ ذخیره سازی مقرون به صرفه
✅ پشتیبانی از همه انواع دادهها و فرمتهای فایل
✅ امکان دسترسی ابزارهای علم داده و یادگیری ماشین
✅ دسترسی سریعتر و دقیقتر تیمهای داده به تنها یک سیستم برای انتقال بارهای کاری
✅ قابلیتهای بلادرنگ برای ابتکارات در علم داده، یادگیری ماشین و تحلیلگری
🔹دیتابریکس (Databricks) یک سرویس آپاچی اسپارک مدیریت شده را ارائه میدهد که به عنوان پلتفرمی برای دریاچههای داده قرار داده میشود. دریاچه داده، delta lake و موتور delta، اجزای معماری databricks lakehouse هستند که کاربردهای هوش کسب و کار، علم داده و یادگیری ماشین و از جمله تکنیکهای هوش مصنوعی مولد مانند LLM را توانمند میسازند.
🔸دریاچه داده یک مخزن ذخیرهسازی ابری عمومی است که از پشتیبانی از مدیریت متادیتا، پردازش داده دستهای و جریانی برای مجموعه دادههای چندساختاری، اکتشاف داده، کنترل دسترسی ایمن و تجزیه و تحلیل SQL بهرهمند میباشد.
🔹دیتابریکس بیشتر کارکردهای انبارداده که از یک پلتفرم lakehouse انتظار میرود را ارائه میدهد. همچنین اخیراً از یک بارگذاری خودکار (auto loader) رونمایی کرده است که ETL و ورود داده را خودکار نموده است و از نمونهگیری از دادهها برای استنتاج اسکیمای انواع مختلف دادهها جهت ارائه اجزای اساسی استراتژی ذخیرهسازی دریاچه داده استفاده مینماید. همچنین کاربران میتوانند پایپلاینهای ETL را میان ساختار ابری دریاچه داده و Delta lake با استفاده از جداول لایو دلتا ایجاد کنند.
❗️هر چند به نظر میرسد این ابزار تمام مزیتهای انبارداده و دریاچه داده را دارد، اما پیادهسازی این راهکار و ایجاد پایپلاینها، نیازمند نیروی انسانی و توسعه دهندگان ماهر است که به ویژه در مقیاس بالاتر پیچیدگیهای بیشتری پیدا مینماید.
#معرفی_ابزار
#دادههای_عظیم
#فاطمه_مظفری
#Data_Lakehouse
#Databricks_Lakehouse_platform
@BigData_BusinessAnalytics
www.bdbanalytics.ir
🖌نوع جدیدی از معماری داده تحت عنوان "data lakehouse" دریاچه داده و انبارداده را ترکیب مینماید تا نقاط ضعفی را که هر یک از آنها به طور مستقل میتوانند داشته باشند، برطرف نماید. پلتفرم lakehouse، مانند دریاچههای داده از ذخیرهسازی کم هزینه برای نگهداری حجم عظیمی از دادهها در فرمت اصلی خود بهره میبرد و افزودن یک لایه متادیتا بر روی محل ذخیرهسازی نیز ساختار داده را فراهم نموده و ابزارهای مدیریت داده را مشابه آنچه در انبارداده وجود دارد امکان پذیر میسازد.
🔹این معماری شامل حجم از عظیمی از دادههای ساختیافته، نیمه ساختیافته و بدون ساختار است که از اپلیکیشنها، سیستمها و دستگاههای مختلفی که در سراسر سازمان مورد استفاده قرار میگیرند، به دست میآیند.
بر خلاف دریاچه داده، پلتفرمهای lakehouse میتوانند دادهها را برای عملکرد SQL مدیریت و بهینهسازی نمایند. همچنین این قابلیت را دارند تا حجم بزرگی از دادههای متنوع را با هزینهای پایینتر از انبارهای داده ذخیرهسازی و پردازش نمایند. این پلتفرمها هنگامی که نیاز به اجرای هر گونه دسترسی به دادهها یا تحلیلگری داریم اما در خصوص دادهها یا تحلیل مورد نظر اطمینان نداریم میتوانند بسیار مفید باشند.
❇️ ویژگیهای data lakehouse عبارتند از:
✅ خواندن و نوشتن همزمان دادهها
✅ سازگاری و مقیاس پذیری
✅ اسکیماهای مورد نیاز توسط ابزارهای حکمرانی داده
✅ ذخیره سازی مقرون به صرفه
✅ پشتیبانی از همه انواع دادهها و فرمتهای فایل
✅ امکان دسترسی ابزارهای علم داده و یادگیری ماشین
✅ دسترسی سریعتر و دقیقتر تیمهای داده به تنها یک سیستم برای انتقال بارهای کاری
✅ قابلیتهای بلادرنگ برای ابتکارات در علم داده، یادگیری ماشین و تحلیلگری
🔹دیتابریکس (Databricks) یک سرویس آپاچی اسپارک مدیریت شده را ارائه میدهد که به عنوان پلتفرمی برای دریاچههای داده قرار داده میشود. دریاچه داده، delta lake و موتور delta، اجزای معماری databricks lakehouse هستند که کاربردهای هوش کسب و کار، علم داده و یادگیری ماشین و از جمله تکنیکهای هوش مصنوعی مولد مانند LLM را توانمند میسازند.
🔸دریاچه داده یک مخزن ذخیرهسازی ابری عمومی است که از پشتیبانی از مدیریت متادیتا، پردازش داده دستهای و جریانی برای مجموعه دادههای چندساختاری، اکتشاف داده، کنترل دسترسی ایمن و تجزیه و تحلیل SQL بهرهمند میباشد.
🔹دیتابریکس بیشتر کارکردهای انبارداده که از یک پلتفرم lakehouse انتظار میرود را ارائه میدهد. همچنین اخیراً از یک بارگذاری خودکار (auto loader) رونمایی کرده است که ETL و ورود داده را خودکار نموده است و از نمونهگیری از دادهها برای استنتاج اسکیمای انواع مختلف دادهها جهت ارائه اجزای اساسی استراتژی ذخیرهسازی دریاچه داده استفاده مینماید. همچنین کاربران میتوانند پایپلاینهای ETL را میان ساختار ابری دریاچه داده و Delta lake با استفاده از جداول لایو دلتا ایجاد کنند.
❗️هر چند به نظر میرسد این ابزار تمام مزیتهای انبارداده و دریاچه داده را دارد، اما پیادهسازی این راهکار و ایجاد پایپلاینها، نیازمند نیروی انسانی و توسعه دهندگان ماهر است که به ویژه در مقیاس بالاتر پیچیدگیهای بیشتری پیدا مینماید.
#معرفی_ابزار
#دادههای_عظیم
#فاطمه_مظفری
#Data_Lakehouse
#Databricks_Lakehouse_platform
@BigData_BusinessAnalytics
www.bdbanalytics.ir
📖 کتاب بخوانیم؛
📌 "Big Data for Big Decisions: Building a Data-Driven Organization"
📍بخش یازدهم: حکمرانی یکپارچه دادهها
🔹 فصل یازدهم کتاب "دادههای عظیم برای تصمیمات بزرگ: ایجاد یک سازمان داده محور،" با عنوان حکمرانی یکپارچه دادهها، به موضوعاتی همچون نیاز به حکمرانی دادهها، نیاز به حکمرانی دادهها در سازمانهای جهانی با پرداختن به دغدغههای ذینفعان، تشخیص حکمرانی ضعیف دادهها، هزینههای حکمرانی ضعیف دادهها، نقشه راه تحولی برای طراحی و نهادینهسازی حکمرانی دادهها، اهمیت کاتالوگ دادهها، تعریف ارزش با اولویت بندی دادهها و ایجاد یک مورد کسب و کاری برای حکمرانی دادهها، برنامهریزی و ایجاد اجزای حکمرانی دادهها و طراحی چارچوب حکمرانی دادههای سازمانی، رشد و تحکیم حکمرانی دادههای نهادینه شده، روندهای نوظهور و حکمرانی دادههای عظیم و در نهایت نقش در حال تحول مدیر ارشد دادهها (CDO) میپردازد.
📍لزوم حکمرانی دادهها
نیاز به حاکمیت داده با 3V دادهها (حجم، سرعت و تنوع) همبستگی بسیار قوی دارد. این سه V معمولاً در شرکتهای چندملیتی B2C با توجه به تعداد اشخاص حقوقی، کشورها، و خطوط تولید کسب و کار که باید تحت پوشش قرار گیرند، بسیار بالاتر از شرکتهای محلی در یک کشور هستند. همچنین این 3V در شرکتهایی که حضور دیجیتالی قوی دارند بسیار بالا بوده و رشد تصاعدی دارند. برای اینکه یک سازمان بتواند مدیریت درستی بر این دادهها داشته باشد نیازمند یک استراتژی کامل فناوری اطلاعات، یک استراتژی کامل داده، و یک ردپای فناوری اطلاعات است که کل وسعت سازمان را پوشش میدهد که میتواند در غیاب یک مدل حکمرانی کامل شکست بخورد.
🔹نقشه راه تحولی برای طراحی و نهادینه سازی حکمرانی دادهها:
حکمرانی دادهها اساساً در مورد تصمیم گیری درباره چگونگی تصمیم گیری است. به بیان دیگر به عنوان بستر تمام تصمیم گیریها در یک سازمان است. اگر سازمانها امیدوارند تصمیمگیری درستی داشته باشند، لزوماً باید مدیریت دادههای خود را درست انجام دهند. رویکردهای متعددی برای طراحی و اجرای برنامه حکمرانی دادههای سازمانی وجود دارد. تعداد قابل توجهی از کارشناسان طرفدار شروع از توسعه یک بیانیه ارزش و ایجاد یک مورد کسب و کاری و نقشه راه هستند. برخی دیگر از شروع با مرحله اکتشاف، به دنبال آن مرحله "طرح و ساخت" و در نهایت مرحله "رشد و نهادینهسازی" حمایت می کنند.
🔸کاتالوگ دادهها و دیکشنری دادهها:
ایجاد کاتالوگ داده و دیکشنری داده باید اولین قدم به عنوان بخشی از مرحله اکتشاف، قبل از اجرای هر راه حل حاکمیت داده باشد. بسیاری از راهحلهای مدیریت کیفیت دادهها، یا راهحلهای حکمرانی داده، ویژگیای برای ایجاد خودکار کاتالوگ دادهها دارند. در حالی که بسیاری از راهحلهای هوش کسب و کار (BI) و پلتفرمهای دادههای عظیم بصری سازی تعاملی از نمودارهای ارتباطات دادهای را ارائه میدهند، اما برخی دیگر از راهحلها نظیر SAP Information Steward، بخشی از راهحل مدیریت داده را ارائه میدهند که میتوانند بسیار قابل توجه باشند.
📍حکمرانی دادهها برای دادههای عظیم: روندهای نوظهور
موسسه مکنزی بر این باور است که هوش مصنوعی این پتانسیل را دارد که تا سال 2030 حدود 13 تریلیون دلار به اقتصاد جهانی از طریق بهبود در بهره وری، محصولات و تجارب مشتری اضافه نماید. از سوی دیگر، هوش مصنوعی میتواند به پیشرانی حکمرانی دادههای عظیم کمک نماید. فناوری یادگیری عمیق میتواند برای خودکارسازی خوشه بندی و دسته بندی دادههای عظیم و تخصیص خودکار تگهای متادیتا، ارزیابی مالکیت داده، حریم خصوصی، ریسک و غیره بسیار موثر باشد.
رشد اهمیت حکمرانی داده برای اقتصاد هوش مصنوعی و مفهوم جدیدی تحت عنوان «data lakehouse» که مزایای انبارداده و دریاچه داده را ترکیب مینماید، از روندهای نوظهور در حوزه حکمرانی دادههای عظیم هستند.
🔸نقش در حال تحول مدیر ارشد داده:
استخدام یک CDO اهمیت فزاینده دادهها را نشان میدهد با این حال عدم شفافیت نقش بین یک CDO و CIO می تواند عواقبی در پی داشته باشد. برخی از سازمانها نیز نقش یک مدیر ارشد دیجیتال را دارند که مسائل را بیش از پیش پیچیده میکند. بنابراین میتوان گفت یک CDO تنها در صورتی میتواند در زمینه حکمرانی داده موفق باشد که سرمایهگذاری کافی در فرآیند، ابزارها و مکانیسم انطباق و همچنین خرید سهامداران وجود داشته باشد.
#کتاب_بخوانیم
#دادههای_عظیم_برای_تصمیمات_بزرگ
#فصل_یازدهم
#حکمرانی_یکپارچه_دادهها
#فاطمه_مظفری
www.bdbanalytics.ir
@BigData_BusinessAnalytics
📌 "Big Data for Big Decisions: Building a Data-Driven Organization"
📍بخش یازدهم: حکمرانی یکپارچه دادهها
🔹 فصل یازدهم کتاب "دادههای عظیم برای تصمیمات بزرگ: ایجاد یک سازمان داده محور،" با عنوان حکمرانی یکپارچه دادهها، به موضوعاتی همچون نیاز به حکمرانی دادهها، نیاز به حکمرانی دادهها در سازمانهای جهانی با پرداختن به دغدغههای ذینفعان، تشخیص حکمرانی ضعیف دادهها، هزینههای حکمرانی ضعیف دادهها، نقشه راه تحولی برای طراحی و نهادینهسازی حکمرانی دادهها، اهمیت کاتالوگ دادهها، تعریف ارزش با اولویت بندی دادهها و ایجاد یک مورد کسب و کاری برای حکمرانی دادهها، برنامهریزی و ایجاد اجزای حکمرانی دادهها و طراحی چارچوب حکمرانی دادههای سازمانی، رشد و تحکیم حکمرانی دادههای نهادینه شده، روندهای نوظهور و حکمرانی دادههای عظیم و در نهایت نقش در حال تحول مدیر ارشد دادهها (CDO) میپردازد.
📍لزوم حکمرانی دادهها
نیاز به حاکمیت داده با 3V دادهها (حجم، سرعت و تنوع) همبستگی بسیار قوی دارد. این سه V معمولاً در شرکتهای چندملیتی B2C با توجه به تعداد اشخاص حقوقی، کشورها، و خطوط تولید کسب و کار که باید تحت پوشش قرار گیرند، بسیار بالاتر از شرکتهای محلی در یک کشور هستند. همچنین این 3V در شرکتهایی که حضور دیجیتالی قوی دارند بسیار بالا بوده و رشد تصاعدی دارند. برای اینکه یک سازمان بتواند مدیریت درستی بر این دادهها داشته باشد نیازمند یک استراتژی کامل فناوری اطلاعات، یک استراتژی کامل داده، و یک ردپای فناوری اطلاعات است که کل وسعت سازمان را پوشش میدهد که میتواند در غیاب یک مدل حکمرانی کامل شکست بخورد.
🔹نقشه راه تحولی برای طراحی و نهادینه سازی حکمرانی دادهها:
حکمرانی دادهها اساساً در مورد تصمیم گیری درباره چگونگی تصمیم گیری است. به بیان دیگر به عنوان بستر تمام تصمیم گیریها در یک سازمان است. اگر سازمانها امیدوارند تصمیمگیری درستی داشته باشند، لزوماً باید مدیریت دادههای خود را درست انجام دهند. رویکردهای متعددی برای طراحی و اجرای برنامه حکمرانی دادههای سازمانی وجود دارد. تعداد قابل توجهی از کارشناسان طرفدار شروع از توسعه یک بیانیه ارزش و ایجاد یک مورد کسب و کاری و نقشه راه هستند. برخی دیگر از شروع با مرحله اکتشاف، به دنبال آن مرحله "طرح و ساخت" و در نهایت مرحله "رشد و نهادینهسازی" حمایت می کنند.
🔸کاتالوگ دادهها و دیکشنری دادهها:
ایجاد کاتالوگ داده و دیکشنری داده باید اولین قدم به عنوان بخشی از مرحله اکتشاف، قبل از اجرای هر راه حل حاکمیت داده باشد. بسیاری از راهحلهای مدیریت کیفیت دادهها، یا راهحلهای حکمرانی داده، ویژگیای برای ایجاد خودکار کاتالوگ دادهها دارند. در حالی که بسیاری از راهحلهای هوش کسب و کار (BI) و پلتفرمهای دادههای عظیم بصری سازی تعاملی از نمودارهای ارتباطات دادهای را ارائه میدهند، اما برخی دیگر از راهحلها نظیر SAP Information Steward، بخشی از راهحل مدیریت داده را ارائه میدهند که میتوانند بسیار قابل توجه باشند.
📍حکمرانی دادهها برای دادههای عظیم: روندهای نوظهور
موسسه مکنزی بر این باور است که هوش مصنوعی این پتانسیل را دارد که تا سال 2030 حدود 13 تریلیون دلار به اقتصاد جهانی از طریق بهبود در بهره وری، محصولات و تجارب مشتری اضافه نماید. از سوی دیگر، هوش مصنوعی میتواند به پیشرانی حکمرانی دادههای عظیم کمک نماید. فناوری یادگیری عمیق میتواند برای خودکارسازی خوشه بندی و دسته بندی دادههای عظیم و تخصیص خودکار تگهای متادیتا، ارزیابی مالکیت داده، حریم خصوصی، ریسک و غیره بسیار موثر باشد.
رشد اهمیت حکمرانی داده برای اقتصاد هوش مصنوعی و مفهوم جدیدی تحت عنوان «data lakehouse» که مزایای انبارداده و دریاچه داده را ترکیب مینماید، از روندهای نوظهور در حوزه حکمرانی دادههای عظیم هستند.
🔸نقش در حال تحول مدیر ارشد داده:
استخدام یک CDO اهمیت فزاینده دادهها را نشان میدهد با این حال عدم شفافیت نقش بین یک CDO و CIO می تواند عواقبی در پی داشته باشد. برخی از سازمانها نیز نقش یک مدیر ارشد دیجیتال را دارند که مسائل را بیش از پیش پیچیده میکند. بنابراین میتوان گفت یک CDO تنها در صورتی میتواند در زمینه حکمرانی داده موفق باشد که سرمایهگذاری کافی در فرآیند، ابزارها و مکانیسم انطباق و همچنین خرید سهامداران وجود داشته باشد.
#کتاب_بخوانیم
#دادههای_عظیم_برای_تصمیمات_بزرگ
#فصل_یازدهم
#حکمرانی_یکپارچه_دادهها
#فاطمه_مظفری
www.bdbanalytics.ir
@BigData_BusinessAnalytics
📚معرفی کتاب "Artificial Intelligence for Business Analytics: Algorithms, Platforms and Application Scenarios"
🔍 عنوان: هوش مصنوعی برای تحلیلگری کسب و کار: الگوریتمها، پلتفرمها و سناریوهای کاربردی
🖋 نویسنده : Felix Weber
📌 این کتاب در سال 2023 و توسط انتشارات Springer انتشار یافته است.
📍بسیاری از تحلیلها در محیط کسب و کار، تحلیل توصیفی است که بر اساس آمار توصیفی محاسباتی از قبیل میانگین، درصد، شمارش، حداکثر، حداقل و محاسبات ساده را ارائه مینماید یا نسخههای فیلتر شده دادهها را خلاصه مینماید. هدف از تجزیه و تحلیل توصیفی این است که به سادگی خلاصه کند و به شما بگوید چه اتفاقی افتاده است: فروش، تعداد مشتریان، درصد کل فروش با مواردی که تبلیغ شدهاند، بازدید از صفحه و غیره.
🔹 تحلیلهای توصیفی میتواند نتایج عملیاتهای ساده ریاضی باشد و امروزه در اکثر شرکتها به انجام میرسد که اغلب به عنوان هوش تجاری از آن یاد میشود. همچنین اصطلاح تجزیه و تحلیل پیشرفته برای توصیف گسترش این گزارشها استفاده میشود. به عنوان مثال، اگر ابتدا از یک فیلتر جغرافیایی برای تجزیه و تحلیل رسانههای اجتماعی استفاده کنید، میتوانید معیارهایی مانند میانگین پست در هفته از آلمان و میانگین پست در هفته از هلند را دریافت کنید و بر روی نقشه نمایش دهید. با این حال، این تحلیل ابتدایی برای مزیت رقابتی نسبت به رقبا کافی نیست. به خصوص اگر ناگهان مجبور شوید با بومیهای دیجیتالی مانند گوگل، آمازون یا علی بابا رقابت کنید. در واقع میتوان گفت در عصر دیجیتالی شدن، این یک چالش واقعی برای بسیاری از صنایع است. این شرکتها نه تنها بر اساس نرمافزار و پلتفرمها، بلکه مهمتر از آن، بر اساس تحلیلهای پیچیده عمل میکنند. به طور مثال اوبر پایگاه داده عظیمی از رانندگان دارد، بنابراین به محض درخواست خودرو، الگوریتم اوبر آماده راه اندازی است و در عرض 15 ثانیه یا کمتر، شما را با راننده نزدیک به شما مطابقت میدهد. در پسزمینه، اوبر دادههای مربوط به هر خودرو را ذخیره میکند - حتی زمانی که راننده مسافر ندارد. همه این دادهها ذخیره شده و برای پیشبینی عرضه و تقاضا، تعیین کرایهها و شناسایی مسائل مرتبط با حمل و نقل شهری استفاده میشود.
📍این کتاب با هدف معرفی جنبه های ضروری تحلیلگری کسب و کار و استفاده از روشهای هوش مصنوعی ارائه شده است. در این راستا ابتدا اصطلاحات و الگوهای فکری اساسی تحلیلگری از تحلیل توصیفی و پیشبینیکننده تا تحلیل تجویزی در بخش «ردهبندی روشها و مدلهای تحلیلی» معرفی شدهاند. به دنبال آن، مدل تحلیلگری کسب و کار برای هوش مصنوعی، یک مدل فرآیندی برای اجرای پروژههای تجزیه و تحلیل کسب و کار در بخش «مدل رویهها: مدل تحلیلگری کسب و کار برای هوش مصنوعی» و یک چارچوب فناوری دنبال میشود که شامل ارائه مهم ترین چارچوبها، زبانهای برنامه نویسی و معماریها میباشد. پس از ارائه مقدمهای بر هوش مصنوعی در فصل 2 و به ویژه زیرشاخه یادگیری ماشین، فصل 3 با عنوان «انواع مسائل در هوش مصنوعی و الگوریتمهای آنها» به مهمترین مسائل و الگوریتمهای قابل اجرا به شیوهای قابل درک میپردازد. در ادامه یک مرور کلی از پلتفرمهای ابری رایج در بخش «تجزیه و تحلیل کسبوکار و یادگیری ماشین به عنوان یک سرویس (پلتفرمهای ابری)» ارائه میشود که اجرای سریع یک پروژه تحلیلگری کسب و کار را امکانپذیر میسازد. در نهایت، چندین سناریوی کاربردی از دیدگاههای مختلف، استفاده احتمالی از AI و BA را در صنایع مختلف به عنوان بخش مطالعات موردی «ساخت یا خرید؟» نشان میدهد.
📍این کتاب به عنوان یک مقدمه و مرور کلی برای تصمیمگیران و متخصصان فناوری اطلاعات و حوزههای کاربردی مرتبط مطرح شده است و در بسیاری از موارد به ادبیات عمیقتری برای مطالعه بیشتر اشاره شده است.
این کتاب را میتوانید از لینک زیر دریافت نمایید.
🔗 https://bdbanalytics.ir/jgao
#معرفی_کتاب
#هوش_مصنوعی
#تحلیلگری_کسب_و_کار
#فاطمه_مظفری
@BigData_BusinessAnalytics
http://www.bdbanalytics.ir
🔍 عنوان: هوش مصنوعی برای تحلیلگری کسب و کار: الگوریتمها، پلتفرمها و سناریوهای کاربردی
🖋 نویسنده : Felix Weber
📌 این کتاب در سال 2023 و توسط انتشارات Springer انتشار یافته است.
📍بسیاری از تحلیلها در محیط کسب و کار، تحلیل توصیفی است که بر اساس آمار توصیفی محاسباتی از قبیل میانگین، درصد، شمارش، حداکثر، حداقل و محاسبات ساده را ارائه مینماید یا نسخههای فیلتر شده دادهها را خلاصه مینماید. هدف از تجزیه و تحلیل توصیفی این است که به سادگی خلاصه کند و به شما بگوید چه اتفاقی افتاده است: فروش، تعداد مشتریان، درصد کل فروش با مواردی که تبلیغ شدهاند، بازدید از صفحه و غیره.
🔹 تحلیلهای توصیفی میتواند نتایج عملیاتهای ساده ریاضی باشد و امروزه در اکثر شرکتها به انجام میرسد که اغلب به عنوان هوش تجاری از آن یاد میشود. همچنین اصطلاح تجزیه و تحلیل پیشرفته برای توصیف گسترش این گزارشها استفاده میشود. به عنوان مثال، اگر ابتدا از یک فیلتر جغرافیایی برای تجزیه و تحلیل رسانههای اجتماعی استفاده کنید، میتوانید معیارهایی مانند میانگین پست در هفته از آلمان و میانگین پست در هفته از هلند را دریافت کنید و بر روی نقشه نمایش دهید. با این حال، این تحلیل ابتدایی برای مزیت رقابتی نسبت به رقبا کافی نیست. به خصوص اگر ناگهان مجبور شوید با بومیهای دیجیتالی مانند گوگل، آمازون یا علی بابا رقابت کنید. در واقع میتوان گفت در عصر دیجیتالی شدن، این یک چالش واقعی برای بسیاری از صنایع است. این شرکتها نه تنها بر اساس نرمافزار و پلتفرمها، بلکه مهمتر از آن، بر اساس تحلیلهای پیچیده عمل میکنند. به طور مثال اوبر پایگاه داده عظیمی از رانندگان دارد، بنابراین به محض درخواست خودرو، الگوریتم اوبر آماده راه اندازی است و در عرض 15 ثانیه یا کمتر، شما را با راننده نزدیک به شما مطابقت میدهد. در پسزمینه، اوبر دادههای مربوط به هر خودرو را ذخیره میکند - حتی زمانی که راننده مسافر ندارد. همه این دادهها ذخیره شده و برای پیشبینی عرضه و تقاضا، تعیین کرایهها و شناسایی مسائل مرتبط با حمل و نقل شهری استفاده میشود.
📍این کتاب با هدف معرفی جنبه های ضروری تحلیلگری کسب و کار و استفاده از روشهای هوش مصنوعی ارائه شده است. در این راستا ابتدا اصطلاحات و الگوهای فکری اساسی تحلیلگری از تحلیل توصیفی و پیشبینیکننده تا تحلیل تجویزی در بخش «ردهبندی روشها و مدلهای تحلیلی» معرفی شدهاند. به دنبال آن، مدل تحلیلگری کسب و کار برای هوش مصنوعی، یک مدل فرآیندی برای اجرای پروژههای تجزیه و تحلیل کسب و کار در بخش «مدل رویهها: مدل تحلیلگری کسب و کار برای هوش مصنوعی» و یک چارچوب فناوری دنبال میشود که شامل ارائه مهم ترین چارچوبها، زبانهای برنامه نویسی و معماریها میباشد. پس از ارائه مقدمهای بر هوش مصنوعی در فصل 2 و به ویژه زیرشاخه یادگیری ماشین، فصل 3 با عنوان «انواع مسائل در هوش مصنوعی و الگوریتمهای آنها» به مهمترین مسائل و الگوریتمهای قابل اجرا به شیوهای قابل درک میپردازد. در ادامه یک مرور کلی از پلتفرمهای ابری رایج در بخش «تجزیه و تحلیل کسبوکار و یادگیری ماشین به عنوان یک سرویس (پلتفرمهای ابری)» ارائه میشود که اجرای سریع یک پروژه تحلیلگری کسب و کار را امکانپذیر میسازد. در نهایت، چندین سناریوی کاربردی از دیدگاههای مختلف، استفاده احتمالی از AI و BA را در صنایع مختلف به عنوان بخش مطالعات موردی «ساخت یا خرید؟» نشان میدهد.
📍این کتاب به عنوان یک مقدمه و مرور کلی برای تصمیمگیران و متخصصان فناوری اطلاعات و حوزههای کاربردی مرتبط مطرح شده است و در بسیاری از موارد به ادبیات عمیقتری برای مطالعه بیشتر اشاره شده است.
این کتاب را میتوانید از لینک زیر دریافت نمایید.
🔗 https://bdbanalytics.ir/jgao
#معرفی_کتاب
#هوش_مصنوعی
#تحلیلگری_کسب_و_کار
#فاطمه_مظفری
@BigData_BusinessAnalytics
http://www.bdbanalytics.ir