یک دریاچه را در نظر بگیرید که آب از رودخانههای مختلف به آن وارد میشود. دریاچه داده نیز به همین صورت است، در واقع یک مخزن بزرگ است که دادههای مختلف از راههای مختلف به آن وارد شده و ذخیره میشوند. همرا ما بمانید تا بیشتر توضیح دهیم که دریاچه اطلاعات چیست.
دریاچه داده چیست؟
دریاچه داده (Data Lake)، نوعی مخزن ذخیره سازی است که میتواند حجم زیادی از دادهها از منابع مختلف را به صورت خام نگهداری کند. این دادهها به صورت ساختار یافته، نیمه ساختار یافته و ساختار نیافته هستند. در واقع دادهها میتوانند در قالبی انعطاف پذیر، برای استفاده در آینده، نگهداری شوند. یک Data Lake در هنگام ذخیره سازی دادهها، برای بازیابی سریعتر، آنها را با شناسهها و برچسبهای فراداده، مرتبط میکند.
به بیان دیگر، دریاچه داده مکانی برای ذخیره سازی هر نوع داده در قالب اصلی و بدون محدودیت است. همچنین، حجم بالایی از دادهها را برای افزایش عملکرد تحلیلی و یکپارچگی آنها ارائه میدهد.
اصطلاح «دریاچه داده» برای اولین بار توسط «جیمز دیکسون» بیان شد. این اصطلاح، بر خلاف دادههای پردازش و ذخیره شده در سیستم انبار داده، به ماهیت موقت دادهها در دریاچه اطلاعات اشاره میکند.
Data Lake معمولا بر روی مجموعهای از سخت افزارهای ارزان قیمت و مقیاس پذیر پیکربندی میشوند. این کار باعث میشود دادهها بدون نگرانی در مورد ظرفیت ذخیره سازی، در دریاچه ریخته شوند.
مزایای دریاچه داده چیست؟
همان طور که گفتیم، دریاچه اطلاعات همانند مخزنی است که اطلاعات از منابع مختلف به آن وارد میشود و افراد میتوانند از این اطلاعات برای موارد مختلف استفاده کنند. خوب است بدانید یک Data Lake حاوی دادههای ساختاری، دادههای غیرساختاری، دادههای ماشین به ماشین (Machine to Machine) و ثبت وقایع پیش آمده در زمان حال است.
یک دریاچه داده بر اساس اصول schema-on-read کار میکند. به این معنی که هیچ برنامه از پیش تعیین شدهای وجود ندارد که دادهها قبل از ذخیره سازی در آن نصب شوند. فقط هنگامی که دادهها در حین پردازش خوانده میشوند، در صورت لزوم، بررسی، تحلیل و تنظیم میشوند. این ویژگی، علاوه بر صرفه جویی در زمان، این امکان را فراهم میکند تا دادهها در هر قالبی ذخیره شوند.
متخصصان علم داده با استفاده از Data Lake ، میتوانند با سرعت بیشتر و دقت بالاتر به دادهها دسترسی پیدا کرده و آنها را تجزیه و تحلیل کنند. این مجموعه گسترده از دادهها، برای کارشناسان تجزیه و تحلیل این امکان را فراهم میکند تا اشتباهات و تقلبها را بررسی کنند.
مفاهیم کلیدی دریاچه داده چیست؟
در ادامه 4 مفهوم مهم و کلیدی دریاچه داده را بیان کردهایم. این مفاهیم عبارتند از:
Ingestion Data
این مفهوم به اتصالات اجازه میدهد تا دادهها را از منابع مختلف داده دریافت کرده و در دریاچه اطلاعات بارگیری کنند. مفهوم Ingestion Data با موارد زیر سر و کار دارد:
انواع مختلف منابع داده مانند پایگاه داده، وب سرورها، ایمیلها، اینترنت اشیا و FTP
استفاده از دادهها به دفعات زیاد مانند مصرف دستهای یا مصرف لحظهای
انواع داده های ساختار یافته، داده های نیمه ساختار یافته و ساختار نیافته
حاکمیت دادهها
این مفهوم برای کنترل در دسترس بودن، قابلیت استفاده، امنیت و یکپارچگی دادههای مورد استفاده در سازمان مورد استفاده قرار میگیرد.
ذخیره اطلاعات
ذخیره داده یک مفهوم مقیاس پذیر است. این مفهوم، با ارائه یک ذخیره سازی به صرفه، دسترسی سریع به اکتشاف داده را امکانپذیر میکند. همچنین مفهوم «ذخیره داده» باید از قالبهای مختلف داده پشتیبانی و حمایت کند.
امنیت
توجه داشته باشید که باید در هر لایه از دریاچه داده «امنیت» اجرا شود. این مفهوم از دسترسی کاربران غیرمجاز جلوگیری میکند. این کار با ذخیره سازی، کشف و مصرف آغاز میشود. مفهوم امنیت با ابزارهای مختلف برای دسترسی آسان به دادهها از GUI (رابط کاربری گرافیکی) و داشبوردها پشتیبانی میکند.
چرا دریاچه داده اهمیت دارد؟
حتما تا الان متوجه شدهاید که هدف اصلی ساخت دریاچه اطلاعات، ارائه دادههای تصفیه نشده به دانشمندان داده است. اما چرا دریاچه داده اهمیت دارد؟
با استفاده از سیستم دریاچه اطلاعات، نیازی به مدل سازی دادهها در یک طرح گسترده در سطح سازمان نداریم.
از یادگیری ماشین و هوش مصنوعی (AI) که با Data Lake در ارتباط هستند، میتوانید برای پیشبینی سود سازمان استفاده کنید.
دریاچه اطلاعات، نوعی مزیت رقابتی به سازمان اجرا کننده ارائه میدهد.
با افزایش حجم دادهها، کیفیت داده، فراداده و تجزیه و تحلیلها نیز افزایش مییابد.
دریاچه اطلاعات یک نگرش کامل و عمیق از مشتری به شما میدهد و تحیلی و بررسی را قویتر میکند.
انبار داده و دریاچه داده چه شباهتی دارند؟
یک Data Lake و یک Data Warehouse از نظر اهداف اساسی تا حدی مشابه هم هستند. از جمله اینکه:
- هر دو مخزنی برای ذخیره سازی اطلاعات و دادههای مختلف در یک سازمان هستند.
- هدف هر دو ایجاد یک «ذخیره داده یک مرحلهای» است که از برنامههای مختلف تغذیه میکند.
- با این وجود ، تفاوت های اساسی بین این دو وجود دارد که آنها را برای سناریوهای مختلف مناسب می کند.
انبار داده و دریاچه داده چه تفاوتی دارند؟
ممکن است دریاچه داده و انبار داده به راحتی با هم اشتباه گرفته شوند. اما لازم است بدانید با وجود مشترکاتی که در بخش قبل به آنها اشاره کردیم، بین این دو تفاوتهای اساسی وجود دارد. در ادامه این تفاوتها را مورد بررسی قرار میدهیم.
- طرح یک انبار داده، قبل از ذخیره سازی، تعریف شده و ساختار پیدا میکند. بنابراین، در یک انبار داده، بیشترین کار برای آماده سازی دادهها، معمولا قبل از پردازش آنها انجام میشود. در صورتی که یک Data Lake ، هیچ طرح از پیش تعیین شدهای ندارد. بنابراین، دادهها را در قالب اصلی خود ذخیره میکند.
- دریاچه داده یک مخزن متمرکز از تمامی دادهها (ساختار یافته و ساختار نیافته) است. همان طور که اشاره کردیم، در یک دریاچه اطلاعات، طرح کلی تعریف نشده و این موضوع امکان انواع دیگری از تحلیلها مانند تحلیلهای کلان داده، جستجوی تمام متن، تحلیلهای همزمان و یادگیری ماشین را فراهم میکند. در صورتی که انبار داده از طرحهای از پیش تعریف شده استفاده میکند.
- از آنجا که دادهها قبل از ذخیره سازی در یک فرم ساده سازماندهی نشدهاند، در اکثر موارد یک دریاچه داده به یک متخصص با درک همه جانبه، دقیق و کامل از انواع مختلف دادهها و روابط میان آنها نیاز دارد تا از طریق آنها، دادهها را مطالعه، بررسی و تحلیل کند. در صورتی که یک انبار داده به دلیل داشتن یک طرح مشخص، واضح و مستند، برای کاربران فناوری و غیرفناوری، را راحتی قابل دسترسی است. تا جایی که حتی یک عضو جدید در تیم هم میتواند به سرعت از انبار داده استفاده کند.
- در طراحی انبار داده، در صورتی که الزامات و قوانین تغییر کند، برای اصلاح آن به منابع قابل توجهی نیاز خواهید داشت. در حالی که دریاچههای داده میتوانند به راحتی با تغییرات سازگار شوند. همچنین، با افزایش نیاز به ظرفیت ذخیره سازی، مقیاس گذاری سرورها روی یک خوشه Data Lake آسانتر است.
سایر تفاوتهای میان دریاچه داده و انبار داده را در قالب جدول زیر بیان میکنیم.
ویژگیها | دریاچه داده | انبار داده |
داده | دادههای رابطهای و غیر رابطهای از دستگاههای IoT، وب سایتها، برنامههای موبایل، برنامههای سازمانی و رسانههای اجتماعی | دادههای رابطهای از سیستمهای تراکنشی، پایگاههای داده عملیاتی و برنامههای تجاری |
طرح | در زمان تهیه تحلیل، طراحی میشود (شمای خواندنی)
تهیه طرح کلی در زمان تجزیه و تحلیل |
پیش از پیادهسازی انبار داده طراحی شده است (شمای نوشتنی)
تهیه طراح کلی قبل از پیاه سازی انبار داده |
هزینه | به دست آوردن سریعترین نتایج کوئری (پرسش و پاسخ) در دیسکهای ارزان | به دست آوردن سریعترین نتایج کوئری (پرسش و پاسخ) در دیسکهای گران قیمت |
کیفیت داده | هر دادهای که قابل گزینش و یا غیرقابل گزینش باشد. | دادههای کاملا گزینش شده که به عنوان نسخه اصلی به حساب میآیند. |
کاربران | دانشمندان علم داده، توسعه دهندگان داده و تحلیل گران تجاری با استفاده از دادههای گزینش شده | دانشمندان علم داده، توسعه دهندگان داده و تحلیل گران تجاری |
روشهای تحلیلی | یادگیری ماشین، تحلیل بر اساس پیش بینی و کشف داده | گزارش دهی دستهای، هوش تجاری و بصری سازی |
و در انتها…
باید بگوئیم، دریاچه داده یک مخزن ذخیره سازی مرکزی است که دادههای زیادی از منابع مختلف را در خود نگهداری میکند. Data Lake نسبت به Data Warehouse دارای ساختار منعطفتر و هزینه ساخت کمتری است. وقتی سازمانها درست نمیدانند که با دادهها قرار است چه کاری انجام دهند، میتوانند اطلاعات خود را در دریاچه اطلاعات ذخیره کنند. سپس در فرصت مناسب با شکل دادن به آنها، دادهها را مورد مطالعه، بررسی و تجزیه و تحلیل قرار دهند.