Big Data Processing in Cloud Computing Environments

‫های‬‫محیط‬ ‫در‬ ‫داده‬‫بزرگ‬ ‫پردازش‬
‫ابری‬ ‫رایانش‬
‫نوذریان‬ ‫فرزاد‬
fnozarian@gmail.com
‫امیرکبیر‬ ‫صنعتی‬ ‫دانشگاه‬
‫اطالعات‬ ‫فناوری‬ ‫و‬ ‫کامپیوتر‬ ‫مهندسی‬ ‫دانشکده‬
10/‫اردیبهشت‬/93
‫ابری‬ ‫رایانش‬ ‫های‬‫محیط‬ ‫در‬ ‫داده‬‫بزرگ‬ ‫پردازش‬
‫نوذریان‬ ‫فرزاد‬
fnozarian@gmail.com
‫امیرکبیر‬ ‫صنعتی‬ ‫دانشگاه‬
‫اطالعات‬ ‫فناوری‬ ‫و‬ ‫کامپیوتر‬ ‫مهندسی‬ ‫دانشکده‬
17/‫شهریور‬/93

‫مطالب‬ ‫فهرست‬
‫‌داده‬‫گ‬‫بزر‬
‫‌داده‬‫گ‬‫اندازه‌بزر‬
‫‌داده‬‫گ‬‫اجزای‌بزر‬
‫‌داده‬‫گ‬‫‌های‌بزر‬‫ی‬‫فناور‬
‫خالصه‬
3

‫است‬ ‫جدیدی‬ ‫نفت‬ ،‫داده‬!
،‫است‬ ‫ارزشمند‬ ‫خام‬ ‫نفت‬ ‫مثل‬ ‫درست‬ ،‫داده‬
‫کرد‬ ‫استفاده‬ ‫توان‬‫نمی‬ ‫آن‬ ‫از‬ ‫نشود‬ ‫تصفیه‬ ‫اگر‬ ‫اما‬.
‫های‬‫فعالیت‬ ‫همواره‬ ‫که‬ ‫ارزش‬ ‫با‬ ‫محصوالت‬ ‫تولید‬ ‫برای‬ ‫باید‬
‫کرد‬ ‫تحلیل‬ ‫را‬ ‫آن‬ ،‫دارد‬ ‫دنبال‬ ‫به‬ ‫را‬ ‫سودآوری‬.
‫مفسر‬‫بازاریابی‬‫مایکل‬‫پالمر‬
Source: http://ana.blogs.com/maestros/2006/11/data_is_the_new.html

‫داده‬‫بزرگ‬‫چیست؟‬
‫داده‬‫بزرگ‬‫به‬‫هایی‬‫داده‬‫گفته‬‫شود‬‫می‬‫که‬‫فرات‬‫ر‬‫از‬
‫توان‬‫پردازشی‬‫های‬‫سیستم‬‫پایگاه‬‫ای‬‫داده‬‫رای‬‫ج‬
‫هستند‬.‫ها‬‫داده‬‫بسیار‬‫بزرگ‬،‫هستند‬‫با‬‫سرع‬‫ت‬
‫زیادی‬‫در‬،‫حرکتند‬‫یا‬‫مناسب‬‫ساختار‬‫معماری‬
‫پایگاه‬‫ی‬‫داده‬‫شما‬‫نیستند‬.‫برای‬‫وری‬‫بهره‬‫از‬
‫ارزش‬‫ها‬‫داده‬‫شما‬‫باید‬‫راه‬‫دیگری‬‫را‬‫برای‬
‫پردازش‬‫ها‬‫آن‬‫انتخاب‬‫کنید‬.
Edd Dumbill, O’Reilly
‫داده‬‫بزرگ‬4

‫حجم‬‫سرعت‬‫تنوع‬
201020152020
0.36ZB
‫حجم‬10.5ZB
2.37ZB
‫تولیدی‬ ‫های‬‫داده‬
‫جهان‬ ‫در‬
‫داده‬‫بزرگ‬/‫حجم‬5

2×14
‫هر‬
‫ماه‬
‫جهان‬ ‫های‬‫داده‬ ‫رشد‬‫سرعت‬‫به‬
‫حال‬ ‫در‬‫افزایش‬‫است‬
‫سرعت‬
‫هر‬14‫ماه‬‫های‬‫داده‬
‫ها‬‫شرکت‬‫برابر‬ ‫دو‬‫شود‬‫می‬
‫داده‬‫بزرگ‬/‫سرعت‬6

‫بالدرنگ‬ ‫تحلیل‬
‫ها‬‫داده‬‫بزرگ‬
8
‫سرعت‬
‫در‬ ‫ها‬‫داده‬
‫دقیقه‬ ‫یک‬
+600‫ویدئو‬
‫یوتیوب‬ ‫در‬
+200‫میلیون‬
‫وجوی‬‫جست‬‫گوگلی‬
+400,000
‫تماس‬ ‫دقیقه‬
‫اسکایپی‬
+400,000
‫توییت‬
+700,000
‫بروزرسانی‬
‫فیسبوکی‬
+7000‫عکس‬
‫در‬‫فلیکر‬
+1500‫پست‬
‫در‬‫ها‬‫بالگ‬
+300,000
‫خرید‬ ‫دالر‬
‫آنالین‬
+3500
‫امنیتی‬ ‫هشدار‬
Source: Industry reporting; CRISIL GR&A analysis
‫داده‬‫بزرگ‬/‫سرعت‬
+200‫میلیون‬
‫ایمیل‬
8

‫جدید‬ ‫های‬‫داده‬
‫منابع‬ ‫از‬ ‫ها‬‫شرکت‬‫متنوعی‬‫شوند‬‫می‬ ‫تولید‬:
50%
‫کارها‬‫جریان‬‫در‬‫ابرها‬
‫انتهای‬ ‫تا‬2014
‫د‬ ‫تجاری‬ ‫تراکنش‬‫ر‬
‫اینترنت‬‫تا‬2020
450
‫میلیار‬‫د‬
‫جدید‬ ‫ایمیل‬‫در‬60‫پیش‬ ‫ثانیه‬
204,166,667
200,000,000
‫گوگلی‬ ‫جوی‬‫و‬‫پرس‬
‫دقیقه‬ ‫هر‬ ‫در‬
100‫میلیون‬
‫جدید‬ ‫تجارت‬
‫سال‬ ‫هر‬ ‫در‬
‫داده‬‫بزرگ‬/‫تنوع‬9

1
‫های‬‫داده‬
‫ساختاریاف‬‫ته‬
‫ساخت‬ ‫شبه‬‫ار‬
‫ساختا‬ ‫بدون‬‫ر‬
Source: Industry reporting; CRISIL GR&A analysis
•‫‌ها،‌گروه‌بندی‌شده‌به‌شکل‌سطری‌و‬‫ه‬‫‌های‌موجود‌در‌پایگاه‌داد‬‫ه‬‫داد‬
‫ستونی‬
•‌ً‫ا‬‫تقریب‬5‌%‫‌های‌موجود‬‫ه‬‫از‌کل‌داد‬
•‫‌های‌ساختار‬‫ه‬‫شکلی‌از‌داد‬‌‫‌های‬‫ل‬‫‌اند‌ولی‌با‌ساختارهای‌رسمی‌مد‬‫ه‬‫یافت‬
‫‌ای‌مطابقت‌ندارند‬‫ه‬‫داد‬.
•‫‌ها‌به‌شکل‌سطری‌و‌ستونی‌ذخیره‌کر‬‫ن‬‫‌توان‌آ‬‫ی‬‫‌هایی‌که‌نم‬‫ه‬‫داد‬‌‫د،‌مثل‬
‫‌ها‬‫ک‬‫‌های‌صوتی،‌ویدئو،‌جریان‌کلی‬‫ل‬‫فای‬
‫داده‬‫بزرگ‬/‫تنوع‬10

‫داده‬‫بزرگ‬
‫است؟‬ ‫بزرگ‬ ‫چقدر‬
‫مخابرات‬ ‫صنعت‬:
‫رکوردهای‬‫تماس‬ ‫جزئیات‬‫ها‬‫تلفن‬‫آمریکا‬ ‫در‬

‫آمریکا‬ ‫در‬ ‫بزرگسال‬ ‫و‬ ‫نوجوان‬
250,000,000
X

10
‫روز‬ ‫هر‬ ‫در‬ ‫تماس‬

2,500,000,000
‫روز‬ ‫هر‬ ‫در‬ ‫تماس‬
X

2K
‫تماس‬ ‫جزئیات‬ ‫رکورد‬ ‫اندازه‬ ‫میانگین‬
5‫اطالعات‬ ‫ترابایت‬

‫در‬ ‫داده‬ ‫مقدار‬ ‫میانگین‬
‫ای‬‫خوشه‬‫با‬100‫گره‬
3200 TB
5‫ترابایت‬/‫رو‬‫ز‬

‫بزرگ‬ ‫علوم‬
‫ِرن‬‫س‬ ‫ذرات‬ ‫دهنده‬‫شتاب‬(LHC)
•‫ثانیه‬ ‫هر‬ ‫در‬40‫از‬ ‫داده‬ ‫بار‬ ‫میلیون‬150‫کند‬‫می‬ ‫تولید‬ ‫حسگر‬ ‫میلیون‬
•ً‫ا‬‫تقریب‬60‫ثانیه‬ ‫هر‬ ‫در‬ ‫برخورد‬ ‫میلیون‬
•‫با‬ ‫کار‬‫حسگرها‬ ‫همه‬
150‫سالیانه‬ ‫نرخ‬ ‫پتابایت‬ ‫میلیون‬
500‫روز‬ ‫هر‬ ‫در‬ ‫اگزابایت‬
•500‫کوینتیلیون‬(1020×5)‫روز‬ ‫هر‬ ‫در‬ ‫بایت‬
ً‫ا‬‫تقریب‬200‫برابر‬
‫ه‬ ‫ترکیب‬ ‫از‬ ‫بیشتر‬‫مه‬
‫جهان‬ ‫در‬ ‫دیگر‬ ‫منابع‬!
•‫با‬ ‫کار‬0.001%‫حسگرها‬ ‫از‬25‫سال‬ ‫در‬ ‫اطالعات‬ ‫پتابایت‬
http://en.wikipedia.org/wiki/Big_data

‫بردار‬‫نقشه‬‫دیجیتال‬ ‫آسمانی‬‫اسلون‬(SDSS)
•‫سال‬ ‫در‬ ‫نجوم‬ ‫تاریخ‬ ‫اطالعات‬ ‫تمام‬ ‫اندازه‬ ‫به‬ ‫رسیدن‬2000
•200‫گیگابایت‬‫شب‬ ‫هر‬ ‫در‬
•‫سال‬ ‫در‬ ‫آن‬ ‫بعدی‬ ‫نسل‬2016-140‫روز‬ ‫پنج‬ ‫هر‬ ‫در‬ ‫ترابایت‬

‫بخش‬‫خصوصی‬
‫داده‬‫بزرگ‬ ‫اندازه‬
•‫شرکت‬eBay.com‫حجم‬ ‫به‬ ‫داده‬ ‫انبار‬ ‫دو‬ ‫از‬7.5‫و‬40‫برای‬ ‫پتابایت‬
‫و‬ ‫جستجو‬‫پیشنهاددهی‬‫به‬‫کنندگان‬‫مصرف‬‫ک‬‫می‬ ‫استفاده‬ ‫تجارت‬ ‫و‬‫ند‬.
•‫والمارت‬‫از‬ ‫بیش‬ ‫ساعت‬ ‫هر‬ ‫در‬1‫این‬ ‫که‬ ‫کند‬‫می‬ ‫اداره‬ ‫را‬ ‫تراکنش‬ ‫میلیون‬
‫ها‬‫تراکنش‬‫از‬ ‫بیش‬ ‫تخمینی‬ ‫حجم‬ ‫به‬ ‫ای‬‫داده‬ ‫پایگاه‬ ‫داخل‬2.5‫پتابایت‬
‫شود‬‫می‬ ‫وارد‬.‫اطالعات‬ ‫از‬ ‫مقدار‬ ‫این‬167‫در‬ ‫که‬ ‫است‬ ‫اطالعاتی‬ ‫برابر‬
‫است‬ ‫موجود‬ ‫آمریکا‬ ‫کنگره‬ ‫کتابخانه‬.
•‫فیسبوک‬‫کم‬‫دست‬50‫از‬ ‫عکس‬ ‫میلیارد‬‫کاربرانش‬‫کند‬‫می‬ ‫اداره‬ ‫را‬.
•FICO‫اعتباری‬ ‫کارت‬ ‫تقلب‬ ‫تشخیص‬ ‫سیستم‬Falcon‫از‬2.1‫میلیارد‬
‫کند‬‫می‬ ‫حفاظت‬ ‫جهان‬ ‫در‬ ‫فعال‬ ‫حساب‬.
19

‫تحل‬ ‫و‬ ‫تجزیه‬‫یل‬
‫استفاده‬ ‫و‬
‫و‬ ‫مدیریت‬
‫داده‬ ‫ذخیره‬
‫بزرگ‬ ‫های‬‫تحلیل‬ ‫و‬ ‫تجزیه‬
‫توسعه‬ ‫تحلیل‬ ‫و‬ ‫تجزیه‬
‫استفاده‬‫داده‬ ‫از‬
‫ها‬‫برنامه‬
BI‫مصورسازی‬ ‫و‬
‫داده‬
‫ساختاریافته‬
‫ساختار‬ ‫بدون‬
‫داده‬‫بزرگ‬ ‫ابزارهای‬
Source: Karmasphere
‫داده‬‫بزرگ‬ ‫اجزای‬(‫نشده‬ ‫تکمیل‬)20

‫ها‬‫سیستم‬ ‫گونه‬ ‫این‬ ‫های‬‫محدودیت‬
‫ای‬‫رابطه‬ ‫داده‬‫پایگاه‬ ‫مدیریت‬ ‫های‬‫سیستم‬(RDBMS)
•
•
•
‫موازی‬ ً‫ا‬‫شدید‬ ‫رایانش‬ ‫های‬‫سیستم‬
(Massively parallel processing)
‫ها‬‫داده‬ ‫انبار‬(Data Warehouse)
‫اجزای‬‫داده‬‫بزرگ‬/‫مدیریت‬21
Source: Karmasphere

‫داد‬‫بزرگ‬ ‫های‬‫فناوری‬ ‫بندی‬‫دسته‬‫ه‬
•‫گرا‬‫ستون‬ ‫های‬‫داده‬‫پایگاه‬
‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬
•‫های‬‫داده‬‫پایگاه‬NoSQL
•‫کاهش‬‫نگاشت‬
22

‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/‫گ‬‫ستون‬ ‫های‬‫داده‬‫پایگاه‬‫را‬
‫داده‬ ‫پایگاه‬ ‫از‬ ‫نوعی‬ ‫گرا‬‫ستون‬ ‫های‬‫داده‬‫پایگاه‬‫ها‬
‫ش‬ ‫می‬ ‫ذخیره‬ ‫ستونی‬ ‫ها‬‫داده‬ ‫آن‬ ‫در‬ ‫که‬ ‫هستند‬‫وند‬.
EmpId Lastname Firstname Salary
10 Smith Joe 40000
12 Jones Mary 50000
11 Johnson Cathy 44000
22 Jones Bob 55000
001:10,Smith,Joe,40000;002:12,Jones,Mary,50000;003:11,
Johnson,Cathy,44000;004:22,Jones,Bob,55000;
Seeks‫ترین‬‫پرهزینه‬‫است‬ ‫ها‬ ‫دیسک‬ ‫هارد‬ ‫در‬ ‫عملیات‬.
‫بین‬ ‫ها‬‫آن‬ ‫حقوق‬ ‫که‬ ‫هایی‬ ‫رکورد‬ ‫تمام‬40000‫و‬50000
23

10:001,12:002,11:003,22:004;Smith:001,Jones:002,
Johnson:003,Jones:004;Joe:001,Mary:002,Cathy:003,B
ob:004;40000:001,50000:002,44000:003,55000:004;
001:40000;002:50000;003:44000;004:55000;
…;Smith:001,Jones:002,004,Johnson:003;…
‫ها‬‫آن‬ ‫خانوادگی‬ ‫نام‬ ‫که‬ ‫افرادی‬ ‫تمام‬ ‫یافتن‬Jones‫است‬
‫‌گذاری‬‫س‬‫اندی‬‌‫بر‌روی‌ستون‬Salary
‫‌های‌جدول‬‫ه‬‫ذخیره‌ستونی‌داد‬
‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/‫گرا‬‫ستون‬ ‫های‬‫داده‬‫پایگاه‬24

Column
Accumulo
Cassandra
Druid
HBase
Document
Clusterpoint
CouchDB
Couchbase
MarkLogic
MongoDB
Key-Value
Dynamo
FoundationDB
MemcachDB
Redis
Graph
Allegro
Neo4J
InfiniteGraph
OrientDB
‫های‬‫داده‬‫پایگاه‬NoSQL‫یا‬Not Only SQL‫سازوکاری‬‫را‬
‫ب‬ ‫آن‬ ‫مدل‬ ‫که‬ ‫طوری‬ ‫به‬ ‫اطالعات‬ ‫بازیابی‬ ‫و‬ ‫ذخیره‬ ‫برای‬‫ا‬
‫ا‬‫رابطه‬ ‫های‬‫داده‬‫پایگاه‬ ‫در‬ ‫استفاده‬ ‫مورد‬ ‫ای‬‫رابطه‬ ‫جداول‬‫ی‬
‫است‬ ‫متفاوت‬.
‫های‬‫فناوری‬‫داده‬‫بزرگ‬/NoSQL25

‫های‬‫الگوریتم‬ ‫اجرای‬ ‫برای‬ ‫چارچوبی‬ ‫کاهش‬‫نگاشت‬
‫عظیم‬ ‫های‬‫داده‬ ‫مجموعه‬ ‫روی‬ ‫بر‬ ‫شده‬‫توزیع‬ ‫و‬ ‫موازی‬
‫است‬ ‫معمولی‬ ‫کامپیوترهای‬ ‫از‬ ‫زیادی‬ ‫تعداد‬ ‫توسط‬.
‫ش‬‫توزیع‬ ‫پردازش‬ ‫از‬ ‫پشتیبانی‬ ‫برای‬‫بر‬ ‫ده‬
‫شده‬‫توزیع‬ ‫بزرگ‬ ‫های‬‫داده‬ ‫مجموعه‬ ‫روی‬
‫سال‬ ‫در‬2004‫توسط‬
‫های‬‫فناوری‬‫داده‬‫بزرگ‬/‫کاهش‬‫نگاشت‬26

Map Shuffle Reduce
‫کاهش‬‫نگاشت‬ ‫از‬ ‫تصویری‬ ‫مثال‬
‫های‬‫فناوری‬‫داده‬‫بزرگ‬/‫کاهش‬‫نگاشت‬27

(K1 , V1) (K2 , V2)‫نگاشت‬
(K2 , V2) ‫مرتب‬ (K2 , }V2, V2 ,…})
(K2 , }V2, V2 ,…}) ‫کاهش‬ (K3 , V3)
‫کاهش‬‫نگاشت‬ ‫کار‬(MapReduce Job)
‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/‫کاهش‬‫نگاشت‬28

‫مهم‬ ‫بسیار‬ ‫های‬‫ویژگی‬
‫کاهش‬‫نگاشت‬
•‫ای‬‫خوشه‬ ‫مدیریت‬ ‫های‬‫پیچیدگی‬‫در‬‫های‬‫ماشین‬
‫را‬ ‫ها‬‫گره‬ ‫بین‬ ‫کار‬ ‫اجرای‬ ‫هماهنگی‬ ‫و‬ ‫بزرگ‬ ‫شده‬‫توزیع‬
‫دارد‬‫می‬ ‫نگه‬ ‫مخفی‬ ‫کامل‬ ‫طور‬‫به‬.
•‫است‬ ‫آسان‬ ‫بسیار‬ ‫آن‬ ‫نویسی‬‫برنامه‬ ‫توسعه‬ ‫مدل‬‫؛‬
‫توابع‬ ‫نوشتن‬ ‫مسئول‬ ‫تنها‬ ‫دهنده‬ ‫توسعه‬ ‫زیرا‬
‫است‬ ‫کاهش‬ ‫و‬ ‫نگاشت‬.
‫آن‬ ‫ی‬‫وظیفه‬‫فراهم‬
‫کلی‬ ‫هماهنگی‬ ‫آوردن‬
‫عملیات‬ ‫اجرای‬ ‫برای‬
•‫های‬‫ماشین‬ ‫انتخاب‬(‫ها‬‫گره‬)‫نگاشتگ‬ ‫اجرای‬ ‫برای‬ ‫مناسب‬‫رها‬
•‫نگاشتگرها‬ ‫اجرای‬ ‫بر‬ ‫نظارت‬ ‫و‬ ‫اندازی‬‫راه‬
•‫کاهشگرها‬ ‫اجرای‬ ‫برای‬ ‫مناسب‬ ‫موقعیت‬ ‫انتخاب‬
•‫تحویل‬ ‫و‬ ‫نگاشتگرها‬ ‫خروجی‬ ‫کردن‬ ‫مخلوط‬ ‫و‬ ‫مرتب‬
‫به‬ ‫خروجی‬‫کاهشگرها‬
•‫کاهشگرها‬ ‫اجرای‬ ‫بر‬ ‫نظارت‬ ‫و‬ ‫اندازی‬‫راه‬

‫های‬‫فناوری‬‫داده‬‫بزرگ‬/Hadoop
‫و‬ ‫ذخیره‬ ‫برای‬ ‫باز‬‫متن‬ ‫افزاری‬‫نرم‬ ‫چارچوب‬ ‫یک‬
‫پردازش‬‫های‬‫داده‬‫مجموعه‬‫روی‬ ‫بر‬ ‫بزرگ‬‫ای‬‫خوشه‬
‫از‬‫افزارهای‬‫سخت‬‫است‬ ‫معمولی‬ ‫و‬ ‫رایج‬.
31

‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/Hadoop
2002
•‫سال‬ ‫در‬2002‫که‬‫درحالی‬Doug Cutting‫و‬Mike Cafarella‫ای‬‫پروژه‬ ‫روی‬ ‫بر‬
‫نام‬ ‫به‬Nutch‫زیا‬ ‫مقدار‬ ‫پردازش‬ ‫برای‬ ‫را‬ ‫حلی‬‫راه‬ ‫تا‬ ‫کردند‬‫می‬ ‫تالش‬ ‫کردند‬‫می‬ ‫کار‬‫دی‬
‫کنند‬ ‫پیدا‬ ‫اطالعات‬ ‫از‬.
2004
•‫گوگل‬ ‫سیستم‬ ‫فایل‬ ‫مورد‬ ‫در‬ ‫ای‬‫مقاله‬ ‫گوگل‬(GFS)‫و‬ ‫الگوریتم‬ ‫که‬ ،‫کاهش‬‫نگاشت‬ ‫و‬
‫ارائ‬ ‫بود‬ ‫بزرگ‬ ‫های‬‫داده‬ ‫مجموعه‬ ‫پردازش‬ ‫برای‬ ‫ای‬‫شده‬‫توزیع‬ ‫نویسی‬‫برنامه‬ ‫بستر‬‫داد‬ ‫ه‬.
2006
•‫سال‬ ‫در‬2006‫د‬ ‫داده‬‫بزرگ‬ ‫های‬‫چالش‬ ‫با‬ ‫کردن‬ ‫نرم‬ ‫وپنجه‬‫دست‬ ‫از‬ ‫بعد‬ ‫یاهو‬ ‫شرکت‬ ،‫ر‬
‫پس‬ ‫و‬ ‫خود‬ ‫جستجوی‬ ‫موتور‬ ‫اطالعات‬ ‫از‬ ‫زیادی‬ ‫مقدار‬ ‫روی‬ ‫بر‬ ‫گذاری‬‫اندیس‬ ‫با‬ ‫رابطه‬
‫پروژه‬ ‫های‬‫پیشرفت‬ ‫مشاهده‬ ‫از‬Nutch،Doug Cutting‫کرد‬ ‫استخدام‬ ‫را‬.
‫تاریخچه‬
32

‫ها‬‫ویژگی‬
‫دیگر‬ ‫از‬ ‫هادوپ‬
‫شده‬‫توزیع‬ ‫رویکردهای‬
‫متفاوت‬ ‫مورد‬ ‫چند‬ ‫در‬
‫است‬
‫ها‬‫داده‬‫طور‬‫به‬‫پیشرفته‬‫توزیع‬‫شوند؛‬‫می‬
‫ها‬‫داده‬‫برای‬‫برقراری‬‫قابلیت‬‫اطمینان‬‫و‬‫دستر‬‫سی‬
‫در‬‫تمام‬‫خوشه‬‫تکرار‬‫شوند؛‬‫می‬
‫پردازش‬‫ها‬‫داده‬‫جایی‬‫اتفاق‬‫افتد‬‫می‬‫که‬‫ها‬‫داده‬
‫قرار‬‫دارند؛‬‫بنابراین‬‫گلوگاه‬‫شدن‬‫پهنای‬‫بان‬‫د‬‫از‬
‫بین‬‫رود‬‫می‬.
33

‫هادوپ‬ ‫های‬‫ویژگی‬
‫سازی‬‫ذخیره‬‫مقدار‬‫عظیمی‬‫از‬‫ها‬‫داده‬
‫پردازش‬‫شده‬‫توزیع‬‫با‬‫دسترسی‬‫سریع‬‫به‬‫داد‬‫ها‬‫ه‬
‫قابلیت‬،‫اطمینان‬failover‫و‬‫پذیری‬‫مقیاس‬
‫جداسازی‬ ‫هادوپ‬ ‫ویژگی‬ ‫ترین‬‫مهم‬
‫شفاف‬‫نویسی‬‫برنامه‬ ‫منطق‬ ‫بین‬‫و‬
‫است‬ ‫تجهیزات‬ ‫پشتیبانی‬.
34

‫هادوپ‬ ‫های‬‫ویژگی‬
‫سازی‬‫ذخیره‬‫مقدار‬‫عظیمی‬‫از‬‫ها‬‫داده‬
‫پردازش‬‫شده‬‫توزیع‬‫با‬‫دسترسی‬‫سریع‬‫به‬‫داد‬‫ها‬‫ه‬
‫قابلیت‬،‫اطمینان‬failover‫و‬‫پذیری‬‫مقیاس‬
35

‫معماری‬
36

‫اجزای‬‫داده‬‫بزرگ‬(‫کامل‬)37

• http://consumer.media.seagate.com/2012/06/the-digital-den/how-much-
data-is-generated-in-a-minute/
• http://www.moyak.com/papers/business-startups-entrepreneurs.html
• http://visual.ly/how-big-big-data
• http://visual.ly/forces-disrupting-network
• http://knowwpcarey.com/article.cfm?cid=25&aid=1171
• http://www.csc.com/insights/flxwd/78931-
big_data_growth_just_beginning_to_explode
• http://visual.ly/data-overload-how-will-we-deal-650-enterprise-data-growth
• http://sites.amd.com/us/Documents/IDC_AMD_Big_Data_Whitepaper.pdf
‫منابع‬38

Big Data Processing in Cloud Computing Environments

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (19)

En vedette

En vedette (6)

Similaire à Big Data Processing in Cloud Computing Environments

Similaire à Big Data Processing in Cloud Computing Environments (20)

Plus de Farzad Nozarian

Plus de Farzad Nozarian (14)

Big Data Processing in Cloud Computing Environments

Notes de l'éditeur