SlideShare une entreprise Scribd logo
1  sur  39
‫های‬‫محیط‬ ‫در‬ ‫داده‬‫بزرگ‬ ‫پردازش‬
‫ابری‬ ‫رایانش‬
‫نوذریان‬ ‫فرزاد‬
fnozarian@gmail.com
‫امیرکبیر‬ ‫صنعتی‬ ‫دانشگاه‬
‫اطالعات‬ ‫فناوری‬ ‫و‬ ‫کامپیوتر‬ ‫مهندسی‬ ‫دانشکده‬
10/‫اردیبهشت‬/93
‫ابری‬ ‫رایانش‬ ‫های‬‫محیط‬ ‫در‬ ‫داده‬‫بزرگ‬ ‫پردازش‬
‫نوذریان‬ ‫فرزاد‬
fnozarian@gmail.com
‫امیرکبیر‬ ‫صنعتی‬ ‫دانشگاه‬
‫اطالعات‬ ‫فناوری‬ ‫و‬ ‫کامپیوتر‬ ‫مهندسی‬ ‫دانشکده‬
17/‫شهریور‬/93
‫مطالب‬ ‫فهرست‬
‫‌داده‬‫گ‬‫بزر‬
‫‌داده‬‫گ‬‫اندازه‌بزر‬
‫‌داده‬‫گ‬‫اجزای‌بزر‬
‫‌داده‬‫گ‬‫‌های‌بزر‬‫ی‬‫فناور‬
‫خالصه‬
3
‫است‬ ‫جدیدی‬ ‫نفت‬ ،‫داده‬!
،‫است‬ ‫ارزشمند‬ ‫خام‬ ‫نفت‬ ‫مثل‬ ‫درست‬ ،‫داده‬
‫کرد‬ ‫استفاده‬ ‫توان‬‫نمی‬ ‫آن‬ ‫از‬ ‫نشود‬ ‫تصفیه‬ ‫اگر‬ ‫اما‬.
‫های‬‫فعالیت‬ ‫همواره‬ ‫که‬ ‫ارزش‬ ‫با‬ ‫محصوالت‬ ‫تولید‬ ‫برای‬ ‫باید‬
‫کرد‬ ‫تحلیل‬ ‫را‬ ‫آن‬ ،‫دارد‬ ‫دنبال‬ ‫به‬ ‫را‬ ‫سودآوری‬.
‫مفسر‬‫بازاریابی‬‫مایکل‬‫پالمر‬
Source: http://ana.blogs.com/maestros/2006/11/data_is_the_new.html
‫داده‬‫بزرگ‬‫چیست؟‬
‫داده‬‫بزرگ‬‫به‬‫هایی‬‫داده‬‫گفته‬‫شود‬‫می‬‫که‬‫فرات‬‫ر‬‫از‬
‫توان‬‫پردازشی‬‫های‬‫سیستم‬‫پایگاه‬‫ای‬‫داده‬‫رای‬‫ج‬
‫هستند‬.‫ها‬‫داده‬‫بسیار‬‫بزرگ‬،‫هستند‬‫با‬‫سرع‬‫ت‬
‫زیادی‬‫در‬،‫حرکتند‬‫یا‬‫مناسب‬‫ساختار‬‫معماری‬
‫پایگاه‬‫ی‬‫داده‬‫شما‬‫نیستند‬.‫برای‬‫وری‬‫بهره‬‫از‬
‫ارزش‬‫ها‬‫داده‬‫شما‬‫باید‬‫راه‬‫دیگری‬‫را‬‫برای‬
‫پردازش‬‫ها‬‫آن‬‫انتخاب‬‫کنید‬.
Edd Dumbill, O’Reilly
‫داده‬‫بزرگ‬4
‫حجم‬‫سرعت‬‫تنوع‬
201020152020
0.36ZB
‫حجم‬10.5ZB
2.37ZB
‫تولیدی‬ ‫های‬‫داده‬
‫جهان‬ ‫در‬
‫داده‬‫بزرگ‬/‫حجم‬5
‫حجم‬‫سرعت‬‫تنوع‬
2×14
‫هر‬
‫ماه‬
‫جهان‬ ‫های‬‫داده‬ ‫رشد‬‫سرعت‬‫به‬
‫حال‬ ‫در‬‫افزایش‬‫است‬
‫سرعت‬
‫هر‬14‫ماه‬‫های‬‫داده‬
‫ها‬‫شرکت‬‫برابر‬ ‫دو‬‫شود‬‫می‬
‫داده‬‫بزرگ‬/‫سرعت‬6
‫بالدرنگ‬ ‫تحلیل‬
‫ها‬‫داده‬‫بزرگ‬
8
‫سرعت‬
‫در‬ ‫ها‬‫داده‬
‫دقیقه‬ ‫یک‬
+600‫ویدئو‬
‫یوتیوب‬ ‫در‬
+200‫میلیون‬
‫وجوی‬‫جست‬‫گوگلی‬
+400,000
‫تماس‬ ‫دقیقه‬
‫اسکایپی‬
+400,000
‫توییت‬
+700,000
‫بروزرسانی‬
‫فیسبوکی‬
+7000‫عکس‬
‫در‬‫فلیکر‬
+1500‫پست‬
‫در‬‫ها‬‫بالگ‬
+300,000
‫خرید‬ ‫دالر‬
‫آنالین‬
+3500
‫امنیتی‬ ‫هشدار‬
Source: Industry reporting; CRISIL GR&A analysis
‫داده‬‫بزرگ‬/‫سرعت‬
+200‫میلیون‬
‫ایمیل‬
8
‫حجم‬‫سرعت‬‫تنوع‬
‫جدید‬ ‫های‬‫داده‬
‫منابع‬ ‫از‬ ‫ها‬‫شرکت‬‫متنوعی‬‫شوند‬‫می‬ ‫تولید‬:
50%
‫کارها‬‫جریان‬‫در‬‫ابرها‬
‫انتهای‬ ‫تا‬2014
‫د‬ ‫تجاری‬ ‫تراکنش‬‫ر‬
‫اینترنت‬‫تا‬2020
450
‫میلیار‬‫د‬
‫جدید‬ ‫ایمیل‬‫در‬60‫پیش‬ ‫ثانیه‬
204,166,667
200,000,000
‫گوگلی‬ ‫جوی‬‫و‬‫پرس‬
‫دقیقه‬ ‫هر‬ ‫در‬
100‫میلیون‬
‫جدید‬ ‫تجارت‬
‫سال‬ ‫هر‬ ‫در‬
‫داده‬‫بزرگ‬/‫تنوع‬9
1
‫های‬‫داده‬
‫ساختاریاف‬‫ته‬
‫های‬‫داده‬
‫ساخت‬ ‫شبه‬‫ار‬
‫های‬‫داده‬
‫ساختا‬ ‫بدون‬‫ر‬
Source: Industry reporting; CRISIL GR&A analysis
•‫‌ها،‌گروه‌بندی‌شده‌به‌شکل‌سطری‌و‬‫ه‬‫‌های‌موجود‌در‌پایگاه‌داد‬‫ه‬‫داد‬
‫ستونی‬
•‌ً‫ا‬‫تقریب‬5‌%‫‌های‌موجود‬‫ه‬‫از‌کل‌داد‬
•‫‌های‌ساختار‬‫ه‬‫شکلی‌از‌داد‬‌‫‌های‬‫ل‬‫‌اند‌ولی‌با‌ساختارهای‌رسمی‌مد‬‫ه‬‫یافت‬
‫‌ای‌مطابقت‌ندارند‬‫ه‬‫داد‬.
•‌ً‫ا‬‫تقریب‬10‌%‫‌های‌موجود‬‫ه‬‫از‌کل‌داد‬
•‫‌ها‌به‌شکل‌سطری‌و‌ستونی‌ذخیره‌کر‬‫ن‬‫‌توان‌آ‬‫ی‬‫‌هایی‌که‌نم‬‫ه‬‫داد‬‌‫د،‌مثل‬
‫‌ها‬‫ک‬‫‌های‌صوتی،‌ویدئو،‌جریان‌کلی‬‫ل‬‫فای‬
•‌ً‫ا‬‫تقریب‬80‌%‫‌های‌موجود‬‫ه‬‫از‌کل‌داد‬
‫داده‬‫بزرگ‬/‫تنوع‬10
‫داده‬‫بزرگ‬
‫است؟‬ ‫بزرگ‬ ‫چقدر‬
‫مخابرات‬ ‫صنعت‬:
‫رکوردهای‬‫تماس‬ ‫جزئیات‬‫ها‬‫تلفن‬‫آمریکا‬ ‫در‬
‫آمریکا‬ ‫در‬ ‫بزرگسال‬ ‫و‬ ‫نوجوان‬
250,000,000
X
10
‫روز‬ ‫هر‬ ‫در‬ ‫تماس‬
2,500,000,000
‫روز‬ ‫هر‬ ‫در‬ ‫تماس‬
X
2K
‫تماس‬ ‫جزئیات‬ ‫رکورد‬ ‫اندازه‬ ‫میانگین‬
5‫اطالعات‬ ‫ترابایت‬
‫در‬ ‫داده‬ ‫مقدار‬ ‫میانگین‬
‫ای‬‫خوشه‬‫با‬100‫گره‬
3200 TB
5‫ترابایت‬/‫رو‬‫ز‬
‫بزرگ‬ ‫علوم‬
‫ِرن‬‫س‬ ‫ذرات‬ ‫دهنده‬‫شتاب‬(LHC)
•‫ثانیه‬ ‫هر‬ ‫در‬40‫از‬ ‫داده‬ ‫بار‬ ‫میلیون‬150‫کند‬‫می‬ ‫تولید‬ ‫حسگر‬ ‫میلیون‬
•ً‫ا‬‫تقریب‬60‫ثانیه‬ ‫هر‬ ‫در‬ ‫برخورد‬ ‫میلیون‬
•‫با‬ ‫کار‬‫حسگرها‬ ‫همه‬
150‫سالیانه‬ ‫نرخ‬ ‫پتابایت‬ ‫میلیون‬
500‫روز‬ ‫هر‬ ‫در‬ ‫اگزابایت‬
•500‫کوینتیلیون‬(1020×5)‫روز‬ ‫هر‬ ‫در‬ ‫بایت‬
ً‫ا‬‫تقریب‬200‫برابر‬
‫ه‬ ‫ترکیب‬ ‫از‬ ‫بیشتر‬‫مه‬
‫جهان‬ ‫در‬ ‫دیگر‬ ‫منابع‬!
•‫با‬ ‫کار‬0.001%‫حسگرها‬ ‫از‬25‫سال‬ ‫در‬ ‫اطالعات‬ ‫پتابایت‬
http://en.wikipedia.org/wiki/Big_data
‫بردار‬‫نقشه‬‫دیجیتال‬ ‫آسمانی‬‫اسلون‬(SDSS)
•‫سال‬ ‫در‬ ‫نجوم‬ ‫تاریخ‬ ‫اطالعات‬ ‫تمام‬ ‫اندازه‬ ‫به‬ ‫رسیدن‬2000
•200‫گیگابایت‬‫شب‬ ‫هر‬ ‫در‬
•‫سال‬ ‫در‬ ‫آن‬ ‫بعدی‬ ‫نسل‬2016-140‫روز‬ ‫پنج‬ ‫هر‬ ‫در‬ ‫ترابایت‬
http://en.wikipedia.org/wiki/Big_data
‫بخش‬‫خصوصی‬
‫داده‬‫بزرگ‬ ‫اندازه‬
•‫شرکت‬eBay.com‫حجم‬ ‫به‬ ‫داده‬ ‫انبار‬ ‫دو‬ ‫از‬7.5‫و‬40‫برای‬ ‫پتابایت‬
‫و‬ ‫جستجو‬‫پیشنهاددهی‬‫به‬‫کنندگان‬‫مصرف‬‫ک‬‫می‬ ‫استفاده‬ ‫تجارت‬ ‫و‬‫ند‬.
•‫والمارت‬‫از‬ ‫بیش‬ ‫ساعت‬ ‫هر‬ ‫در‬1‫این‬ ‫که‬ ‫کند‬‫می‬ ‫اداره‬ ‫را‬ ‫تراکنش‬ ‫میلیون‬
‫ها‬‫تراکنش‬‫از‬ ‫بیش‬ ‫تخمینی‬ ‫حجم‬ ‫به‬ ‫ای‬‫داده‬ ‫پایگاه‬ ‫داخل‬2.5‫پتابایت‬
‫شود‬‫می‬ ‫وارد‬.‫اطالعات‬ ‫از‬ ‫مقدار‬ ‫این‬167‫در‬ ‫که‬ ‫است‬ ‫اطالعاتی‬ ‫برابر‬
‫است‬ ‫موجود‬ ‫آمریکا‬ ‫کنگره‬ ‫کتابخانه‬.
•‫فیسبوک‬‫کم‬‫دست‬50‫از‬ ‫عکس‬ ‫میلیارد‬‫کاربرانش‬‫کند‬‫می‬ ‫اداره‬ ‫را‬.
•FICO‫اعتباری‬ ‫کارت‬ ‫تقلب‬ ‫تشخیص‬ ‫سیستم‬Falcon‫از‬2.1‫میلیارد‬
‫کند‬‫می‬ ‫حفاظت‬ ‫جهان‬ ‫در‬ ‫فعال‬ ‫حساب‬.
19
http://en.wikipedia.org/wiki/Big_data
‫تحل‬ ‫و‬ ‫تجزیه‬‫یل‬
‫استفاده‬ ‫و‬
‫و‬ ‫مدیریت‬
‫داده‬ ‫ذخیره‬
‫بزرگ‬ ‫های‬‫تحلیل‬ ‫و‬ ‫تجزیه‬
‫توسعه‬ ‫تحلیل‬ ‫و‬ ‫تجزیه‬
‫استفاده‬‫داده‬ ‫از‬
‫ها‬‫برنامه‬
BI‫مصورسازی‬ ‫و‬
‫داده‬
‫ساختاریافته‬
‫ساختار‬ ‫بدون‬
‫داده‬‫بزرگ‬ ‫ابزارهای‬
Source: Karmasphere
‫داده‬‫بزرگ‬ ‫اجزای‬(‫نشده‬ ‫تکمیل‬)20
‫ها‬‫سیستم‬ ‫گونه‬ ‫این‬ ‫های‬‫محدودیت‬
‫ای‬‫رابطه‬ ‫داده‬‫پایگاه‬ ‫مدیریت‬ ‫های‬‫سیستم‬(RDBMS)
•
•
•
‫موازی‬ ً‫ا‬‫شدید‬ ‫رایانش‬ ‫های‬‫سیستم‬
(Massively parallel processing)
‫ها‬‫داده‬ ‫انبار‬(Data Warehouse)
‫اجزای‬‫داده‬‫بزرگ‬/‫مدیریت‬21
Source: Karmasphere
‫داد‬‫بزرگ‬ ‫های‬‫فناوری‬ ‫بندی‬‫دسته‬‫ه‬
•‫گرا‬‫ستون‬ ‫های‬‫داده‬‫پایگاه‬
‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬
•‫های‬‫داده‬‫پایگاه‬NoSQL
•‫کاهش‬‫نگاشت‬
22
‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/‫گ‬‫ستون‬ ‫های‬‫داده‬‫پایگاه‬‫را‬
‫داده‬ ‫پایگاه‬ ‫از‬ ‫نوعی‬ ‫گرا‬‫ستون‬ ‫های‬‫داده‬‫پایگاه‬‫ها‬
‫ش‬ ‫می‬ ‫ذخیره‬ ‫ستونی‬ ‫ها‬‫داده‬ ‫آن‬ ‫در‬ ‫که‬ ‫هستند‬‫وند‬.
EmpId Lastname Firstname Salary
10 Smith Joe 40000
12 Jones Mary 50000
11 Johnson Cathy 44000
22 Jones Bob 55000
001:10,Smith,Joe,40000;002:12,Jones,Mary,50000;003:11,
Johnson,Cathy,44000;004:22,Jones,Bob,55000;
Seeks‫ترین‬‫پرهزینه‬‫است‬ ‫ها‬ ‫دیسک‬ ‫هارد‬ ‫در‬ ‫عملیات‬.
‫بین‬ ‫ها‬‫آن‬ ‫حقوق‬ ‫که‬ ‫هایی‬ ‫رکورد‬ ‫تمام‬40000‫و‬50000
23
10:001,12:002,11:003,22:004;Smith:001,Jones:002,
Johnson:003,Jones:004;Joe:001,Mary:002,Cathy:003,B
ob:004;40000:001,50000:002,44000:003,55000:004;
001:40000;002:50000;003:44000;004:55000;
…;Smith:001,Jones:002,004,Johnson:003;…
‫ها‬‫آن‬ ‫خانوادگی‬ ‫نام‬ ‫که‬ ‫افرادی‬ ‫تمام‬ ‫یافتن‬Jones‫است‬
‫‌گذاری‬‫س‬‫اندی‬‌‫بر‌روی‌ستون‬Salary
‫‌های‌جدول‬‫ه‬‫ذخیره‌ستونی‌داد‬
‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/‫گرا‬‫ستون‬ ‫های‬‫داده‬‫پایگاه‬24
Column
Accumulo
Cassandra
Druid
HBase
Document
Clusterpoint
CouchDB
Couchbase
MarkLogic
MongoDB
Key-Value
Dynamo
FoundationDB
MemcachDB
Redis
Graph
Allegro
Neo4J
InfiniteGraph
OrientDB
‫های‬‫داده‬‫پایگاه‬NoSQL‫یا‬Not Only SQL‫سازوکاری‬‫را‬
‫ب‬ ‫آن‬ ‫مدل‬ ‫که‬ ‫طوری‬ ‫به‬ ‫اطالعات‬ ‫بازیابی‬ ‫و‬ ‫ذخیره‬ ‫برای‬‫ا‬
‫ا‬‫رابطه‬ ‫های‬‫داده‬‫پایگاه‬ ‫در‬ ‫استفاده‬ ‫مورد‬ ‫ای‬‫رابطه‬ ‫جداول‬‫ی‬
‫است‬ ‫متفاوت‬.
‫های‬‫فناوری‬‫داده‬‫بزرگ‬/NoSQL25
‫های‬‫الگوریتم‬ ‫اجرای‬ ‫برای‬ ‫چارچوبی‬ ‫کاهش‬‫نگاشت‬
‫عظیم‬ ‫های‬‫داده‬ ‫مجموعه‬ ‫روی‬ ‫بر‬ ‫شده‬‫توزیع‬ ‫و‬ ‫موازی‬
‫است‬ ‫معمولی‬ ‫کامپیوترهای‬ ‫از‬ ‫زیادی‬ ‫تعداد‬ ‫توسط‬.
‫ش‬‫توزیع‬ ‫پردازش‬ ‫از‬ ‫پشتیبانی‬ ‫برای‬‫بر‬ ‫ده‬
‫شده‬‫توزیع‬ ‫بزرگ‬ ‫های‬‫داده‬ ‫مجموعه‬ ‫روی‬
‫سال‬ ‫در‬2004‫توسط‬
‫های‬‫فناوری‬‫داده‬‫بزرگ‬/‫کاهش‬‫نگاشت‬26
Map Shuffle Reduce
‫کاهش‬‫نگاشت‬ ‫از‬ ‫تصویری‬ ‫مثال‬
‫های‬‫فناوری‬‫داده‬‫بزرگ‬/‫کاهش‬‫نگاشت‬27
(K1 , V1) (K2 , V2)‫نگاشت‬
(K2 , V2) ‫مرتب‬ (K2 , }V2, V2 ,…})
(K2 , }V2, V2 ,…}) ‫کاهش‬ (K3 , V3)
‫کاهش‬‫نگاشت‬ ‫کار‬(MapReduce Job)
‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/‫کاهش‬‫نگاشت‬28
‫مهم‬ ‫بسیار‬ ‫های‬‫ویژگی‬
‫کاهش‬‫نگاشت‬
•‫ای‬‫خوشه‬ ‫مدیریت‬ ‫های‬‫پیچیدگی‬‫در‬‫های‬‫ماشین‬
‫را‬ ‫ها‬‫گره‬ ‫بین‬ ‫کار‬ ‫اجرای‬ ‫هماهنگی‬ ‫و‬ ‫بزرگ‬ ‫شده‬‫توزیع‬
‫دارد‬‫می‬ ‫نگه‬ ‫مخفی‬ ‫کامل‬ ‫طور‬‫به‬.
•‫است‬ ‫آسان‬ ‫بسیار‬ ‫آن‬ ‫نویسی‬‫برنامه‬ ‫توسعه‬ ‫مدل‬‫؛‬
‫توابع‬ ‫نوشتن‬ ‫مسئول‬ ‫تنها‬ ‫دهنده‬ ‫توسعه‬ ‫زیرا‬
‫است‬ ‫کاهش‬ ‫و‬ ‫نگاشت‬.
‫آن‬ ‫ی‬‫وظیفه‬‫فراهم‬
‫کلی‬ ‫هماهنگی‬ ‫آوردن‬
‫عملیات‬ ‫اجرای‬ ‫برای‬
•‫های‬‫ماشین‬ ‫انتخاب‬(‫ها‬‫گره‬)‫نگاشتگ‬ ‫اجرای‬ ‫برای‬ ‫مناسب‬‫رها‬
•‫نگاشتگرها‬ ‫اجرای‬ ‫بر‬ ‫نظارت‬ ‫و‬ ‫اندازی‬‫راه‬
•‫کاهشگرها‬ ‫اجرای‬ ‫برای‬ ‫مناسب‬ ‫موقعیت‬ ‫انتخاب‬
•‫تحویل‬ ‫و‬ ‫نگاشتگرها‬ ‫خروجی‬ ‫کردن‬ ‫مخلوط‬ ‫و‬ ‫مرتب‬
‫به‬ ‫خروجی‬‫کاهشگرها‬
•‫کاهشگرها‬ ‫اجرای‬ ‫بر‬ ‫نظارت‬ ‫و‬ ‫اندازی‬‫راه‬
‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/‫کاهش‬‫نگاشت‬29
‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/‫کاهش‬‫نگاشت‬30
‫های‬‫فناوری‬‫داده‬‫بزرگ‬/Hadoop
‫و‬ ‫ذخیره‬ ‫برای‬ ‫باز‬‫متن‬ ‫افزاری‬‫نرم‬ ‫چارچوب‬ ‫یک‬
‫پردازش‬‫های‬‫داده‬‫مجموعه‬‫روی‬ ‫بر‬ ‫بزرگ‬‫ای‬‫خوشه‬
‫از‬‫افزارهای‬‫سخت‬‫است‬ ‫معمولی‬ ‫و‬ ‫رایج‬.
31
‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/Hadoop
2002
•‫سال‬ ‫در‬2002‫که‬‫درحالی‬Doug Cutting‫و‬Mike Cafarella‫ای‬‫پروژه‬ ‫روی‬ ‫بر‬
‫نام‬ ‫به‬Nutch‫زیا‬ ‫مقدار‬ ‫پردازش‬ ‫برای‬ ‫را‬ ‫حلی‬‫راه‬ ‫تا‬ ‫کردند‬‫می‬ ‫تالش‬ ‫کردند‬‫می‬ ‫کار‬‫دی‬
‫کنند‬ ‫پیدا‬ ‫اطالعات‬ ‫از‬.
2004
•‫گوگل‬ ‫سیستم‬ ‫فایل‬ ‫مورد‬ ‫در‬ ‫ای‬‫مقاله‬ ‫گوگل‬(GFS)‫و‬ ‫الگوریتم‬ ‫که‬ ،‫کاهش‬‫نگاشت‬ ‫و‬
‫ارائ‬ ‫بود‬ ‫بزرگ‬ ‫های‬‫داده‬ ‫مجموعه‬ ‫پردازش‬ ‫برای‬ ‫ای‬‫شده‬‫توزیع‬ ‫نویسی‬‫برنامه‬ ‫بستر‬‫داد‬ ‫ه‬.
2006
•‫سال‬ ‫در‬2006‫د‬ ‫داده‬‫بزرگ‬ ‫های‬‫چالش‬ ‫با‬ ‫کردن‬ ‫نرم‬ ‫وپنجه‬‫دست‬ ‫از‬ ‫بعد‬ ‫یاهو‬ ‫شرکت‬ ،‫ر‬
‫پس‬ ‫و‬ ‫خود‬ ‫جستجوی‬ ‫موتور‬ ‫اطالعات‬ ‫از‬ ‫زیادی‬ ‫مقدار‬ ‫روی‬ ‫بر‬ ‫گذاری‬‫اندیس‬ ‫با‬ ‫رابطه‬
‫پروژه‬ ‫های‬‫پیشرفت‬ ‫مشاهده‬ ‫از‬Nutch،Doug Cutting‫کرد‬ ‫استخدام‬ ‫را‬.
‫تاریخچه‬
32
‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/Hadoop
‫ها‬‫ویژگی‬
‫دیگر‬ ‫از‬ ‫هادوپ‬
‫شده‬‫توزیع‬ ‫رویکردهای‬
‫متفاوت‬ ‫مورد‬ ‫چند‬ ‫در‬
‫است‬
‫ها‬‫داده‬‫طور‬‫به‬‫پیشرفته‬‫توزیع‬‫شوند؛‬‫می‬
‫ها‬‫داده‬‫برای‬‫برقراری‬‫قابلیت‬‫اطمینان‬‫و‬‫دستر‬‫سی‬
‫در‬‫تمام‬‫خوشه‬‫تکرار‬‫شوند؛‬‫می‬
‫پردازش‬‫ها‬‫داده‬‫جایی‬‫اتفاق‬‫افتد‬‫می‬‫که‬‫ها‬‫داده‬
‫قرار‬‫دارند؛‬‫بنابراین‬‫گلوگاه‬‫شدن‬‫پهنای‬‫بان‬‫د‬‫از‬
‫بین‬‫رود‬‫می‬.
33
‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/Hadoop
‫ها‬‫ویژگی‬
‫هادوپ‬ ‫های‬‫ویژگی‬
‫سازی‬‫ذخیره‬‫مقدار‬‫عظیمی‬‫از‬‫ها‬‫داده‬
‫پردازش‬‫شده‬‫توزیع‬‫با‬‫دسترسی‬‫سریع‬‫به‬‫داد‬‫ها‬‫ه‬
‫قابلیت‬،‫اطمینان‬failover‫و‬‫پذیری‬‫مقیاس‬
‫جداسازی‬ ‫هادوپ‬ ‫ویژگی‬ ‫ترین‬‫مهم‬
‫شفاف‬‫نویسی‬‫برنامه‬ ‫منطق‬ ‫بین‬‫و‬
‫است‬ ‫تجهیزات‬ ‫پشتیبانی‬.
34
‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/Hadoop
‫ها‬‫ویژگی‬
‫هادوپ‬ ‫های‬‫ویژگی‬
‫سازی‬‫ذخیره‬‫مقدار‬‫عظیمی‬‫از‬‫ها‬‫داده‬
‫پردازش‬‫شده‬‫توزیع‬‫با‬‫دسترسی‬‫سریع‬‫به‬‫داد‬‫ها‬‫ه‬
‫قابلیت‬،‫اطمینان‬failover‫و‬‫پذیری‬‫مقیاس‬
35
‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/Hadoop
‫معماری‬
36
‫اجزای‬‫داده‬‫بزرگ‬(‫کامل‬)37
• http://consumer.media.seagate.com/2012/06/the-digital-den/how-much-
data-is-generated-in-a-minute/
• http://www.moyak.com/papers/business-startups-entrepreneurs.html
• http://visual.ly/how-big-big-data
• http://visual.ly/forces-disrupting-network
• http://knowwpcarey.com/article.cfm?cid=25&aid=1171
• http://www.csc.com/insights/flxwd/78931-
big_data_growth_just_beginning_to_explode
• http://visual.ly/data-overload-how-will-we-deal-650-enterprise-data-growth
• http://sites.amd.com/us/Documents/IDC_AMD_Big_Data_Whitepaper.pdf
‫منابع‬38
‫تشکر‬ ‫با‬

Contenu connexe

Tendances

Hadoop Case Studies in the Real World in Persian - کاربردهای هدوپ در دنیای واقعی
Hadoop Case Studies in the Real World in Persian - کاربردهای هدوپ در دنیای واقعیHadoop Case Studies in the Real World in Persian - کاربردهای هدوپ در دنیای واقعی
Hadoop Case Studies in the Real World in Persian - کاربردهای هدوپ در دنیای واقعیMobin Ranjbar
 
کلان داده کاربردها و چالش های آن
کلان داده کاربردها و چالش های آنکلان داده کاربردها و چالش های آن
کلان داده کاربردها و چالش های آنHamed Azizi
 
Introduction to Apache Hadoop in Persian - آشنایی با هدوپ
Introduction to Apache Hadoop in Persian - آشنایی با هدوپIntroduction to Apache Hadoop in Persian - آشنایی با هدوپ
Introduction to Apache Hadoop in Persian - آشنایی با هدوپMobin Ranjbar
 
داده های عظیم چگونه دنیا را تغییر خواهند داد
داده های عظیم چگونه دنیا را تغییر خواهند داد داده های عظیم چگونه دنیا را تغییر خواهند داد
داده های عظیم چگونه دنیا را تغییر خواهند داد Farzad Khandan
 
تشخیص انجمن در مقیاس کلان داده
تشخیص انجمن در مقیاس کلان دادهتشخیص انجمن در مقیاس کلان داده
تشخیص انجمن در مقیاس کلان دادهNavid Sedighpour
 
داده کاوی
داده کاویداده کاوی
داده کاویTaha Mokfi
 
Big data related to BI
Big data related to BIBig data related to BI
Big data related to BIdata scientist
 
Opendata and business - داده های باز و کسب و کار
Opendata and business - داده های باز و کسب و کار Opendata and business - داده های باز و کسب و کار
Opendata and business - داده های باز و کسب و کار efazati
 
فناوری‌های حوزه‌ی کلان داده - Introduction to Big Data Technologies
 فناوری‌های حوزه‌ی کلان داده - Introduction to Big Data Technologies فناوری‌های حوزه‌ی کلان داده - Introduction to Big Data Technologies
فناوری‌های حوزه‌ی کلان داده - Introduction to Big Data TechnologiesEhsan Asgarian
 
Bi and data mining with Oracle
Bi and data mining with OracleBi and data mining with Oracle
Bi and data mining with Oracleghanadbashi
 
BI (Business Intelligence)
BI (Business Intelligence)BI (Business Intelligence)
BI (Business Intelligence)poorya davachi
 
سیستم فایل HDFS
سیستم فایل HDFSسیستم فایل HDFS
سیستم فایل HDFSnasser rezaei
 
مباشرت داده: نقشی نوین فراتر از تخصص
مباشرت داده: نقشی نوین فراتر از تخصصمباشرت داده: نقشی نوین فراتر از تخصص
مباشرت داده: نقشی نوین فراتر از تخصصHosseinieh Ershad Public Library
 
مقدمه ای بر جمع آوری اطلاعات
مقدمه ای بر جمع آوری اطلاعاتمقدمه ای بر جمع آوری اطلاعات
مقدمه ای بر جمع آوری اطلاعاتiuvmtech
 
آموزش داده کاوی به همراه انجام پروژه داده کاوی
آموزش داده کاوی به همراه انجام پروژه داده کاوی آموزش داده کاوی به همراه انجام پروژه داده کاوی
آموزش داده کاوی به همراه انجام پروژه داده کاوی matlab prozhe
 
Data Mining (Concepts, Applications, Techniques, Tools, Process, Experiences)...
Data Mining (Concepts, Applications, Techniques, Tools, Process, Experiences)...Data Mining (Concepts, Applications, Techniques, Tools, Process, Experiences)...
Data Mining (Concepts, Applications, Techniques, Tools, Process, Experiences)...Ehsan Asgarian
 

Tendances (19)

Hadoop Case Studies in the Real World in Persian - کاربردهای هدوپ در دنیای واقعی
Hadoop Case Studies in the Real World in Persian - کاربردهای هدوپ در دنیای واقعیHadoop Case Studies in the Real World in Persian - کاربردهای هدوپ در دنیای واقعی
Hadoop Case Studies in the Real World in Persian - کاربردهای هدوپ در دنیای واقعی
 
کلان داده کاربردها و چالش های آن
کلان داده کاربردها و چالش های آنکلان داده کاربردها و چالش های آن
کلان داده کاربردها و چالش های آن
 
Introduction to Apache Hadoop in Persian - آشنایی با هدوپ
Introduction to Apache Hadoop in Persian - آشنایی با هدوپIntroduction to Apache Hadoop in Persian - آشنایی با هدوپ
Introduction to Apache Hadoop in Persian - آشنایی با هدوپ
 
داده های عظیم چگونه دنیا را تغییر خواهند داد
داده های عظیم چگونه دنیا را تغییر خواهند داد داده های عظیم چگونه دنیا را تغییر خواهند داد
داده های عظیم چگونه دنیا را تغییر خواهند داد
 
Big data ppt
Big data  pptBig data  ppt
Big data ppt
 
تشخیص انجمن در مقیاس کلان داده
تشخیص انجمن در مقیاس کلان دادهتشخیص انجمن در مقیاس کلان داده
تشخیص انجمن در مقیاس کلان داده
 
داده کاوی
داده کاویداده کاوی
داده کاوی
 
Big data related to BI
Big data related to BIBig data related to BI
Big data related to BI
 
Opendata and business - داده های باز و کسب و کار
Opendata and business - داده های باز و کسب و کار Opendata and business - داده های باز و کسب و کار
Opendata and business - داده های باز و کسب و کار
 
فناوری‌های حوزه‌ی کلان داده - Introduction to Big Data Technologies
 فناوری‌های حوزه‌ی کلان داده - Introduction to Big Data Technologies فناوری‌های حوزه‌ی کلان داده - Introduction to Big Data Technologies
فناوری‌های حوزه‌ی کلان داده - Introduction to Big Data Technologies
 
Bi and data mining with Oracle
Bi and data mining with OracleBi and data mining with Oracle
Bi and data mining with Oracle
 
(داده های زمینه ای) Contextual data
  (داده های زمینه ای) Contextual data  (داده های زمینه ای) Contextual data
(داده های زمینه ای) Contextual data
 
BI (Business Intelligence)
BI (Business Intelligence)BI (Business Intelligence)
BI (Business Intelligence)
 
داده‌کاوی و زبان برنامه‌نویسی R
داده‌کاوی و زبان برنامه‌نویسی Rداده‌کاوی و زبان برنامه‌نویسی R
داده‌کاوی و زبان برنامه‌نویسی R
 
سیستم فایل HDFS
سیستم فایل HDFSسیستم فایل HDFS
سیستم فایل HDFS
 
مباشرت داده: نقشی نوین فراتر از تخصص
مباشرت داده: نقشی نوین فراتر از تخصصمباشرت داده: نقشی نوین فراتر از تخصص
مباشرت داده: نقشی نوین فراتر از تخصص
 
مقدمه ای بر جمع آوری اطلاعات
مقدمه ای بر جمع آوری اطلاعاتمقدمه ای بر جمع آوری اطلاعات
مقدمه ای بر جمع آوری اطلاعات
 
آموزش داده کاوی به همراه انجام پروژه داده کاوی
آموزش داده کاوی به همراه انجام پروژه داده کاوی آموزش داده کاوی به همراه انجام پروژه داده کاوی
آموزش داده کاوی به همراه انجام پروژه داده کاوی
 
Data Mining (Concepts, Applications, Techniques, Tools, Process, Experiences)...
Data Mining (Concepts, Applications, Techniques, Tools, Process, Experiences)...Data Mining (Concepts, Applications, Techniques, Tools, Process, Experiences)...
Data Mining (Concepts, Applications, Techniques, Tools, Process, Experiences)...
 

En vedette

تحلیل با رویکرد یادگیری ژرف بر بستر کلان‌داده (2)
تحلیل با رویکرد یادگیری ژرف بر بستر کلان‌داده (2)تحلیل با رویکرد یادگیری ژرف بر بستر کلان‌داده (2)
تحلیل با رویکرد یادگیری ژرف بر بستر کلان‌داده (2)khalooei
 
آشنایی با داده‌های بزرگ و تکنیک‌های برنامه‌سازی برای پردازش داده‌های بزرگ
آشنایی با داده‌های بزرگ و تکنیک‌های برنامه‌سازی برای پردازش داده‌های بزرگآشنایی با داده‌های بزرگ و تکنیک‌های برنامه‌سازی برای پردازش داده‌های بزرگ
آشنایی با داده‌های بزرگ و تکنیک‌های برنامه‌سازی برای پردازش داده‌های بزرگAmir Sedighi
 
تحلیل احساسات در شبکه های اجتماعی
تحلیل احساسات در شبکه های اجتماعیتحلیل احساسات در شبکه های اجتماعی
تحلیل احساسات در شبکه های اجتماعیHamed Azizi
 
Big Data and Machine Learning Workshop - Day 7 @ UTACM
Big Data and Machine Learning Workshop - Day 7 @ UTACM Big Data and Machine Learning Workshop - Day 7 @ UTACM
Big Data and Machine Learning Workshop - Day 7 @ UTACM Amir Sedighi
 
تحلیل احساسات شبکه اجتماعی متن کاوی نظرکاوی حامد عزیزی تهران جنوب
تحلیل احساسات شبکه اجتماعی متن کاوی نظرکاوی حامد عزیزی تهران جنوبتحلیل احساسات شبکه اجتماعی متن کاوی نظرکاوی حامد عزیزی تهران جنوب
تحلیل احساسات شبکه اجتماعی متن کاوی نظرکاوی حامد عزیزی تهران جنوبHamed Azizi
 

En vedette (6)

تحلیل با رویکرد یادگیری ژرف بر بستر کلان‌داده (2)
تحلیل با رویکرد یادگیری ژرف بر بستر کلان‌داده (2)تحلیل با رویکرد یادگیری ژرف بر بستر کلان‌داده (2)
تحلیل با رویکرد یادگیری ژرف بر بستر کلان‌داده (2)
 
آشنایی با داده‌های بزرگ و تکنیک‌های برنامه‌سازی برای پردازش داده‌های بزرگ
آشنایی با داده‌های بزرگ و تکنیک‌های برنامه‌سازی برای پردازش داده‌های بزرگآشنایی با داده‌های بزرگ و تکنیک‌های برنامه‌سازی برای پردازش داده‌های بزرگ
آشنایی با داده‌های بزرگ و تکنیک‌های برنامه‌سازی برای پردازش داده‌های بزرگ
 
تحلیل احساسات در شبکه های اجتماعی
تحلیل احساسات در شبکه های اجتماعیتحلیل احساسات در شبکه های اجتماعی
تحلیل احساسات در شبکه های اجتماعی
 
Dark data
Dark dataDark data
Dark data
 
Big Data and Machine Learning Workshop - Day 7 @ UTACM
Big Data and Machine Learning Workshop - Day 7 @ UTACM Big Data and Machine Learning Workshop - Day 7 @ UTACM
Big Data and Machine Learning Workshop - Day 7 @ UTACM
 
تحلیل احساسات شبکه اجتماعی متن کاوی نظرکاوی حامد عزیزی تهران جنوب
تحلیل احساسات شبکه اجتماعی متن کاوی نظرکاوی حامد عزیزی تهران جنوبتحلیل احساسات شبکه اجتماعی متن کاوی نظرکاوی حامد عزیزی تهران جنوب
تحلیل احساسات شبکه اجتماعی متن کاوی نظرکاوی حامد عزیزی تهران جنوب
 

Similaire à Big Data Processing in Cloud Computing Environments

اسلايد آموزشي هوش تجاري
اسلايد آموزشي هوش تجارياسلايد آموزشي هوش تجاري
اسلايد آموزشي هوش تجاريAli Masoombeigi
 
آموزش نرم افزار صنعتی کنترل و مانیتورینگ LabVIEW
آموزش نرم افزار صنعتی کنترل و مانیتورینگ LabVIEWآموزش نرم افزار صنعتی کنترل و مانیتورینگ LabVIEW
آموزش نرم افزار صنعتی کنترل و مانیتورینگ LabVIEWfaradars
 
فناوری اطلاعات و تولید نهایی
فناوری اطلاعات و تولید نهایی فناوری اطلاعات و تولید نهایی
فناوری اطلاعات و تولید نهایی Babak Sorkhpour
 
معرفي فايروال پايگاه داده
معرفي فايروال پايگاه دادهمعرفي فايروال پايگاه داده
معرفي فايروال پايگاه دادهHamid Torkashvand
 
توسعه نرم‌افزارهای مقیاس‌پذیر بر اساس معماری ریزسرویسها (Microservices) و اجر...
توسعه نرم‌افزارهای مقیاس‌پذیر بر اساس معماری ریزسرویسها (Microservices) و اجر...توسعه نرم‌افزارهای مقیاس‌پذیر بر اساس معماری ریزسرویسها (Microservices) و اجر...
توسعه نرم‌افزارهای مقیاس‌پذیر بر اساس معماری ریزسرویسها (Microservices) و اجر...Web Standards School
 
مهاجرت به متن باز در شرکت توزیع برق مشهد
مهاجرت به متن باز در شرکت توزیع برق مشهدمهاجرت به متن باز در شرکت توزیع برق مشهد
مهاجرت به متن باز در شرکت توزیع برق مشهدعباس بني اسدي مقدم
 
Data Management System- Haseb System Co
Data Management System- Haseb System CoData Management System- Haseb System Co
Data Management System- Haseb System CoHamed Ghazanfari
 
طراحی، پیاده‌سازی و ارزیابی رایانش توری تحت وب
طراحی، پیاده‌سازی و ارزیابی رایانش توری تحت وبطراحی، پیاده‌سازی و ارزیابی رایانش توری تحت وب
طراحی، پیاده‌سازی و ارزیابی رایانش توری تحت وبMoEii Hm
 
راهنمای کامل راه اندازی الاستیک سرچ و استفاده آن در شرکت گارتکس
راهنمای کامل راه اندازی الاستیک سرچ و استفاده آن در شرکت گارتکسراهنمای کامل راه اندازی الاستیک سرچ و استفاده آن در شرکت گارتکس
راهنمای کامل راه اندازی الاستیک سرچ و استفاده آن در شرکت گارتکسSeied Mahdi Sadat Hosseini
 
سمينار دانشگاه صنعتي
سمينار دانشگاه صنعتيسمينار دانشگاه صنعتي
سمينار دانشگاه صنعتيمحمد وکیلی
 
شناخت شركت مديران
شناخت شركت مديران شناخت شركت مديران
شناخت شركت مديران محمد وکیلی
 
Cloud Computing7
Cloud Computing7Cloud Computing7
Cloud Computing7amiriano
 
ورودی خروجی Hadoop
ورودی خروجی Hadoopورودی خروجی Hadoop
ورودی خروجی Hadoopnasser rezaei
 
cloud computing , رایانش ابری
cloud computing , رایانش ابریcloud computing , رایانش ابری
cloud computing , رایانش ابریvhd-abdarbashi
 
Raid type, Raid تکنولوژی ,
Raid type, Raid  تکنولوژی , Raid type, Raid  تکنولوژی ,
Raid type, Raid تکنولوژی , abbas pirnazaraine
 

Similaire à Big Data Processing in Cloud Computing Environments (20)

Microsoft BI Sumery
Microsoft BI SumeryMicrosoft BI Sumery
Microsoft BI Sumery
 
اسلايد آموزشي هوش تجاري
اسلايد آموزشي هوش تجارياسلايد آموزشي هوش تجاري
اسلايد آموزشي هوش تجاري
 
آموزش نرم افزار صنعتی کنترل و مانیتورینگ LabVIEW
آموزش نرم افزار صنعتی کنترل و مانیتورینگ LabVIEWآموزش نرم افزار صنعتی کنترل و مانیتورینگ LabVIEW
آموزش نرم افزار صنعتی کنترل و مانیتورینگ LabVIEW
 
فناوری اطلاعات و تولید نهایی
فناوری اطلاعات و تولید نهایی فناوری اطلاعات و تولید نهایی
فناوری اطلاعات و تولید نهایی
 
Software architecture002
Software architecture002Software architecture002
Software architecture002
 
معرفي فايروال پايگاه داده
معرفي فايروال پايگاه دادهمعرفي فايروال پايگاه داده
معرفي فايروال پايگاه داده
 
IranOUG_Oracle_Multitenant
IranOUG_Oracle_MultitenantIranOUG_Oracle_Multitenant
IranOUG_Oracle_Multitenant
 
توسعه نرم‌افزارهای مقیاس‌پذیر بر اساس معماری ریزسرویسها (Microservices) و اجر...
توسعه نرم‌افزارهای مقیاس‌پذیر بر اساس معماری ریزسرویسها (Microservices) و اجر...توسعه نرم‌افزارهای مقیاس‌پذیر بر اساس معماری ریزسرویسها (Microservices) و اجر...
توسعه نرم‌افزارهای مقیاس‌پذیر بر اساس معماری ریزسرویسها (Microservices) و اجر...
 
مهاجرت به متن باز در شرکت توزیع برق مشهد
مهاجرت به متن باز در شرکت توزیع برق مشهدمهاجرت به متن باز در شرکت توزیع برق مشهد
مهاجرت به متن باز در شرکت توزیع برق مشهد
 
ارائهٔ DLP
ارائهٔ DLPارائهٔ DLP
ارائهٔ DLP
 
ESB
ESBESB
ESB
 
Data Management System- Haseb System Co
Data Management System- Haseb System CoData Management System- Haseb System Co
Data Management System- Haseb System Co
 
طراحی، پیاده‌سازی و ارزیابی رایانش توری تحت وب
طراحی، پیاده‌سازی و ارزیابی رایانش توری تحت وبطراحی، پیاده‌سازی و ارزیابی رایانش توری تحت وب
طراحی، پیاده‌سازی و ارزیابی رایانش توری تحت وب
 
راهنمای کامل راه اندازی الاستیک سرچ و استفاده آن در شرکت گارتکس
راهنمای کامل راه اندازی الاستیک سرچ و استفاده آن در شرکت گارتکسراهنمای کامل راه اندازی الاستیک سرچ و استفاده آن در شرکت گارتکس
راهنمای کامل راه اندازی الاستیک سرچ و استفاده آن در شرکت گارتکس
 
سمينار دانشگاه صنعتي
سمينار دانشگاه صنعتيسمينار دانشگاه صنعتي
سمينار دانشگاه صنعتي
 
شناخت شركت مديران
شناخت شركت مديران شناخت شركت مديران
شناخت شركت مديران
 
Cloud Computing7
Cloud Computing7Cloud Computing7
Cloud Computing7
 
ورودی خروجی Hadoop
ورودی خروجی Hadoopورودی خروجی Hadoop
ورودی خروجی Hadoop
 
cloud computing , رایانش ابری
cloud computing , رایانش ابریcloud computing , رایانش ابری
cloud computing , رایانش ابری
 
Raid type, Raid تکنولوژی ,
Raid type, Raid  تکنولوژی , Raid type, Raid  تکنولوژی ,
Raid type, Raid تکنولوژی ,
 

Plus de Farzad Nozarian

SHARE Interface in Flash Storage for Relational and NoSQL Databases
SHARE Interface in Flash Storage for Relational and NoSQL DatabasesSHARE Interface in Flash Storage for Relational and NoSQL Databases
SHARE Interface in Flash Storage for Relational and NoSQL DatabasesFarzad Nozarian
 
Ultimate Goals In Robotics
Ultimate Goals In RoboticsUltimate Goals In Robotics
Ultimate Goals In RoboticsFarzad Nozarian
 
Tank Battle - A simple game powered by JMonkey engine
Tank Battle - A simple game powered by JMonkey engineTank Battle - A simple game powered by JMonkey engine
Tank Battle - A simple game powered by JMonkey engineFarzad Nozarian
 
The Continuous Distributed Monitoring Model
The Continuous Distributed Monitoring ModelThe Continuous Distributed Monitoring Model
The Continuous Distributed Monitoring ModelFarzad Nozarian
 
Big data Clustering Algorithms And Strategies
Big data Clustering Algorithms And StrategiesBig data Clustering Algorithms And Strategies
Big data Clustering Algorithms And StrategiesFarzad Nozarian
 
Apache HBase - Lab Assignment
Apache HBase - Lab AssignmentApache HBase - Lab Assignment
Apache HBase - Lab AssignmentFarzad Nozarian
 
Apache HDFS - Lab Assignment
Apache HDFS - Lab AssignmentApache HDFS - Lab Assignment
Apache HDFS - Lab AssignmentFarzad Nozarian
 
Apache Hadoop MapReduce Tutorial
Apache Hadoop MapReduce TutorialApache Hadoop MapReduce Tutorial
Apache Hadoop MapReduce TutorialFarzad Nozarian
 
Big Data and Cloud Computing
Big Data and Cloud ComputingBig Data and Cloud Computing
Big Data and Cloud ComputingFarzad Nozarian
 
S4: Distributed Stream Computing Platform
S4: Distributed Stream Computing PlatformS4: Distributed Stream Computing Platform
S4: Distributed Stream Computing PlatformFarzad Nozarian
 

Plus de Farzad Nozarian (14)

SHARE Interface in Flash Storage for Relational and NoSQL Databases
SHARE Interface in Flash Storage for Relational and NoSQL DatabasesSHARE Interface in Flash Storage for Relational and NoSQL Databases
SHARE Interface in Flash Storage for Relational and NoSQL Databases
 
Object Based Databases
Object Based DatabasesObject Based Databases
Object Based Databases
 
Ultimate Goals In Robotics
Ultimate Goals In RoboticsUltimate Goals In Robotics
Ultimate Goals In Robotics
 
Tank Battle - A simple game powered by JMonkey engine
Tank Battle - A simple game powered by JMonkey engineTank Battle - A simple game powered by JMonkey engine
Tank Battle - A simple game powered by JMonkey engine
 
The Continuous Distributed Monitoring Model
The Continuous Distributed Monitoring ModelThe Continuous Distributed Monitoring Model
The Continuous Distributed Monitoring Model
 
Big data Clustering Algorithms And Strategies
Big data Clustering Algorithms And StrategiesBig data Clustering Algorithms And Strategies
Big data Clustering Algorithms And Strategies
 
Shark - Lab Assignment
Shark - Lab AssignmentShark - Lab Assignment
Shark - Lab Assignment
 
Apache HBase - Lab Assignment
Apache HBase - Lab AssignmentApache HBase - Lab Assignment
Apache HBase - Lab Assignment
 
Apache HDFS - Lab Assignment
Apache HDFS - Lab AssignmentApache HDFS - Lab Assignment
Apache HDFS - Lab Assignment
 
Apache Hadoop MapReduce Tutorial
Apache Hadoop MapReduce TutorialApache Hadoop MapReduce Tutorial
Apache Hadoop MapReduce Tutorial
 
Apache Spark Tutorial
Apache Spark TutorialApache Spark Tutorial
Apache Spark Tutorial
 
Apache Storm Tutorial
Apache Storm TutorialApache Storm Tutorial
Apache Storm Tutorial
 
Big Data and Cloud Computing
Big Data and Cloud ComputingBig Data and Cloud Computing
Big Data and Cloud Computing
 
S4: Distributed Stream Computing Platform
S4: Distributed Stream Computing PlatformS4: Distributed Stream Computing Platform
S4: Distributed Stream Computing Platform
 

Big Data Processing in Cloud Computing Environments

Notes de l'éditeur

  1. It is perhaps no coincidence that the Hadoop mascot is an elephant.
  2. پیش‌بینی به‌جای 6 فاکتور از 300 فاکتور
  3. عصر اینترنت و موبایل لیست پیشنهادی علاوه بر خرید‌های شخص جریان‌های مکانی یا صوتی انبار کردن و پردازش آن‌ها مثال آی بی ام دو دلیل اصلی در پردازش جریانی داده‌ها وجود دارد نیازمندی‌های ابزار‌های ذخیره‌سازی برنامه مجبور به پاسخی در مقابل دریافت داده‌ها برنامه‌های موبایلی و بازی‌های آنلاین
  4. Today 80% of Data Existing in any Enterprise is Unstructured Data Structured Data Structured Data by definition already resides in formal data stores, typically in an RDBMS, a Data Warehouse or an MPP system, and accounts for approximately 5% of the total data deluge9 (the rest is unstructured). It is often categorized as “legacy data” carried forward from before Big Data had currency, but can also be recently derived data stored in pre-Big Data paradigms (RDBMS, DW, MPP, etc.). The “structure” typically refers to formal data groupings into database records with named fields and/or row and column organization, with established associations among the data elements. Unstructured Data Unstructured Data, by contrast, comprises data collected during other activities and stored in amorphous logs or other files in a file system. Unstructured data can include raw text or binary and contain a rich mix of lexical information and/or numerical values, with or without delimitation, punctuation or metadata. A distinguishing feature of Big Data: is a mixture of traditional structured data together with unstructured massive amounts of information. The data can come from legacy databases and data warehouses, from web server logs of ecommerce companies and other high-traffic web sites, from M2M (Machine-to-Machine) data traffic and sensor nets.
  5. آزمایش‌های برخورددهنده هادرون بزرگ در هر ثانیه 40 میلیون بار داده از 150 میلیون حسگر تولید می‌کند. تقریباً 60 میلیون برخورد در هر ثانیه وجود دارد. بعد از پالایش و صرف‌نظر از بیش از 99.999% این جریان اطلاعاتی، 100 میلیون برخورد در هر ثانیه وجود دارد که مورداستفاده و علاقه دانشمندان است [3]. درنتیجه، تنها کار کردن با کمتر از 0.001% از جریان داده‌های حسگر، جریان داده‌ای با حجم 25 پتابایت در هر سال از هر چهار آزمایش LHC پیش از تکرار داده‌ها حاصل می‌شود. این مقدار به تقریباً 200 پتابایت بعد از تکرار و رونوشت می‌رسد. اگر همه حسگرها برای ضبط استفاده شوند، کار با جریان داده به‌شدت سخت خواهد بود. جریان داده از 150 میلیون پتابایت نرخ سالیانه خواهد گذشت یا تقریباً به 500 اگزابایت در هر روز پیش از تکرار و رونوشت از آن خواهد رسید. برای تجسم بهتر، این عدد برابر خواهد بود با 500 کوینتیلیون (1020×5) بایت در هر روز، تقریباً 200 برابر بیشتر از ترکیب همه منابع دیگر در جهان!
  6. زمانی که نقشه‌بردار آسمانی دیجیتال اسلون (SDSS) در سال 2000 شروع به جمع‌کردن اطلاعات ستاره‌شناسی کرد، اطلاعات جمع‌آوری‌شده تنها در چند هفته اول بیش از تمام اطلاعات جمع شده در تاریخ نجوم بود. با ادامه نرخ 200 گیگابایت در هر شب، SDSS بیش از 140 ترابایت اطلاعات جمع کرده است. زمانی که تلسکوپ نقشه‌برداری بزرگ هم دیدی که نسل بعد از SDSS به شمار می‌آید، در سال 2016 شروع به فعالیت کند، پیش‌بینی می‌شود که این مقدار داده را هر پنج روز یک‌بار به دست می‌آورد [4]. مرکز شبیه‌سازی آب‌وهوای ناسا (NCCS) 32 پتابایت از شبیه‌سازی‌ها و مشاهدات خود را در ابررایانه Discover نگه‌داری می‌کند [5]
  7. • Data Management – data storage infrastructure, and resources to manipulate it • Data Analysis – technologies and tools to analyze the data and glean insight from it • Data Use – putting Big Data insights to work in Business Intelligence and end-user applications
  8. For the last two decades, Data Management has built upon three related primary technologies: • Relational Data Base Management Systems – to store and manipulate structured data • MPP Systems – to crunch increasingly massive data sets and scale with data growth • Data Warehousing – to subset and host data for subsequent reporting Limitations in Legacy Systems • Scalability: as data sets on RDBMSs grow, performance slows, requiring major (not incremental) investments in compute capacity. These investments are today outstripping the budgets of organizations, especially as data grows exponentially. • Representative Data: With declining ability to process whole data sets, information in Data Warehouses is no longer statistically representative of the data from which it is derived. As such, business intelligence derived from it is less reliable. • Unstructured Data: RDBMS and Data Warehousing are definitively structured data entities. However, data growth is focused on unstructured data by a factor of 20:1. RDBMS, MPP and DW are not going away any time soon. Rather, they are taking on new roles in support of Big Data management, most importantly to process and host the output of paradigms such as MapReduce and to continue to provide input to BI software and to applications.
  9. Row-based systems are designed to efficiently return data for an entire row, or record, in as few operations as possible. This matches the common use-case where the system is attempting to retrieve information about a particular object contact information for a user Row-based systems are not efficient at performing operations that apply to the entire data set, as opposed to a specific record.
  10.  it is the mapping of the data that differs dramatically Indexing all the values from a set of columns along with pointers back into the original rowed However, maintaining indexes adds overhead to the system, especially when new data is written to the database. There are a number of row-oriented databases that are designed to fit entirely in RAM, an in-memory database.
  11. A NoSQL or Not Only SQL database provides a mechanism for storage and retrieval of data that is modeled in means other than the tabular relations used in relational databases.  simplicity of design, horizontal scaling and finercontrol over availability The data structure (e.g. key-value, graph, or document) differs from the RDBMS, and therefore some operations are faster in NoSQL and some in RDBMS.
  12. مدل نگاشت‌کاهش از ترکیبی از مفاهیم نگاشت و کاهش زبان‌های برنامه‌نویسی تابعی مانند Lisp نشأت گرفته است
  13. ذخیره‌سازی مقدار عظیمی از داده‌ها: هادوپ برنامه‌ها را قادر می‌سازد تا با هزاران کامپیوتر و پتابایت‌ها داده کار کنند. در دهه‌های گذشته متخصصین کامپیوتر دریافته‌اند که از دستگاه‌های کم‌هزینه رایج و معمولی می‌توانند برای برنامه‌های پردازشی با کارایی بالا استفاده کنند که قبلاً این کار فقط از طریق ابَرکامپیوترها قابل امکان بود. صدها کامپیوتر کوچک می‌توانند در یک خوشه طوری پیکربندی شوند که مجموع توان پردازشی آن‌ها می‌تواند بسیار بیشتر از یک ابَرکامپیوتر و با قیمت کمتری باشد. هادوپ می‌تواند از خوشه‌ای بیش از هزاران ماشین بهره برده تا بستر ذخیره‌سازی و توان پردازشی عظیمی را با قیمتی مناسب سازمان‌ها ارائه دهد. پردازش توزیع‌شده با دسترسی سریع به داده‌ها: خوشه‌های هادوپ این امکان را فراهم می‌کنند تا به‌طور کارا داده‌های عظیمی را ذخیره کنند و درعین‌حال دسترسی سریعی را به داده‌ها فراهم آورند. پیش از هادوپ، برنامه‌های پردازشی موازی سختی توزیع اجرا را بین ماشین‌های موجود در خوشه تجربه می‌کردند. این امر به این دلیل بود که مدل اجرای خوشه درخواستی برای داده‌های مشترک با کارایی آی/او بالا می‌ساخت. هادوپ اجرا را به سمت داده‌ها هدایت کرد. انتقال برنامه به سمت داده‌ها بسیاری از چالش‌های کارایی را کاهش داد. بعلاوه، برنامه‌های هادوپ معمولاً طوری سازمان‌دهی می‌شوند که داده‌ها را ترتیبی پردازش کنند. این امر موجب پرهیز از دسترسی داده‌ها به‌صورت تصادفی شده و بیشتر از قبل باعث کاهش سربار آی/او می‌شود. قابلیت اطمینان، failover و مقیاس‌پذیری: در گذشته برنامه‌های موازی زمانی که به خوشه‌ای از ماشین‌ها منتقل می‌شدند با مشکلات قابلیت اطمینان دست‌وپنجه نرم می‌کردند. بااینکه قابلیت اطمینان هرکدام از ماشین‌ها تقریباً بالاست اما احتمال ازکارافتادن ماشین‌ها با بالا رفتن اندازه خوشه وجود دارد. اینکه در یک خوشه (با هزاران ماشین) در هر روز خرابی‌هایی داشته باشیم غیرطبیعی نیست. به همین خاطر طوری طراحی و پیاده‌سازی شده است که یک یا مجموعه‌ای از خرابی‌ها منجر به نتایج ناسازگاری نشود. هادوپ خرابی‌ها را شناسایی کرده و اجرا عملیات را با استفاده از گره‌های دیگر از سر می‌گیرد. علاوه بر این، قابلیت مقیاس‌پذیری‌ای که پیاده‌سازی هادوپ از آن پشتیبانی می‌کند این امکان را می‌دهد که سرورهای اضافی (تعمیر شده) را به‌طور ناملموس به خوشه اضافه کنیم و از آن‌ها برای ذخیره‌سازی و اجرای عملیات بهره ببریم.
  14. ذخیره‌سازی مقدار عظیمی از داده‌ها: هادوپ برنامه‌ها را قادر می‌سازد تا با هزاران کامپیوتر و پتابایت‌ها داده کار کنند. در دهه‌های گذشته متخصصین کامپیوتر دریافته‌اند که از دستگاه‌های کم‌هزینه رایج و معمولی می‌توانند برای برنامه‌های پردازشی با کارایی بالا استفاده کنند که قبلاً این کار فقط از طریق ابَرکامپیوترها قابل امکان بود. صدها کامپیوتر کوچک می‌توانند در یک خوشه طوری پیکربندی شوند که مجموع توان پردازشی آن‌ها می‌تواند بسیار بیشتر از یک ابَرکامپیوتر و با قیمت کمتری باشد. هادوپ می‌تواند از خوشه‌ای بیش از هزاران ماشین بهره برده تا بستر ذخیره‌سازی و توان پردازشی عظیمی را با قیمتی مناسب سازمان‌ها ارائه دهد. پردازش توزیع‌شده با دسترسی سریع به داده‌ها: خوشه‌های هادوپ این امکان را فراهم می‌کنند تا به‌طور کارا داده‌های عظیمی را ذخیره کنند و درعین‌حال دسترسی سریعی را به داده‌ها فراهم آورند. پیش از هادوپ، برنامه‌های پردازشی موازی سختی توزیع اجرا را بین ماشین‌های موجود در خوشه تجربه می‌کردند. این امر به این دلیل بود که مدل اجرای خوشه درخواستی برای داده‌های مشترک با کارایی آی/او بالا می‌ساخت. هادوپ اجرا را به سمت داده‌ها هدایت کرد. انتقال برنامه به سمت داده‌ها بسیاری از چالش‌های کارایی را کاهش داد. بعلاوه، برنامه‌های هادوپ معمولاً طوری سازمان‌دهی می‌شوند که داده‌ها را ترتیبی پردازش کنند. این امر موجب پرهیز از دسترسی داده‌ها به‌صورت تصادفی شده و بیشتر از قبل باعث کاهش سربار آی/او می‌شود. قابلیت اطمینان، failover و مقیاس‌پذیری: در گذشته برنامه‌های موازی زمانی که به خوشه‌ای از ماشین‌ها منتقل می‌شدند با مشکلات قابلیت اطمینان دست‌وپنجه نرم می‌کردند. بااینکه قابلیت اطمینان هرکدام از ماشین‌ها تقریباً بالاست اما احتمال ازکارافتادن ماشین‌ها با بالا رفتن اندازه خوشه وجود دارد. اینکه در یک خوشه (با هزاران ماشین) در هر روز خرابی‌هایی داشته باشیم غیرطبیعی نیست. به همین خاطر طوری طراحی و پیاده‌سازی شده است که یک یا مجموعه‌ای از خرابی‌ها منجر به نتایج ناسازگاری نشود. هادوپ خرابی‌ها را شناسایی کرده و اجرا عملیات را با استفاده از گره‌های دیگر از سر می‌گیرد. علاوه بر این، قابلیت مقیاس‌پذیری‌ای که پیاده‌سازی هادوپ از آن پشتیبانی می‌کند این امکان را می‌دهد که سرورهای اضافی (تعمیر شده) را به‌طور ناملموس به خوشه اضافه کنیم و از آن‌ها برای ذخیره‌سازی و اجرای عملیات بهره ببریم.