SlideShare une entreprise Scribd logo
1  sur  75
‫آليات التكشيف على الويب وأدواته‬

            ‫الدكتور‬
        ‫عماد عيسى صالح‬
        ‫أستاذ علم المعلومات‬
              ‫المشارك‬
       ‫جامعة الملك عبدالعزيز،‬
              ‫السعودية‬
‫مفاهيم ومصطلحات‬
‫مفاهيم ومصطلحات‬
                                               ‫الكشاف ‪:Index‬‬        ‫‪‬‬

 ‫الكشاف بمعناه العام هو ما يكشف عما هو مغمور أو مجهول‬           ‫‪‬‬

                                       ‫في وسط معين.‬
    ‫) هنري‬   ‫دليل أو مؤشر إلى موقع المعلومات التي نبحث عنها.‬    ‫‪‬‬
                                                      ‫هويتلي(‬

  ‫دليل منظم يرشد إلى ما يمكن البحث عنه أو استرجاعه، من‬          ‫‪‬‬

  ‫مفردات أو حقائق أو معلومات أو نصوص أو وثائق، أو بدائل‬
                            ‫النصوص والوثائق. ) حشمت قاسم(‬

                                  ‫تتلخص وظائف الكشاف في:‬            ‫‪‬‬

‫التحقق من المعلومات التي يمكن أن تكون متصلة بموضوع ما،‬          ‫‪‬‬

           ‫وتحديد موقعها في الوثيقة و أو الوثائق المكشفة.‬
                             ‫/‬
‫استبعاد الحالت التي يرد فيها ذكر الموضوعات على نحو عابر،‬        ‫‪‬‬

                             ‫ول تقدم شيئا يذكر للمستفيد.‬
                                                                ‫‪‬‬
‫) تابع (‬   ‫مفاهيم ومصطلحات‬
                                      ‫وظائف الكشاف ) تابع(:‬     ‫‪‬‬

                       ‫بيان ما بين الموضوعات من علقات.‬      ‫‪‬‬

        ‫توجيه المستفيدين المستفيدين للمصطلحات الكشفية‬       ‫‪‬‬

          ‫المستخدمة بديل عن المصطلحات التي يبحثون بها.‬
    ‫توجيه المستفيدين نحو موضوعات يمكن البحث عنها أيضا‬       ‫‪‬‬

                                     ‫وتتصل بالموضوع.‬

                          ‫‪Indexing L‬‬‫لغة التكشيف ‪anguage‬‬         ‫‪‬‬

‫مجموعة الرموز أو المصطلحات أو المفردات التي تشكل اللغة‬      ‫‪‬‬

   ‫المستهدفة التي تترجم إليها المفاهيم الدالة على المحتوى‬
       ‫الموضوعي للوثيقة الوثائق، بمعنى أنها تمثل المداخل‬
                                      ‫/‬
                             ‫الموضوعية لسترجاع الوثيقة‬
   ‫لغة التكشيف أيا كان شكلها ونوعها هي الساس في نظام‬        ‫‪‬‬

              ‫المضاهاة والسترجاع الموضوعي لوثائق.‬
‫) تابع (‬   ‫مفاهيم ومصطلحات‬
            ‫هناك نوعين من التكشيف في نظم السترجاع:‬                   ‫‪‬‬

                                           ‫التكشيف بالتعيين:‬     ‫‪‬‬

‫يعتمد على الجهد الفكري للمكشف في تحديد عناصر المحتوى‬         ‫‪‬‬

‫الموضوعي للوثيقة ثم اختيار المصطلحات أو الرموز الكشفية‬
                                             ‫الدالة عليها،‬

‫يعتمد في الساس على لغة مقيدة ) مكنز، خطة تصنيف، قائمة‬        ‫‪‬‬

                                       ‫رءوس موضوعات(‬

                          ‫التكشيف الشتقاقي أو بالشتقاق:‬          ‫‪‬‬

       ‫وفيه تقتبس أو تشتق جميع المصطلحات أو الواصفات‬         ‫‪‬‬

  ‫الموضوعية من الوثيقة أو الوثائق المكشفة، فهو يعتمد في‬
                             ‫الساس على اللغة الطبيعية‬
‫خطوات التحليل الموضوعي‬
   ‫الخطوة الولى ، تحليل المفاهيم أو تحليل محتوى مصدر‬                ‫‪‬‬

                                           ‫المعلومات:‬
     ‫تهتم بفحص وتصفح مصدر المعلومات بهدف تحديد المفاهيم‬         ‫‪‬‬

                                ‫والفكار التي يتناولها المصدر.‬
         ‫الخطوة الثانية ، ترجمة أو التعبير عن ناتج التحليل:‬         ‫‪‬‬

‫تهتم بالتعبير عن ناتج تحليل المفاهيم باستخدام مجموعة من نقاط‬    ‫‪‬‬

     ‫الوصول الموضوعية أو مؤشرات المحتوى )مصطلحات، رموز،‬
                                            ‫عبارات أو جمل(‬
  ‫يتم الحصول عليها إما من لغة مصدر المعلومات نفسه أو من لغة‬     ‫‪‬‬

    ‫استفسارات وأسئلة المستفيدين، أو تعيينها من لغة أخرى خارج‬
                                       ‫نطاق مصدر المعلومات.‬
 ‫الخطوة الثالثة: الربط بين نقاط الوصول الموضوعية وبين‬               ‫‪‬‬

                                   ‫مصدر المعلومات:‬
‫نظم التسترجاع‬

INFORMATION NEED              DOCS.    DOCUMENTS
                      User Interface
     QUERY
                       RESULTS

                                       INDEXING
                       RESULT
                   REPRESENTATION



             SEARCH
                                         INDEX
(‫نظم التسترجاع )تابع‬


INFORMATION NEED                DOCS.         DOCUMENTS
                        User Interface
      QUERY                                 SELECT DATA FOR
                                               INDEXING
                         RESULTS

QUERY PROCESSING          RESULT            PARSING & TERM
 (PARSING & TERM      REPRESENTATION         PROCESSING
   PROCESSING)

                         RANKING

LOGICAL VIEW OF THE     SEARCHING
   INFORM. NEED                                  INDEX
‫أنواع الكشافات‬
                                       ‫يمكن تقسيم‬
                                        ‫يمكن تقسيم‬
‫هل يمكن مقابلتها‬
 ‫هل يمكن مقابلتها‬
                                  ‫الكشافات إلى ثلث‬
                                  ‫الكشافات إلى ثلث‬
   ‫بـالنواع التالية::‬
    ‫بـالنواع التالية‬
                                       ‫فئات رئيسية::‬
                                        ‫فئات رئيسية‬

    ‫كشاف الموقع‬       ‫‪‬‬                ‫كشاف الكتاب‬      ‫‪‬‬
                          ‫الويب‬
  ‫كشافات النترانت‬     ‫‪‬‬             ‫كشافات النصوص‬       ‫‪‬‬

          ‫والنترنت‬                        ‫الكشافات‬      ‫‪‬‬

  ‫كشافات الميتاداتا‬   ‫‪‬‬                 ‫الببليوجرافية‬
‫تكشيف الويب‬
                   Web Indexing




Copyright © 2009                  13
Source: Netcraft Web Server Survey, December 2012.
http://news.netcraft.com/archives/2012/12/04/december-2012-web-server-survey.html
2.4 billion – Number of Internet users worldwide
‫خصائص مصادر )الوثائق( الويب‬
‫كم ضخم من البيانات، والنمو المستمر، ارتفاع معدل تغير‬          ‫‪‬‬

                              ‫تنوع كبير وعدم التجانس:‬         ‫‪‬‬

                              ‫جودة ومصداقية المصادر‬       ‫‪‬‬

                   ‫الوثائق الثابتة في مقابل الديناميكية‬   ‫‪‬‬

    ‫أنواع مختلفة من الوسائط ) نص، صور، صوت، الفيديو(‬      ‫‪‬‬

         ‫صيغ مختلفة من الملفات ) ‪(…، H M ،flash ،P‬‬
              ‫‪T L‬‬         ‫‪DF‬‬                              ‫‪‬‬

                         ‫تنوع في الموضوعات، واللغات‬       ‫‪‬‬

                                                ‫العلنات‬       ‫‪‬‬

   ‫النص الفائق ) التشعبي( ، والرتباط ‪ ، linking‬والروابط‬       ‫‪‬‬

                                       ‫‪B‬‬ ‫المعطلة ‪roken‬‬
                                    ‫التكرار ‪Redundancy‬‬        ‫‪‬‬

                                                   ‫موزعة‬      ‫‪‬‬
‫تكشيف الويب‬

‫يعتمد تكشيف الويب وما تحتويه من صفحات ومواقع على‬         ‫‪‬‬

    ‫اختلف أنواعها على أساليب التكشيف اللي حيث أنه‬
  ‫السلوب الذي يتناسب مع طبيعة الويب من حيث الحجم‬
  ‫‪ ، Size‬والتساع ‪ ، scalability‬والتحديث ‪ Update‬المستمر‬
                                           ‫لمحتواها.‬
 ‫‪ (L‬الحاجة إلى التكشيف‬  ‫وصف لينش ) ‪ynch,1996,Online‬‬      ‫‪‬‬

 ‫اليدوي والتكشيف اللي على أنهما ضرورة تفرضها تنوع‬
 ‫احتياجات المستفيدين وتنوع مصادر الويب، حيث يرى أن‬
‫مهارات التصنيف والختيار الدقيق التي يمتلكها المكتبيون‬
‫لبد أن يكملها قدرات وإمكانيات علماء الحاسب اللي في‬
            ‫ميكنة عمليات التكشيف وتخزين المعلومات.‬
                   ‫‪Indexing M‬‬‫أساليب التكشيف ‪ethods‬‬       ‫‪‬‬
‫أول : التكشيف بواسطة الناشرين علي الويب‬

  ‫يتولى الفراد أو المؤسسات التي تضع صفحات معلومات‬          ‫‪‬‬

      ‫علي الويب تكشيف محتويات هذه الصفحات بواسطة‬
‫مجموعة من الكلمات المفتاحية أو الدللية التي تصف بدقه‬
     ‫محتويات هذه الصفحات والتي يمكن أن تستخدم عند‬
         ‫تكشيف هذه الصفحات من خلل محركات البحث.‬
     ‫يتيح أسلوب لتوجيه محركات البحث عند تكشيف هذه‬          ‫‪‬‬

                                        ‫الصفحات.‬
       ‫‪ (M‬أحد اكواد لغة تكويد‬ ‫يعد كود تاج الميتا ) ‪eta T‬‬
                                   ‫‪ag‬‬          ‫/‬           ‫‪‬‬

‫النصوص الفائقة ‪ H M‬من أكثر الوسائل التي يعتمد عليها‬
                                   ‫‪T L‬‬
  ‫ناشري الويب لعداد ميتاداتا تساعد علي وصف المحتوي‬
   ‫الموضوعي لتك الصفحات ) مثل: تاج الكلمات المفتاحيه‬
                    ‫‪ ، K‬وتاج الوصف ‪(Description‬‬ ‫‪eywords‬‬
                                                           ‫‪‬‬
‫أول : التكشيف بواسطة الناشرين علي الويب‬
                                                          ‫) تابع (‬
                                          ‫خداع محركات البحث‬           ‫‪‬‬

  ‫مشكلة تكشيف صفحات الويب تتمثل في قدرة ناشري الويب على‬           ‫‪‬‬

‫معالجة الترتيب من خلل وضع كلمات مفتاحية مكررة في الصفحات‬
 ‫لخداع محركات البحث، وهو ما يشار إليه بالعديد من المصطلحات‬
      ‫‪E‬‬‫) مثل: ،‪ngine Search Persuasion ،Stuffing ،Spam-Indexing‬‬
                                              ‫‪.(K‬‬‫‪eyword Spam‬‬
   ‫تتجاهل العديد من محركات البحث تكشيف الميتاداتا نظرا لنهم‬       ‫‪‬‬

                              ‫يعتبروه حقل مخادع وغير حقيقي.‬

                     ‫من أنواع التكشيف بواسطة البشر:‬                   ‫‪‬‬

                               ‫واصفات البيانات ) الميتاداتا(‬      ‫‪‬‬

                                   ‫التوسيم والفوكسونومي‬           ‫‪‬‬
‫ثانيا : التكشيف فى محركات البحث‬

 ‫تعمل محركات البحث على بناء كشافات لمصادر المعلومات‬        ‫‪‬‬

‫المنشورة على الويب من خلل اشتقاق كلمات أو عبارات من‬
   ‫النصوص نفسها لبناء ملفات تسمح ببحث هذه المشتقات‬
  ‫بالعتماد على أساليب البحث والسترجاع المعروفة ) مثل:‬
        ‫المنطق البولينى، وتجاور المصطلحات، والبتر، الخ(.‬
  ‫أن هذه الملفات ليست أكثر من الملفات المقلوبة التقليدية‬   ‫‪‬‬

        ‫التي استخدمت في السترجاع منذ أن حل السترجاع‬
                      ‫العشوائي محل السترجاع التسلسلي.‬
‫محركات البحث‬
Search Engines
? How far do people look for results




(Source: iprospect.com WhitePaper_2006_SearchEngineUserBehavior.pdf)
‫محركات البحث‬

   ‫تأتي محركات البحث على رأس أدوات البحث والسترجاع‬                ‫‪‬‬

                                ‫للمحتوى على الويب:‬
       ‫نسبة استخدام تقارب 48% من اجمالي إجراءات البحث عن‬      ‫‪‬‬

                                                ‫المحتوى,‬
  ‫بلغ عدد الستفسارت الموجه إلى محركات البحث نحو 051 مليون‬     ‫‪‬‬

                                  ‫استفسار في اليوم الواحد،‬
    ‫%04 من المستخدمين يصلون إلى محتوى الويب من خلل نتائج‬      ‫‪‬‬

                                           ‫محركات البحث .‬
                                                    ‫ومع ذلك:‬      ‫‪‬‬

         ‫تكشف فقط نحو 61% من محتوى الويب القابل للتكشيف‬       ‫‪‬‬

  ‫%08 من المستخدمين ليتجاوزا استخدام أول صفحيتين من نتائج‬     ‫‪‬‬

                                              ‫محركات البحث‬
‫بلغت نسبة التكرار في استرجاع المحتوى بين محركات البحث بعضها‬   ‫‪‬‬

                                         ‫البعض نحو 9.48%‬
Standard Web Search Engine Architecture
                                                                                                     Sponsored Links

                                                                                           CG Appliance Express
                                                                                           Discount Appliances (650) 756-3931
                                                                                           Same Day Certified Installation




                              User
                                                                                           www.cgappliance.com
                                                                                           San Francisco-Oakland-San Jose,
                                                                                           CA

                                                                                           Miele Vacuum Cleaners
                                                                                           Miele Vacuums- Complete Selection
                                                                                           Free Shipping!
                                                                                           www.vacuums.com

                                                                                           Miele Vacuum Cleaners
                                                                                           Miele-Free Air shipping!
                                                                                           All models. Helpful advice.
                                                                                           www.best-vacuum.com




                                Web                                  Results 1 - 10 of about 7,310,000 for miele. (0.12 seconds)

                                Miele, Inc -- Anything else is a compromise
                                At the heart of your home, Appliances by Miele. ... USA. to miele.com. Residential Appliances.
                                Vacuum Cleaners. Dishwashers. Cooking Appliances. Steam Oven. Coffee System ...
                                www.miele.com/ - 20k - Cached - Similar pages




              Web spider        Miele
                                Welcome to Miele, the home of the very best appliances and kitchens in the world.
                                www.miele.co.uk/ - 3k - Cached - Similar pages

                                Miele - Deutscher Hersteller von Einbaugeräten, Hausgeräten ... - [ Translate this
                                page ]
                                Das Portal zum Thema Essen & Geniessen online unter www.zu-tisch.de. Miele weltweit
                                ...ein Leben lang. ... Wählen Sie die Miele Vertretung Ihres Landes.
                                www.miele.de/ - 10k - Cached - Similar pages

                                Herzlich willkommen bei Miele Österreich - [ Translate this page ]
                                Herzlich willkommen bei Miele Österreich Wenn Sie nicht automatisch
                                weitergeleitet werden, klicken Sie bitte hier! HAUSHALTSGERÄTE ...
                                www.miele.at/ - 3k - Cached - Similar pages




                                                                                      Search

              Indexer


  The Web



                    Indexes                                     Ad indexes
‫بنية محرك البحث ‪SE Architecture‬‬

                                         ‫الزواحف ‪: T crawler‬‬
                                            ‫‪he‬‬                        ‫‪‬‬

   ‫برنامج يعمل على توفير المحتوى لمحرك البحث حيث يقوم بتتبع‬       ‫‪‬‬

   ‫الروابط الفائقة بين المواقع للوصول إلى الصفحات التي تشتمل‬
      ‫على المحتوى. ثم استخراج ‪ URL‬واعطائها إلى وحدة التحكم‬
                                  ‫‪s‬‬
                                                     ‫للزاحف.‬

                     ‫وحدة التحكم للزاحف ‪: Crawler Control‬‬             ‫‪‬‬
‫تحديد أي الروابط الفائقة التي سيتم زيارتها مستقبل وتغذية الزاحف‬   ‫‪‬‬

                             ‫بالخوارزميات الخاصة بعملية الزحف.‬
       ‫وحدة تحليل المجموعات ‪:Collection analysis module‬‬               ‫‪‬‬

‫مسئولة عن انشاء الكشافات من واقع تحليل الوثائق وتحديد طبيعة‬       ‫‪‬‬

                                       ‫البني التكوينية للوثائق.‬
‫بنية محرك البحث ) تابع (‬

 ‫المكشف ‪ : Indexer‬يشتمل على ثلثة أنماط من الكشافات.‬                  ‫‪‬‬

       ‫كشافات النص ‪ : text index‬يشتمل على الكلمات المفتاحية‬      ‫‪‬‬

   ‫والعناوين والجمل الدللية الواردة في محتوى الوثيقة المكشفة.‬
‫حيث يعمل على استخراج كافة الكلمات من كافة الصفحات، وتسجيل‬
                   ‫محددات فريدة للمواقع ومكان ظهور كل كلمة.‬
     ‫كشافات البناء ‪ : Structure index‬تعكس الروابط بين الصفحات،‬   ‫‪‬‬

‫وتشتمل على المعلومات التي تتعلق ببنية الروابط الفائقة للصفحات‬
 ‫المكشفة وتحفظ في ملف يعرف بالكشاف الساسي، وتعتمد عليه‬
      ‫الزواحف في تتبع الصفحات لسحبها من خلل الروابط الفائقة.‬
‫كشافات الغراض الخاصة ‪ :Utility index‬ككشافات الكيانات الخرى‬       ‫‪‬‬

 ‫غير الكيانات المكودة بالنصوص الفائقة، مثل كشافات ملفات ‪P‬‬
  ‫‪DF‬‬
                                             ‫وكشافات الصور.‬
‫بنية محرك البحث ) تابع (‬

                       ‫مستودع الوثائق ‪: pages repository‬‬          ‫‪‬‬

‫تقوم محركات البحث باختزان وحفظ الصفحات الملتقطة من الويب‬      ‫‪‬‬

                                    ‫في مستودع الصفحات.‬
                          ‫محرك الستفسار ‪: query engine‬‬            ‫‪‬‬

‫المسئول عن استلم طلبات البحث والستفسارات من المستفيدين.‬       ‫‪‬‬


                              ‫‪: Rank M‬‬‫وحدة الترتيب ‪odule‬‬          ‫‪‬‬

        ‫المسئولة عن ترتيب وفرز النتائج ذات الصلة باستفسارات‬   ‫‪‬‬

                                                ‫المستفيدين.‬
General Web Search Engine Architecture
          CLIENT                                          WWW

QUERIES            RESULTS
                                 PAGE
                                  REPOSITORY
QUERY
              RANKING
ENGINE
                                                     CRAWLER(S)

                    COLLECTION         INDEXER             CRAWL
                   ANALYSIS MOD.       MODULE             CONTROL




                   INDEXES
                             UTILITY   STRUCTURE   TEXT


  USAGE FEEDBACK
‫تفسير‬
    ‫تفسير‬                           ‫محرك البحث ) تابع (‬
    ‫اختلف‬
    ‫اختلف‬
     ‫النتائج‬
    ‫النتائج‬                  ‫تختلف محركات البحث من حيث:‬             ‫‪‬‬
 ‫المسترجعة‬
 ‫المسترجعة‬           ‫طبيعة المواد التي تنتقيها من مصادر الويب‬   ‫‪‬‬

      ‫لنفس‬
     ‫لنفس‬        ‫الساليب التي تستخدمها في تكشيف تلك المواد‬      ‫‪‬‬

  ‫الستفسار‬
  ‫الستفسار‬                       ‫تنوع المصادر المكشفة نفسها‬     ‫‪‬‬

    ‫باختلف‬
    ‫باختلف‬                    ‫القدرات التي تتيحها لبحث المواد‬   ‫‪‬‬

    ‫محركات‬
    ‫محركات‬                          ‫كما تختلف أيضا من حيث:‬          ‫‪‬‬
       ‫البحث‬
‫الجراءات التي تتبعها في تحديد حجم المادة المكشفةالبحث تتراوح‬
       ‫التي‬                                                     ‫‪‬‬

                    ‫ما بين التكشيف النتقائي والتكشيف الشامل،‬
          ‫عدد الحروف أو الكلمات التي يتم تكشيفها من الصفحة.‬     ‫‪‬‬

‫بعض محركات البحث تقوم أول ببناء مستخلص للصفحات المكشفة،‬         ‫‪‬‬

              ‫ثم تستخدم هذا المستخلص في تكشيف الصفحة.‬
‫الزواحف ‪( Crawler (Robots, Spiders‬‬

     ‫تتعامل الزواحف مع الويب من خلل استخدام مجموعة‬                   ‫‪‬‬

        ‫محددات المصدر الموحدة ) ‪ (URL‬كنقاط إرتكازية.‬
                            ‫‪s‬‬
                              ‫تقوم الزواحف بمسح الويب أما:‬           ‫‪‬‬

‫أفقيا: بأن تبدأ بصفحة واحدة ثم تتبع كل الصفحات المرتبطة بها من‬   ‫‪‬‬

            ‫خلل تتبع الروابط الفائقة المتاحة داخل هذه الصفحة‬
‫رأئيا: بأن تتبع رابط فائق واحد من كل صفحة تقابلها حتى تنتهي من‬   ‫‪‬‬

                             ‫العمق المطلوب في تتبع الروابط.‬
  ‫معظم الزواحف تقوم بتقديم معلومات عن الصفحات من‬                     ‫‪‬‬

 ‫أجل تكشيفها ويتم تخزين هذه المعلومات في مستودعات‬
‫للوثائق بمحركات البحث تربط بين معلومات التكشيف وهذه‬
                               ‫الصفحات في مواقعها.‬
  ‫إن نمطية عمل الزواحف يتم تحديدها وفقا لمجموعة من‬                   ‫‪‬‬

                                         ‫السياسات.‬
‫سياسات الزاحف ‪Crawler policies‬‬
    ‫سياسة الختيار ‪ :Selection policy‬حيث يحدد فيها طبيعة‬    ‫‪‬‬

 ‫المحتوى الذي يجب أن يجمع، وتقسم محركات البحث وفقا‬
 ‫لسياسات الختيار إلى: محركات البحث العمودية ‪، Vertical‬‬
        ‫ومحركات البحث العالمية ‪ ، Global‬ومحركات البحث‬
                                             ‫الموضوعية.‬
      ‫‪:P‬‬‫سياسة تكرار زيارة الصفحات ‪age Re-visiting policy‬‬   ‫‪‬‬

‫وتتمثل في تحديد أوقات إعادة التجميع والجدول الزمني لها.‬
  ‫‪ : P‬وتتمثل في‬‫السياسة الخلقية للزاحف ‪oliteness policy‬‬     ‫‪‬‬

 ‫سياسة التهذيب في عدم الثقال على المواقع في تحميلها.‬
‫الكشاف أو الملف المقلوب ‪Inverted Index‬‬
                                  ‫‪((or File‬‬
    ‫هو ذلك الملف الذي يعمل على توفير سبل للوصول إلى‬      ‫‪‬‬

                                     ‫محتوى الوثائق.‬
‫يشتمل على المصطلحات الكشفية بشكل يضمن الفاعلية في‬        ‫‪‬‬

                                        ‫السترجاع.‬
‫يوفر طريقة مختصرة في عملية البحث، بدل من بحث قاعدة‬       ‫‪‬‬

    ‫بيانات الوثائق بأكملها لتحديد المصطلحات الواردة في‬
                                          ‫الستفسار.‬
       ‫يعمل على تنظيم المعلومات في قائمة مختصرة من‬       ‫‪‬‬

    ‫المصطلحات ومن ثم العتماد على المصطلح في تحديد‬
                            ‫مجموعة الوثائق الملئمة.‬
‫الكشاف المقلوب ) تابع (‬

‫نتيجة لتتنوع صيغ الملفات المنشورة على الويب ) ‪، html , pdf‬‬     ‫‪‬‬

                                                     ‫الخ( ؛‬
           ‫‪T‬‬‫لبد من تطويع أو تطبيع النصوص للمعالجة ‪ext‬‬          ‫‪‬‬

                       ‫‪ Normalization‬وفقا لشكل موحد.‬
‫إنشاء مصفوفة المصطلح ــ الوثيقة ‪term-document matrix‬‬           ‫‪‬‬

                                                           ‫:‬
‫‪ :T‬وتشمل تفتيت النصوص الكاملة لكلمات‬‫التأخيذ ‪okenization‬‬    ‫‪‬‬

                                             ‫وتحديدها.‬
‫قائمة الستبعاد ‪ :stopwords‬وتتمثل في استبعاد الكلمات التي‬   ‫‪‬‬

 ‫تحمل دللت معلوماتية ولغوية ضئيلة في الوثيقة، وفي نظم‬
  ‫استرجاع المعلومات عادة ما يتم التخلص من هذة الكلمات‬
                                   ‫لسباب تتعلق بالكفاءة.‬
( ‫الكشاف المقلوب ) تابع‬
                          Term       Doc #       Term       Doc #       Freq
                          now                1   a                  2          1
                          is                 1   aid                1          1
Now is the time
Now is the time           the                1   all                1          1
                          time               1   and                2          1
for all good men
 for all good men         for                1
                                                 come               1          1
                          all                1
                                                 country            1          1
to come to the aid
 to come to the aid       good               1
                          men                1   country            2          1
of their country
 of their country         to                 1   dark               2          1
                          come               1   for                1          1
                          to                 1   good               1          1
                          the                1
 Doc 1                    aid                1
                                                 in                 2          1
                                                 is                 1          1
                          of                 1
                                                 it                 2          1
                          their              1
                          country            1   manor              2          1
                                                 men                1          1
It was a dark and
 It was a dark and        it                 2
                          was                2   midnight           2          1
stormy night in
 stormy night in          a                  2   night              2          1
                          dark               2   now                1          1
the country manor.
 the country manor.       and                2   of                 1          1
                          stormy             2
                                                 past               2          1
                          night              2
The time was past
 The time was past        in                 2
                                                 stormy             2          1
                          the                2   the                1          2
midnight
midnight                  country            2   the                2          2
                          manor              2   their              1          1
Doc 2                     the                2   time               1          1
                          time               2   time               2          1
                          was                2
                                                 to                 1          2
                          past               2
                                                 was                2          2
                          midnight           2
How Inverted Files are Created
Term       Doc #       Freq
a
aid
                   2
                   1
                              1
                              1
                                  Dictionary/Lexicon                       Postings
all                1          1   Term       N docs       Tot Freq       Doc #       Freq
and                2          1   a                   1              1           2          1
come               1          1   aid                 1              1           1          1
country            1          1   all                 1              1           1          1
country            2          1   and                 1              1           2          1
dark               2          1   come                1              1           1          1
                                  country             2              2           1          1
for                1          1
                                  dark                1              1           2          1
good               1          1                                                  2          1
                                  for                 1              1
in                 2          1   good                1              1           1          1
is                 1          1   in                  1              1           1          1
it                 2          1   is                  1              1           2          1
manor              2          1   it                  1              1           1          1
men                1          1   manor               1              1           2          1
                                  men                 1              1           2          1
midnight           2          1
                                  midnight            1              1           1          1
night              2          1
                                  night               1              1           2          1
now                1          1                                                  2          1
                                  now                 1              1
of                 1          1   of                  1              1           1          1
past               2          1   past                1              1           1          1
stormy             2          1   stormy              1              1           2          1
the                1          2   the                 2              4           2          1
the                2          2   their               1              1           1          2
                                  time                2              2           2          2
their              1          1
                                  to                  1              2           1          1
time               1          1
                                  was                 1              2           1          1
time               2          1                                                  2          1
to                 1          2                                                  1          2
was                2          2                                                  2          2
The Hidden / Invisible ‫ماذا عن الويب الخفي‬
                                      Web
  ‫يقصد به مجموعة الصفحات الديناميكية والتفاعلية التي‬                             

  .‫تخزن في قواعد البيانات أو يتم تجميعها حسب الطلب‬
                                                             :‫من بينها‬           

                                            Content found in databases:
                                    Example: ERIC database, Library catalogs.
                                        Subscription database content:
                       Examples: E SCOhost databases, L
                                   B                    exisNexis Academic.
                                    Sites requiring login authorization
                                    Examples: Blackboard, membership sites.
       Sites blocked by Robot Exclusion Protocols (with a no-index
                                                          protocol)
                                                                         etc.
‫واصفات البيانات )الميتاداتا(‬
         ‫‪Metadata‬‬
‫المشكلة والحل...‬
                                                 ‫المشكلة:‬      ‫‪‬‬
‫تضخم مخرجات النشر الفردي والمؤسسي على شبكة الويب‬           ‫‪‬‬

     ‫وما ترتب عليه من إشكالية ضبط وتنظيم مصادر الويب‬
               ‫وتنظيمها لتيسير استكشافها واسترجاعها .‬
                                            ‫الحل المقترح:‬      ‫‪‬‬
  ‫أن تصاحب مصدر المعلومات بياناته الواصفة ) الميتاداتا(‬    ‫‪‬‬

‫التي تيسر تحديد هويته واسترجاعه وضبط استخدامه والذي‬
              ‫يتولى منشئ الوثيقة تضمينها أو من ينوب عنه.‬
‫التعريف والمفهوم‬

  ‫الميتاداتا هي "البيانات المتضمنة في كيا ن ما أو المرتبطة‬
                 ‫ٍ‬                                                ‫‪‬‬
  ‫) ‪ISO‬‬   ‫بكيا ن ما وتصف هذا الكيان وتساعد في استرجاعه”.‬
                                                  ‫ٍ‬
                                                ‫2002-5-9548(‬

  ‫الميتاداتا هي مصطلح ارتبط بوصف وتحديد هوية وملمح‬                ‫‪‬‬
‫وصفات كيان معلوماتي ‪ Information Object‬قائم على‬
                                ‫شاهين(‬   ‫شبكة الويب. ) شريف‬

                   ‫‪: Descriptive M‬‬‫الميتاداتا الوصفية ‪etadata‬‬      ‫‪‬‬
       ‫تستخدم في تحديد خصائص الكيان المعلوماتي ووصفه‬          ‫‪‬‬

‫لغراض التكشيف والسترجاع، فهي تشمل عناصر مثل العنوان‬
                  ‫والمؤلف والمستخلص والكلمات المفتاحية.‬
   ‫توفر معلومات مهيكلة ‪ structured information‬تعزز عمليات‬     ‫‪‬‬

‫‪،F‬‬‫المعالجة اللية ) مثل: إتاحة البحث بالحقول ‪ielded searches‬‬
‫طرق ربط الميتاداتا بمصدر المعلومات‬
                      ‫أو ل: التضمين ‪Embedded metadata‬‬
                                                 ‫ً‬                           ‫‪‬‬
  ‫حيث يتم إنشاء الميتاداتا في نفس وقت إنشاء المصدر ومتضمنة مع لغة‬        ‫‪‬‬
                                                      ‫تكوين الوثيقة.‬
                   ‫ثانيا: المصاحبة ‪Associated metadata‬‬                       ‫‪‬‬
‫وفيها يتم إنشاء ملف يحتوي على الميتاداتا ويصاحب أو يزاوج ملف المصدر‬      ‫‪‬‬
‫محل الوصف؛ بمعنى أن لدينا ملفين الول للمحتوى والثاني لعناصر وصف‬
                                                 ‫المحتوى )الميتاداتا(.‬
                   ‫ثالثا: المستقلة ‪Third-Party metadata‬‬                      ‫‪‬‬
   ‫وفيها يتم الحتفاظ بالميتاداتا بمستودعات مستقلة عن المصادر من قبل‬      ‫‪‬‬
  ‫مؤسسات قد تملك أو ل تملك حق التحكم في المحتوى، وغالبا ما تكون‬
                                    ‫الميتاداتا مخزنة في قواعد بيانات.‬
Web site




  Source




           Metadata
‫خطط الميتاداتا ‪schema‬‬
    ‫خطط الميتاداتا هي عبارة عن مجموعة من عناصر الميتاداتا، مع‬         ‫‪‬‬
 ‫قواعد استخدامها، وقد قصد بهذه المجموعة أن تحقق هدفا معينا.‬
                                       ‫صُ‬
    ‫هناك ثلثة عناصر رئيسية مرتبطة بأي خطة من خطط الميتاداتا،‬          ‫‪‬‬
                                                       ‫وهي:‬
                             ‫دللت عناصر البيانات ‪semantics‬‬       ‫.1‬
                               ‫قواعد المحتوى ‪content rules‬‬       ‫.2‬
        ‫التركيبة أو الصيغة ‪ Syntax‬التي ترد فيها عناصر البيانات‬   ‫.3‬
                                                  ‫معيار دبلن ‪DC‬‬       ‫‪‬‬
 ‫يستهدف دعم استكشاف المصادر اللكترونية على شبكة الويب‬            ‫‪‬‬
                                               ‫ووصفها.‬
‫يتسم بعمومية استخدامه حيث يوجه لكل المشتغلين بالمعلومات‬          ‫‪‬‬
    ‫من أخصائيي مكتبات وموردين ومطوري المحتوى الرقمي.‬
‫عناصر المحتوى‬
‫عنوان ‪ :Title‬اسم يعطى للمصدر، هو السم الذي يعرف به المصدر‬
             ‫صُ‬                                                    ‫‪‬‬
                                                     ‫رسميا.‬
     ‫موضوع وكلمات مفتاحية ‪ :Subject‬يعبر عن موضوع محتوى‬             ‫‪‬‬
   ‫المصدر، بكلمات أو عبارات مفتاحية، أو برموز تصنيف تصف موضوع‬
  ‫المصدر. ويوصى باختيارها من قائمة مصطلحات مقيدة، أو من خطة‬
                                                ‫تصنيف رسمية.‬
‫وصف ‪ :Description‬بيان محتوى المصدر، وتشتمل أمثلة الوصف على:‬        ‫‪‬‬
‫مستخلص، أو قائمة محتويات، أو إشارة إلى تمثيل رسومي للمحتوى، أو‬
             ‫نص حر يصف المحتوى، ولكنه ل يقتصر على ذلك فقط.‬
‫مصدر ‪ :Source‬إشارة إلى مصدر استمد منه المصدر الحالي،قد يستمد‬       ‫‪‬‬
      ‫المصدر الحالي كليا أو جزئيا من مصدر آخر، ويوصى عند تعريف‬
  ‫المصدر استخدام رقم أو سلسلة أرقام تؤخذ من نظام رسمي لتحديد‬
                                                         ‫الهوية.‬
‫)تابع(‬   ‫عناصر المحتوى‬

   ‫لغة ‪ :Language‬لغة المحتوى الفكري للمصدر، ويوصى باستخدام‬           ‫‪‬‬
    ‫المواصفة الدولية 936‪ ISO‬التي تستخدم حرفين أو ثلثة حروف‬
   ‫لتيجان اللغة. ومثال ذلك " ‪ "EN‬أو " ‪ "Eng‬للغة النجليزية، و" ‪"Akk‬‬
   ‫للغة الكادية، و" ‪ "EN-GB‬للغة النجليزية المستخدمة في المملكة‬
                                                         ‫المتحدة.‬
 ‫علقة ‪ :Relation‬إشارة إلى مصدر ذي علقة أو ارتباط، ويوصى عند‬          ‫‪‬‬
‫تعريف المصدر استخدام رقم أو سلسلة تؤخذ من نظام رسمي لتحديد‬
                                                       ‫الهوية.‬
      ‫تغطية ‪ :Coverage‬المدى أو المجال لمحتوى المصدر، وتشتمل‬          ‫‪‬‬
 ‫التغطية على حيز مكاني )اسم مكان، أو إحداثيات جغرافية(، أو فترة‬
‫زمنية )مميز فترة، أو تاريخ، أو مدى تاريخي(، أو سلطة )مثل اسم كيان‬
 ‫إداري(. ويوصى باختيار قيمة من قائمة مصطلحات مقيدة )مثل، مكنز‬
     ‫السماء الجغرافية ] ‪ ( [TGN‬واستخدام أسماء الماكن أو الفترات‬
                                                          ‫الزمنية.‬
‫التوسيم والواسمات‬
  ‫‪Tagging & tags‬‬
‫التعريف والمفهوم‬
  ‫التوسيم مأتى للميتاداتا الموضوعية لنواع متعددة من مصادر الويب‬       ‫‪‬‬
  ‫بواسطة الناس ؛ لغراض التنظيم والسترجاع التشاركي للمعلومات،‬
                               ‫دون قيود أو قواعد تطبيق معقدة،‬
    ‫يمكن أن تتم بواسطة غير الخبراء، وأنها بديل غير مكلف للفهرسة‬       ‫‪‬‬
                        ‫التقليدية لمصادر النترنت. )فتحي عبدالهادي(‬

    ‫الواسمة هي كلمة مفتاحية أو مصطلح غير هرمي يخصص لقطعة‬              ‫‪‬‬
      ‫معلومات )مثل صورة رقمية، ملف كمبيوتر، روابط إنترنت مفضلة،‬
‫الخ(. ويساعد هذا النوع من الميتاداتا في وصف مادة ما والعثور عليها‬
       ‫مرة أخرى إما بواسطة التصفح أو البحث. وبشكل عام يتم اختيار‬
     ‫الكلمات الدللية من جانب منشيء المادة أو من يقوم باستعرضها‬
    ‫إعتمادا على النظام. وقد انتشر التوسيم بارتباطه بالجيل الثاني من‬
     ‫الويب فهو خاصية مهمة للعديد من خدمات الويب 2. )‪(Wikipedia‬‬
‫التعريف والمفهوم )تابع(‬

 ‫الواسمات أو الكلمات الدللية يمكن أن تعتمد على:‬               ‫‪‬‬
                        ‫الموضوع )مثل الطبخ، الميتاداتا(‬   ‫‪‬‬
                          ‫الشكل )مثل الصور، المدونات(‬     ‫‪‬‬
                           ‫الغرض )مثل التسليم، السفر(‬     ‫‪‬‬
              ‫الوقت )مثل فبراير، الن، 9002، المستقبل(‬     ‫‪‬‬
               ‫الفعال او الوضع )مثل تقرأ، تفرز، ملكي(‬     ‫‪‬‬
‫ردود الفعال المؤثرة أو النقدية )مثل بارد، مؤلف أكاديمي(‬   ‫‪‬‬
‫‪ ‬لماذا ننشئ الواسمات..؟‬
                                               ‫لتنظيم المعلومات‬    ‫‪‬‬

                                              ‫لدعم عملية البحث‬     ‫‪‬‬

                                   ‫لجيجاد نفس الواسمات فيما بعد‬    ‫‪‬‬

                        ‫لستكشاف الموقع ومشاركتها مع الرخرجين‬       ‫‪‬‬

‫لتنظيم مجموعة ضخمة في فئات تتناغم مع النموذج العقلي للمستفيد..‬     ‫‪‬‬

                           ‫لكشفها علنا/إظهارها وزجيادة استخدامها‬   ‫‪‬‬

                          ‫للستفادة من الوظيفية/المكانية المتاحة‬    ‫‪‬‬

                                       ‫طرجيقة للتعبير عن آراءهم‬    ‫‪‬‬

                                                     ‫للعب لعبة..‬   ‫‪‬‬
‫أنواع التوسيم‬
                                    ‫توسيم الجمهور ‪:public tagging‬‬               ‫‪‬‬
      ‫فيه يسمح لزائري الموقع إضافة وإدراة واسمات المحتوى الخاص بهم.‬         ‫‪‬‬
‫وبال مقارنة بالتبويب التقليدي وغيرها من أساليب التكشيف؛ فإن التوسيم العام‬
  ‫يسمح للزائرين حرية الختيار للكلمات الدللية/المفتاحية لوصف المحتوى، ب‬
 ‫معنى أن المستفيدين من المحتوى هم الذين يحددون مدى ارتباطها أو صلتها‬        ‫‪‬‬
             ‫بالموضوع، مثل مواقع المفضلت الجتماعية )مثل ,‪Digg.com‬‬
                                                       ‫‪.(Del.icio.us‬‬
‫عندما يقوم المستفيدين بتعيين واسمات ذات صلة بالمحتوى أو الرابط الذي تم‬      ‫‪‬‬
     ‫إرساله أو تحميله للموقع؛ بعدها يمكن للمستفيدين الخرين البحث بهذه‬
   ‫الواسمات للعثور على المحتوى. ومن ثم فإنه عند القيام بعملية بحث يكون‬
    ‫العتماد على توسيم مستخدمي المحتوى واتفاقهم على ارتباط الواسمات‬
  ‫المستخدمة بالمحتوى، أفضل من العتماد فقط على الواسمات التي وضعها‬
                                               ‫منشيء أو ناشر المحتوى.‬
‫أنواع التوسيم‬

                                 ‫توسيم الناشر ‪:publisher tagging‬‬               ‫‪‬‬
   ‫يختلف عن النوع الول فقط في أن منشيء أو ناشر المحتوى هو فقط من‬           ‫‪‬‬
   ‫يقوم بوضع الواسمات أو الكلمات الدللية، ول يسمح لغيره من المستفيدين‬
                                                    ‫بإضافتها أو إنشاءها.‬
‫يعد موقع فليكر ‪ Flicker‬لمشاركة الصور من أكثر المثلة على هذا النوع، حيث‬     ‫‪‬‬
   ‫يمك ن للشخص الذي يقوم بمشاركة الصور من توسيم كل منها بسلسلة من‬
‫الكلمات المفتاحية أو الدللية، بحيث يمكن بعدها لمستخدمي الموقع البحث عن‬
            ‫الصور اعتماداعلى تلك الواسمات المصاغة من قبل ناشري الصور.‬
‫توسيم الناشر‬
                 ‫توسيم الناشر‬




‫توسيم الجمهور‬
 ‫توسيم الجمهور‬
‫نموذج نظم التوسيم ‪Tagging Systems Model‬‬
                                  ‫ممحممم ”مممممميث“ أن النموذج‬
                                                     ‫س‬      ‫أوض‬          ‫‪‬‬
                                 ‫مامممسي ممممم التوسيم يتكون‬
                                                  ‫لنظ‬       ‫الس‬
‫مستفيد‬                           ‫من ثلثة عناصر، هي: المستفيد،‬
                                            ‫والمصادر، والواسمات.‬
                                 ‫ممامممدر هي الكيانات المراد‬
                                                         ‫المص‬            ‫‪‬‬
                                                    ‫توسيمها.‬
                         ‫مصادر‬
                                 ‫الواسمات هي الكلمات المفتاحية‬           ‫‪‬‬
                                                      ‫أو الدللية‬
                                                ‫تحدد نظم التوسيم:‬        ‫‪‬‬
                ‫واسمات‬
                                              ‫من يقوم بعملية التوسيم‬     ‫‪‬‬
                                                 ‫ما الذي يمكن توسيمه‬     ‫‪‬‬
                                  ‫ما نوع الواسمات/الكلمات الدللية التي‬   ‫‪‬‬
                                                       ‫يمكن استخدامها‬
‫العيوب‬
           ‫التضليل في صياغة الواسمات لضمان الوصول للمصدر.‬       ‫‪‬‬
      ‫استخدام الواسمات غير ذات دللة أو الغامضة )مثل أنا كئيب،‬   ‫‪‬‬
       ‫5، ‪ ،(zzzzzzz‬ومن ثم ل تكون واصفة للمواد التي تحويها.‬
‫عدم وجود لغة مقيدة للواسمات يجعل من الصعوبة الوصول لجميع‬        ‫‪‬‬
                                       ‫المواد أو البحث عنها.‬
‫سحب/حشود الواسمات ‪tag cloud‬‬

‫هي عبارة عن تمثيلت مرئية للتيجان؛ تستهدف في الساس التمثيل‬            ‫‪‬‬
   ‫المرئي لمعدلت تكرار أو شدة الستخدام لتيجان بعينها، مما يدلل‬
                      ‫على أهميتها النسبية قياسا بغيرها من التيجان.‬
‫الفوكسونومي‬
‫‪Folksonomy‬‬
‫المفهوم والمصطلح‬

      ‫يرجع ظهور مصطلح ”‪ “Folksonomy‬إلى مقال لـ ”توماس فاندر“ ‪Thomas‬‬                     ‫‪‬‬
   ‫‪ Vander‬عام 4002 ؛ للتعبير عن تصنيف يبتكره المستخدمون, ويتكون المصطلح من‬
          ‫المزج بين مصطلحين: الناس/البشر ”‪ ،“Folk‬والتصنيف ”‪.“Taxonomy‬‬
      ‫الفوكسونومي هو نظام منشا بواسطة المستفيد ‪ User-generated‬يسمح بتوسيم‬
                                                              ‫نُ‬                        ‫‪‬‬
         ‫مصادرهم الرقمية المفضلة باستخدام كلمات أو جمل اللغة الطبيعية التي يخترونها.‬
    ‫الفوكسونومي هو ممارسة لمنهجية تعاونية في إنشاء وإدارة الواسمات لشرح أو توضيح‬        ‫‪‬‬
                                  ‫‪ annotate‬وتبويب ‪ categorize‬المحتوى.‬
    ‫الفوكسونومي هو ناتج التوسيم الحر للمعلومات والكيانات على الويب )أى شئ له عنوان‬      ‫‪‬‬
                     ‫موحد للمصدر ‪ (URL‬بواسطة المستفيد ولرغراضه السترجاعية.‬
     ‫الفوكسونومي هو تعبير عن محتوى الويب من خلل المستخدمين رغير المهنيين، على أن‬        ‫‪‬‬
‫يكون هذا التنظيم وفق رؤيتهم من خلل تأثرهم بالثقافة والمجتمع واللغة وأشياء أخرى كثيرة،‬
                                      ‫على أن يتم استرجاع المحتوى بنفس طريقة التنظيم.‬
‫عناصر الفوكسونومي‬
    ‫تتمثل مقومات إنشاء الفوكسونومي في ثلثة‬       ‫‪‬‬
      ‫عناصر رئيسية: المصادر، والمستفيديون،‬
            ‫والواسمات )الكلمات الدللية/الدالة(‬
‫يضاف إلى العناصر السابقة تطوير بيئة تعاونية‬      ‫‪‬‬
‫مبنية على الويب )الجيل الثاني من الويب ‪web‬‬
                                       ‫0.2(.‬
‫يتولى المستفيدون مهمة صيانة هذا التصنيف من‬       ‫‪‬‬
          ‫خلل إضافتهم للمزيد من الواسمات‬
‫الونواع‬
                             ‫الفوكسونومي العريض ‪Broad Folksonomy‬‬                     ‫)1‬
    ‫وهو التصنيف الذى من خلله يتمكن عدد من المستفيدين من أن يضعوا الرمز أو‬        ‫‪‬‬
         ‫الكلمة الدللية المناسبة من وجهة نظرهم كما هو الحال فى دليشيز )الشكل(‬
‫يستخدم كأداة لكشف اتجاهات مجموعة من المستخدمين أثناء وضعهم لعنصر أو وثيقة‬        ‫‪‬‬
         ‫واحدة، بحيث يمكن بعد ذلك استخدام تلك القائمة التى وضعت لختيار أفضل‬
                           ‫نُ‬
                                        ‫المصطلحات للتعبير عن ذلك المحتوى.‬
                             ‫الفوكسونومي الضيق ‪Narrow Folksonomy‬‬                     ‫)1‬
  ‫فيه يمكن للمستفيد أن يحدد رموزا لسهاماته فقط ويتم وضعها مرة واحدة فقط، ول‬
                                             ‫اً‬                                  ‫‪‬‬
                                  ‫يمكن لمستفيد آخر من توسيم تلك السهامات.‬
‫الفرق الجوهري بين النوعين في من يضع الكلمات الدللية؛ ففي الفوكسونومي الضيق‬       ‫‪‬‬
    ‫يقتصر وضع الواسمات )الكلمات الدللية( على المستخدم الذي رفع المحتوى إلى‬
  ‫الموقع فقط دون رغيره، والعكس في الفوكسونومي العريض حيث يسمح للمستخدمين‬
                                               ‫جميعا بوضع واسمات للمحتوى.‬
http://technorati.com/tag
‫المزايا‬
      ‫الشمولية: فهو ي عكس المفردات المستخدمة من جانب المستفيدين، وهو بذلك يمكن أن‬      ‫‪‬‬
 ‫يوصف بأنه أكثر ديمقراطية مقارنة بالنظم الخرى التى تعتمد على اللغات المقيدة. حيث‬
         ‫يقدم هذا السلوب الفرصة لكل مستفيد للتعبير عن المحتوى الموضوعى بطريقته‬
‫الخاصة، والسماح بمشاركة رغيره من المستفيدين فى الرموز الموضوعة للتعبير عن وثيقة‬
                                                                            ‫واحدة.‬
    ‫الملئمة والتساع: يمكن من خلل الفوكسونومي أن يتسع للمظاهر الجديدة فى مجال‬           ‫‪‬‬
                                                      ‫معين أو لموضوع معين.‬
       ‫يعكس فعليا المصطلحات التي يتم استخدامها من قبل الفراد المستخدمين لمصادر‬
                                  ‫بِ‬                                                   ‫‪‬‬
                                                                    ‫المعلومات.‬
   ‫يعتبر بداية لتصميم نظام )مكنز(، حيث يعتبر نواة لبداية العمل على التنقيح والستبعاد‬   ‫‪‬‬
                                                                   ‫لتكوين مكنز جيد.‬
‫المزايا‬
‫المصطلحات التي يستخدمها الفراد قد تكون أكثر حداثة مقارنة بالمهنيين، وقد يرجع ذلك‬      ‫‪‬‬
   ‫لمتابعتهم المستمرة لكل ما يضاف من مصادر وما يستحدث من مصطلحات في مجال‬
                                                                        ‫اهتماماتهم.‬
                       ‫إمكانية إضافة العديد من المصطلحات للتعبير عن مصدر واحد.‬        ‫‪‬‬
‫عدم وجود مصطلحات أو كلمات دالة يعتمد عليها هذا النوع من التصنيف؛ ومن ثم فيمكن‬         ‫‪‬‬
‫لى مستفيد أن يضع الرموز التى يراها مناسبة من وجهة نظره، وقد تكون مناسبة بالفعل‬
                                                                   ‫وقد ل تكون.‬
 ‫إمكانية استخدام المستخدم للغته الخاصة التي يمكن بها وصف المعلومات بكلمات تعكس‬        ‫‪‬‬
                                                                        ‫ثقافته.‬
‫إمكانية استخدام المستخدم لمصطلحات ذات معاني معينة تعكس مدى اهتمامه بالموضوع.‬          ‫‪‬‬
  ‫المشاركة الموضوعية عن طريق تجميع الهتمامات الخاصة بالمستخدمين كلهم وإتاحة‬           ‫‪‬‬
                                                  ‫المصادر المتعلقة بهذا الهتمام.‬
‫المزايا‬
‫عدم وجود الهرمية في التنظيم؛ وبالتالي ل يحتاج المستخدم أن يكون ملما بنظام تصنيف‬   ‫‪‬‬
 ‫معين ليتصفح الموقع، حيث ل يحتاج إلى فهم المصطلحات وإيجاد الروابط المختلفة أو‬
                     ‫حتى محاولة التفكير في أي رأس موضوع يندرج تحته استفساره.‬
   ‫سهولة وضع الواصفات أو المصطلحات دون الحاجة إلى التدريب على التصنيف أو‬          ‫‪‬‬
                                                                 ‫التكشيف.‬
    ‫استخدام المصطلحات الكثر استخداما )شائعة( كمصطلحات واصفة للمعلومات مما‬         ‫‪‬‬
                      ‫يساعد على سهولة استرجاعها بالطريقة الشائعة لغير المهنيين.‬
                          ‫من السهل إدراج أي واصفات جديدة وتغييرها أو تحديثها.‬     ‫‪‬‬
‫الونتقادات‬
‫نقص الدقة: رغياب الضبط يسمح لمستخدمي الموقع تحديد أو وضع الكلمات التى تعبر‬     ‫‪‬‬
  ‫عن المحتوى الموضوعى لوثيقة ما، وعلى ذلك فيمكن أن نجد أشكال مختلفة للكلمة‬
   ‫الواحدة، صيغة المفرد والجمع للسماء، الختصارات؛ وذلك لتباين ثقافات الفراد‬
                                                                 ‫ومستوياتهم.‬
             ‫التصنيف الحر ل يشتمل على دليل للستخدام أو ملحظات توضيحية.‬         ‫‪‬‬
  ‫ينتج عنه عدد من مشكلت استكشاف العلقات بين الكلمات الدللية؛ كنتيجة طبيعية‬     ‫‪‬‬
  ‫لتفاوت طبيعية مستوى الكلمات المستخدمة للتعبير عن المحتوى ما بين مصطلحات‬
                           ‫رغاية فى العمومية إلى مصطلحات رغاية فى التخصيص.‬
‫صعوبة السترجاع في بعض الحيان؛ فالشخص الذي يبحث عن موضوع معين يجب‬               ‫‪‬‬
‫عليه أن يكون على دراية بثقافة الخرين؛ حتى يتمكن من البحث بالمصطلح الذي أتى‬
                            ‫به بعض الشخاص الواضعين للواصفات من قبلهم.‬
                                 ‫بِ‬
‫الونتقادات‬
     ‫الغموض والختلف في المعاني بجانب كثرة المرادفات من حيث إعطاء أكثر من‬       ‫‪‬‬
                                                ‫مسمى )مصطلح( لمعنى واحد.‬
    ‫تعدد استخدام الشكال لرصد المحتوى، حيث هناك من يضع )كلمة واحدة( لوصف‬        ‫‪‬‬
                        ‫المحتوى وهناك من يضع )شبه جملة( أو )جملة كاملة(.‬
‫تشابه بعض المصطلحات في طريقة الكتابة مع اختلف المعنى، مثال: المغرب )دولة(،‬     ‫‪‬‬
                                        ‫المغرب )صلة(، المغرب )جهة الغرب(.‬
 ‫اختلف التعبير عن المصطلحات فهناك من يعبر )بالصيغة المفردة(، وهناك من يعبر‬     ‫‪‬‬
                                                           ‫)بالصيغة الجمع(.‬
‫عدم وجود رقابة من قبل المسئولين عن الموقع على الواصفات التي يتم وضعها من قبل‬
  ‫بِ‬                                                     ‫نُ‬                    ‫‪‬‬
                          ‫المستخدمين مما يؤدى إلى وجود بعض اللفاظ الخارجة.‬
                  ‫استخدام مصطلحات رغير لغوية من قبل فئة معينة من المستخدمين.‬
                                             ‫بِ‬                                ‫‪‬‬
‫الونتقادات‬
                       ‫استخدام أكثر من لغة واحدة للتعبير عن المحتوى.‬   ‫‪‬‬
        ‫استخدام البعض للكلمات الخاصة أو الضمائر، مثال: كلبي – كلب.‬     ‫‪‬‬
‫استخدام الكثير من العلمات التي تعيق عملية السترجاع، مثـال: & - % -.‬    ‫‪‬‬
                               ‫استخدام المصطلحات العامية كواصفات.‬      ‫‪‬‬
‫مزيد من المعلومات .. قراءات .. مصادر‬
                     .2000 ،‫حشمت قاسم . مدخل لدراسة التكشيف والستخلص.ـ القاهرة: دار غريب‬             
   Larson and Hearst’s slides, at UC-Berkeley. http://www.sims.berkeley.edu/courses/is202/f00/
   Wolfgang Hürst (2006). Web Search, Albert-Ludwigs-University Freiburg, Germany, Summer
    Term
   Zdravko Markov and Daniel T. Larose, Data Mining the Web: Uncovering Patterns in Web
    Content, Structure, and Usage, Wiley, 2007. Slides for Chapter 1: Information Retrieval an Web
    Search
   K.T. Anuradha. Search Engines for Intranets. National Centre for Science Information (NCSI),
    Indian Institute of Science, Bangalore
   Dragomir R. Radev. Search Engine Technology
    ‫خالد عبد الفتاح . تحليل وفرز النتائج في محركات بحث الشبكة العنكبوتية. في: مؤتمر محركات البحث‬     
                                                          .2005 ‫على النترنت، شرم الشيخ، فبراير‬
‫مؤمن سيد النشرتي. التحديات التي تواجه خوارزميات محركات البحث في استرجاع المحتوى العربي على‬           
    .(2012 ‫.- ع 92 )سبتمبر‬Cybrarians Journal -.‫الشبكة العنكبوتية العالمية دراسة مسحية تحليلية‬
‫محمد فتحي عبد الهادي. التجاهات الحديثة في التحليل الموضوعي للمعلومات وموقف قطاع‬           ‫‪‬‬
            ‫المعلومات العربي منها. في: مؤتمر التحاد العربي للمكتبات والمعلومات، المغرب، 9002.‬

‫شريف كامل شاهين. التجاهات الحديثة في التحليل الموضوعي .ـ مجلة المكتبات والمعلومات العربية،‬      ‫‪‬‬
                                                                  ‫س42 ، ع2)4002(. ص 5-14.‬

‫‪‬‬   ‫:‪Smith, Gene. Tagging: People-Powered Metadata for the Social Web.- Berkeley, California‬‬
    ‫8002,‪New Riders‬‬

‫‪‬‬   ‫‪Getting, B. (2007). What Are “Tags” And What Is “Tagging?”. Retrieved 5 2, 2011, from‬‬
    ‫-‪http://www.practicalecommerce.com/articles/589-What-Are-Tags-And-What-Is-Tagging‬‬
آليات التكشيف على الويب وأدواته

Contenu connexe

Tendances

منهجية تحليل المحتوى
منهجية تحليل المحتوىمنهجية تحليل المحتوى
منهجية تحليل المحتوىAbdulrahman Amer
 
مقارنة وصف المصادر وإتاحتها مع قواعد الفهرسة الأنجلو أمريكية / إعداد محمد عب...
مقارنة وصف المصادر وإتاحتها مع قواعد الفهرسة الأنجلو أمريكية  / إعداد محمد عب...مقارنة وصف المصادر وإتاحتها مع قواعد الفهرسة الأنجلو أمريكية  / إعداد محمد عب...
مقارنة وصف المصادر وإتاحتها مع قواعد الفهرسة الأنجلو أمريكية / إعداد محمد عب...Muhammad Muawwad
 
تكشيف الدوريات والوثائق
تكشيف الدوريات والوثائقتكشيف الدوريات والوثائق
تكشيف الدوريات والوثائقHuda Farhan
 
أنظمة المعلومات الإدارية المتقدمة 9001
أنظمة المعلومات الإدارية المتقدمة  9001أنظمة المعلومات الإدارية المتقدمة  9001
أنظمة المعلومات الإدارية المتقدمة 9001Arab International Academy
 
إنشاء و تكشيف الوثائق النصية الرقمية بإستعمال المعيار الدولي TEI
إنشاء و تكشيف الوثائق النصية الرقمية بإستعمال المعيار الدولي TEI  إنشاء و تكشيف الوثائق النصية الرقمية بإستعمال المعيار الدولي TEI
إنشاء و تكشيف الوثائق النصية الرقمية بإستعمال المعيار الدولي TEI zghibi
 
دبلن كور / إعداد محمد عبدالحميد معوض
دبلن كور / إعداد محمد عبدالحميد معوضدبلن كور / إعداد محمد عبدالحميد معوض
دبلن كور / إعداد محمد عبدالحميد معوضMuhammad Muawwad
 
فهرسة الكتب المطبوعة والإلكترونية وفقا لمعيار وصف المصادر وإتاحتها / ترجمة مح...
فهرسة الكتب المطبوعة والإلكترونية وفقا لمعيار وصف المصادر وإتاحتها / ترجمة مح...فهرسة الكتب المطبوعة والإلكترونية وفقا لمعيار وصف المصادر وإتاحتها / ترجمة مح...
فهرسة الكتب المطبوعة والإلكترونية وفقا لمعيار وصف المصادر وإتاحتها / ترجمة مح...Muhammad Muawwad
 
مهارات البحث في مصادر المعلومات الالكترونية
مهارات البحث في مصادر المعلومات الالكترونيةمهارات البحث في مصادر المعلومات الالكترونية
مهارات البحث في مصادر المعلومات الالكترونيةرؤية للحقائب التدريبية
 
URI FAQs = أسئلة تتردد باستمرار عن المعرف الموحد للمصدر / ترجمة محمد عبد ...
  URI FAQs  =  أسئلة تتردد باستمرار عن المعرف الموحد للمصدر / ترجمة محمد عبد ...  URI FAQs  =  أسئلة تتردد باستمرار عن المعرف الموحد للمصدر / ترجمة محمد عبد ...
URI FAQs = أسئلة تتردد باستمرار عن المعرف الموحد للمصدر / ترجمة محمد عبد ...Muhammad Muawwad
 
الإجراءات الفنيه فى المكتبات
الإجراءات الفنيه فى المكتبات الإجراءات الفنيه فى المكتبات
الإجراءات الفنيه فى المكتبات Mustafa Galal
 
data mining.pptx
data mining.pptxdata mining.pptx
data mining.pptxGarmian
 
التعرف على انظمة الأتمتة المتكاملة والمجانية لإدارة المكتبات العامة / Integra...
التعرف على انظمة الأتمتة المتكاملة والمجانية لإدارة المكتبات العامة / Integra...التعرف على انظمة الأتمتة المتكاملة والمجانية لإدارة المكتبات العامة / Integra...
التعرف على انظمة الأتمتة المتكاملة والمجانية لإدارة المكتبات العامة / Integra...Lebanese Library Association
 
أخطاء الفهرسة وأسبابها والمعدل المقبول/ إعداد محمد عبدالحميد معوض
أخطاء الفهرسة وأسبابها والمعدل المقبول/ إعداد محمد عبدالحميد معوضأخطاء الفهرسة وأسبابها والمعدل المقبول/ إعداد محمد عبدالحميد معوض
أخطاء الفهرسة وأسبابها والمعدل المقبول/ إعداد محمد عبدالحميد معوضMuhammad Muawwad
 
نظم استرجاع المعلومات
نظم استرجاع المعلوماتنظم استرجاع المعلومات
نظم استرجاع المعلوماتBeni-Suef University
 
فهرسة مارك 21 باستخدام قواعد RDA
فهرسة مارك 21 باستخدام قواعد RDAفهرسة مارك 21 باستخدام قواعد RDA
فهرسة مارك 21 باستخدام قواعد RDABasant Anter
 
مقدمة في قواعد البيانات
مقدمة في قواعد البياناتمقدمة في قواعد البيانات
مقدمة في قواعد البياناتMahmoud Almadhoun
 

Tendances (20)

منهجية تحليل المحتوى
منهجية تحليل المحتوىمنهجية تحليل المحتوى
منهجية تحليل المحتوى
 
مقارنة وصف المصادر وإتاحتها مع قواعد الفهرسة الأنجلو أمريكية / إعداد محمد عب...
مقارنة وصف المصادر وإتاحتها مع قواعد الفهرسة الأنجلو أمريكية  / إعداد محمد عب...مقارنة وصف المصادر وإتاحتها مع قواعد الفهرسة الأنجلو أمريكية  / إعداد محمد عب...
مقارنة وصف المصادر وإتاحتها مع قواعد الفهرسة الأنجلو أمريكية / إعداد محمد عب...
 
تكشيف الدوريات والوثائق
تكشيف الدوريات والوثائقتكشيف الدوريات والوثائق
تكشيف الدوريات والوثائق
 
أنظمة المعلومات الإدارية المتقدمة 9001
أنظمة المعلومات الإدارية المتقدمة  9001أنظمة المعلومات الإدارية المتقدمة  9001
أنظمة المعلومات الإدارية المتقدمة 9001
 
إنشاء و تكشيف الوثائق النصية الرقمية بإستعمال المعيار الدولي TEI
إنشاء و تكشيف الوثائق النصية الرقمية بإستعمال المعيار الدولي TEI  إنشاء و تكشيف الوثائق النصية الرقمية بإستعمال المعيار الدولي TEI
إنشاء و تكشيف الوثائق النصية الرقمية بإستعمال المعيار الدولي TEI
 
دبلن كور / إعداد محمد عبدالحميد معوض
دبلن كور / إعداد محمد عبدالحميد معوضدبلن كور / إعداد محمد عبدالحميد معوض
دبلن كور / إعداد محمد عبدالحميد معوض
 
فهرسة الكتب المطبوعة والإلكترونية وفقا لمعيار وصف المصادر وإتاحتها / ترجمة مح...
فهرسة الكتب المطبوعة والإلكترونية وفقا لمعيار وصف المصادر وإتاحتها / ترجمة مح...فهرسة الكتب المطبوعة والإلكترونية وفقا لمعيار وصف المصادر وإتاحتها / ترجمة مح...
فهرسة الكتب المطبوعة والإلكترونية وفقا لمعيار وصف المصادر وإتاحتها / ترجمة مح...
 
مهارات البحث في مصادر المعلومات الالكترونية
مهارات البحث في مصادر المعلومات الالكترونيةمهارات البحث في مصادر المعلومات الالكترونية
مهارات البحث في مصادر المعلومات الالكترونية
 
URI FAQs = أسئلة تتردد باستمرار عن المعرف الموحد للمصدر / ترجمة محمد عبد ...
  URI FAQs  =  أسئلة تتردد باستمرار عن المعرف الموحد للمصدر / ترجمة محمد عبد ...  URI FAQs  =  أسئلة تتردد باستمرار عن المعرف الموحد للمصدر / ترجمة محمد عبد ...
URI FAQs = أسئلة تتردد باستمرار عن المعرف الموحد للمصدر / ترجمة محمد عبد ...
 
الإجراءات الفنيه فى المكتبات
الإجراءات الفنيه فى المكتبات الإجراءات الفنيه فى المكتبات
الإجراءات الفنيه فى المكتبات
 
تحليل النظم
تحليل النظمتحليل النظم
تحليل النظم
 
data mining.pptx
data mining.pptxdata mining.pptx
data mining.pptx
 
الذكاء الاصطناعي
الذكاء الاصطناعيالذكاء الاصطناعي
الذكاء الاصطناعي
 
التعرف على انظمة الأتمتة المتكاملة والمجانية لإدارة المكتبات العامة / Integra...
التعرف على انظمة الأتمتة المتكاملة والمجانية لإدارة المكتبات العامة / Integra...التعرف على انظمة الأتمتة المتكاملة والمجانية لإدارة المكتبات العامة / Integra...
التعرف على انظمة الأتمتة المتكاملة والمجانية لإدارة المكتبات العامة / Integra...
 
أخطاء الفهرسة وأسبابها والمعدل المقبول/ إعداد محمد عبدالحميد معوض
أخطاء الفهرسة وأسبابها والمعدل المقبول/ إعداد محمد عبدالحميد معوضأخطاء الفهرسة وأسبابها والمعدل المقبول/ إعداد محمد عبدالحميد معوض
أخطاء الفهرسة وأسبابها والمعدل المقبول/ إعداد محمد عبدالحميد معوض
 
نظم استرجاع المعلومات
نظم استرجاع المعلوماتنظم استرجاع المعلومات
نظم استرجاع المعلومات
 
فهرسة مارك 21 باستخدام قواعد RDA
فهرسة مارك 21 باستخدام قواعد RDAفهرسة مارك 21 باستخدام قواعد RDA
فهرسة مارك 21 باستخدام قواعد RDA
 
الفهرسة المقروءة آلياً Marc
الفهرسة المقروءة آلياً Marcالفهرسة المقروءة آلياً Marc
الفهرسة المقروءة آلياً Marc
 
مقدمة في قواعد البيانات
مقدمة في قواعد البياناتمقدمة في قواعد البيانات
مقدمة في قواعد البيانات
 
إدارة المعرفة
إدارة المعرفةإدارة المعرفة
إدارة المعرفة
 

Similaire à آليات التكشيف على الويب وأدواته

دور المكتبات الأكاديمية في منع السرقات العلمية واكتشافها
دور المكتبات الأكاديمية في منع السرقات العلمية واكتشافهادور المكتبات الأكاديمية في منع السرقات العلمية واكتشافها
دور المكتبات الأكاديمية في منع السرقات العلمية واكتشافهاemad Saleh
 
كتابة علمية2 التوثيق
كتابة علمية2  التوثيقكتابة علمية2  التوثيق
كتابة علمية2 التوثيقAhmedRawhy1
 
نظم التكشيف خطوات التكشيف
نظم التكشيف   خطوات التكشيفنظم التكشيف   خطوات التكشيف
نظم التكشيف خطوات التكشيفHuda Farhan
 
البيانات المترابطة في المكتبات أو الإيجاد بالصدفة في المكتبة / ترجمة محمد عبد...
البيانات المترابطة في المكتبات أو الإيجاد بالصدفة في المكتبة / ترجمة محمد عبد...البيانات المترابطة في المكتبات أو الإيجاد بالصدفة في المكتبة / ترجمة محمد عبد...
البيانات المترابطة في المكتبات أو الإيجاد بالصدفة في المكتبة / ترجمة محمد عبد...Muhammad Muawwad
 
محركات البحث
محركات البحثمحركات البحث
محركات البحثEyas Shrif
 
محركات البحث
محركات البحثمحركات البحث
محركات البحثEyas Shrif
 
انماط التجول في برامج الوسائط المتعددة
انماط التجول في برامج الوسائط المتعددةانماط التجول في برامج الوسائط المتعددة
انماط التجول في برامج الوسائط المتعددةahmad al-dhafeeri
 
برمجيات كتابة و تبويب المراجع العلمية والبحثية
برمجيات كتابة و تبويب المراجع العلمية والبحثيةبرمجيات كتابة و تبويب المراجع العلمية والبحثية
برمجيات كتابة و تبويب المراجع العلمية والبحثيةvdsr_ksu
 
البحث والاسترجاع في المكتبات الرقمية
البحث والاسترجاع في المكتبات الرقميةالبحث والاسترجاع في المكتبات الرقمية
البحث والاسترجاع في المكتبات الرقميةemad Saleh
 
نحو مقاربة شاملة لتحليل وتمثيل الوثائق العربية
نحو مقاربة شاملة لتحليل وتمثيل الوثائق العربيةنحو مقاربة شاملة لتحليل وتمثيل الوثائق العربية
نحو مقاربة شاملة لتحليل وتمثيل الوثائق العربيةIbrahim Bounhas
 
نظرية البحث الغريزي عن المعلومات: العرض التقديمي المصاحب للمناقشة | Informati...
نظرية البحث الغريزي عن المعلومات: العرض التقديمي المصاحب للمناقشة | Informati...نظرية البحث الغريزي عن المعلومات: العرض التقديمي المصاحب للمناقشة | Informati...
نظرية البحث الغريزي عن المعلومات: العرض التقديمي المصاحب للمناقشة | Informati...Sayed Darwish
 
Arabic information access technologies
Arabic information access technologiesArabic information access technologies
Arabic information access technologiesMassoud AlShareef
 
تطبيقات البحث التعاوني على الويب في تشارك المعرفة ومهارات البحث عن المعلومات
تطبيقات البحث التعاوني على الويب في تشارك المعرفة ومهارات البحث عن المعلوماتتطبيقات البحث التعاوني على الويب في تشارك المعرفة ومهارات البحث عن المعلومات
تطبيقات البحث التعاوني على الويب في تشارك المعرفة ومهارات البحث عن المعلوماتemad Saleh
 
تطبيقات النظم الآلية في مجال الببليومتركس
تطبيقات النظم الآلية في مجال الببليومتركستطبيقات النظم الآلية في مجال الببليومتركس
تطبيقات النظم الآلية في مجال الببليومتركسSabah Kallow
 
محاضرتي الثانية
محاضرتي الثانيةمحاضرتي الثانية
محاضرتي الثانيةAmany Megahed
 
Object Oriented Programming
Object Oriented ProgrammingObject Oriented Programming
Object Oriented ProgrammingOmar Albelbaisy
 

Similaire à آليات التكشيف على الويب وأدواته (20)

دور المكتبات الأكاديمية في منع السرقات العلمية واكتشافها
دور المكتبات الأكاديمية في منع السرقات العلمية واكتشافهادور المكتبات الأكاديمية في منع السرقات العلمية واكتشافها
دور المكتبات الأكاديمية في منع السرقات العلمية واكتشافها
 
كتابة علمية2 التوثيق
كتابة علمية2  التوثيقكتابة علمية2  التوثيق
كتابة علمية2 التوثيق
 
نظم التكشيف خطوات التكشيف
نظم التكشيف   خطوات التكشيفنظم التكشيف   خطوات التكشيف
نظم التكشيف خطوات التكشيف
 
Z39.50
Z39.50Z39.50
Z39.50
 
البيانات المترابطة في المكتبات أو الإيجاد بالصدفة في المكتبة / ترجمة محمد عبد...
البيانات المترابطة في المكتبات أو الإيجاد بالصدفة في المكتبة / ترجمة محمد عبد...البيانات المترابطة في المكتبات أو الإيجاد بالصدفة في المكتبة / ترجمة محمد عبد...
البيانات المترابطة في المكتبات أو الإيجاد بالصدفة في المكتبة / ترجمة محمد عبد...
 
محركات البحث
محركات البحثمحركات البحث
محركات البحث
 
محركات البحث
محركات البحثمحركات البحث
محركات البحث
 
انماط التجول في برامج الوسائط المتعددة
انماط التجول في برامج الوسائط المتعددةانماط التجول في برامج الوسائط المتعددة
انماط التجول في برامج الوسائط المتعددة
 
برمجيات كتابة و تبويب المراجع العلمية والبحثية
برمجيات كتابة و تبويب المراجع العلمية والبحثيةبرمجيات كتابة و تبويب المراجع العلمية والبحثية
برمجيات كتابة و تبويب المراجع العلمية والبحثية
 
البحث والاسترجاع في المكتبات الرقمية
البحث والاسترجاع في المكتبات الرقميةالبحث والاسترجاع في المكتبات الرقمية
البحث والاسترجاع في المكتبات الرقمية
 
نحو مقاربة شاملة لتحليل وتمثيل الوثائق العربية
نحو مقاربة شاملة لتحليل وتمثيل الوثائق العربيةنحو مقاربة شاملة لتحليل وتمثيل الوثائق العربية
نحو مقاربة شاملة لتحليل وتمثيل الوثائق العربية
 
Dsaosan
DsaosanDsaosan
Dsaosan
 
بوم جستجو 2.0
بوم جستجو 2.0بوم جستجو 2.0
بوم جستجو 2.0
 
Digital repositories
Digital repositoriesDigital repositories
Digital repositories
 
نظرية البحث الغريزي عن المعلومات: العرض التقديمي المصاحب للمناقشة | Informati...
نظرية البحث الغريزي عن المعلومات: العرض التقديمي المصاحب للمناقشة | Informati...نظرية البحث الغريزي عن المعلومات: العرض التقديمي المصاحب للمناقشة | Informati...
نظرية البحث الغريزي عن المعلومات: العرض التقديمي المصاحب للمناقشة | Informati...
 
Arabic information access technologies
Arabic information access technologiesArabic information access technologies
Arabic information access technologies
 
تطبيقات البحث التعاوني على الويب في تشارك المعرفة ومهارات البحث عن المعلومات
تطبيقات البحث التعاوني على الويب في تشارك المعرفة ومهارات البحث عن المعلوماتتطبيقات البحث التعاوني على الويب في تشارك المعرفة ومهارات البحث عن المعلومات
تطبيقات البحث التعاوني على الويب في تشارك المعرفة ومهارات البحث عن المعلومات
 
تطبيقات النظم الآلية في مجال الببليومتركس
تطبيقات النظم الآلية في مجال الببليومتركستطبيقات النظم الآلية في مجال الببليومتركس
تطبيقات النظم الآلية في مجال الببليومتركس
 
محاضرتي الثانية
محاضرتي الثانيةمحاضرتي الثانية
محاضرتي الثانية
 
Object Oriented Programming
Object Oriented ProgrammingObject Oriented Programming
Object Oriented Programming
 

Plus de emad Saleh

 الكتب الإلكترونية والقراءة الرقمية.. من منظور تجربة المستخدم
	الكتب الإلكترونية والقراءة الرقمية.. من منظور تجربة المستخدم	الكتب الإلكترونية والقراءة الرقمية.. من منظور تجربة المستخدم
 الكتب الإلكترونية والقراءة الرقمية.. من منظور تجربة المستخدمemad Saleh
 
إدارة المحتوى الرقمي للأدلة الموضوعية على الويب
إدارة المحتوى الرقمي للأدلة الموضوعية على الويبإدارة المحتوى الرقمي للأدلة الموضوعية على الويب
إدارة المحتوى الرقمي للأدلة الموضوعية على الويبemad Saleh
 
معمارية المعلومات_ تطبيقات ونماذج
معمارية المعلومات_ تطبيقات ونماذجمعمارية المعلومات_ تطبيقات ونماذج
معمارية المعلومات_ تطبيقات ونماذجemad Saleh
 
مسارات وصول المستخدمين إلى المحتوى: تنظيم المعلومات، معمارية المعلومات، تجربة...
مسارات وصول المستخدمين إلى المحتوى: تنظيم المعلومات، معمارية المعلومات، تجربة...مسارات وصول المستخدمين إلى المحتوى: تنظيم المعلومات، معمارية المعلومات، تجربة...
مسارات وصول المستخدمين إلى المحتوى: تنظيم المعلومات، معمارية المعلومات، تجربة...emad Saleh
 
تمكين الإبداع والإبتكار في المكتبات العامة والمدرسية: التفكير خارج الصندوق
تمكين الإبداع والإبتكار في المكتبات العامة والمدرسية: التفكير خارج الصندوقتمكين الإبداع والإبتكار في المكتبات العامة والمدرسية: التفكير خارج الصندوق
تمكين الإبداع والإبتكار في المكتبات العامة والمدرسية: التفكير خارج الصندوقemad Saleh
 
مشاركة المعرفة في المجتمعات الافتراضية وأثرها على تخصص المكتبات والمعلومات
مشاركة المعرفة في المجتمعات الافتراضية وأثرها على تخصص المكتبات والمعلوماتمشاركة المعرفة في المجتمعات الافتراضية وأثرها على تخصص المكتبات والمعلومات
مشاركة المعرفة في المجتمعات الافتراضية وأثرها على تخصص المكتبات والمعلوماتemad Saleh
 
النشر في المجلات العلمية ذات معامل التأثير
النشر في المجلات العلمية ذات معامل التأثيرالنشر في المجلات العلمية ذات معامل التأثير
النشر في المجلات العلمية ذات معامل التأثيرemad Saleh
 
الخدمات المعرفية: الماهية والأنواع
الخدمات المعرفية: الماهية والأنواعالخدمات المعرفية: الماهية والأنواع
الخدمات المعرفية: الماهية والأنواعemad Saleh
 
قاعدة الهادي للانتاج الفكري
قاعدة الهادي للانتاج الفكريقاعدة الهادي للانتاج الفكري
قاعدة الهادي للانتاج الفكريemad Saleh
 
التعهيد الجمعي بالمشروعات الرقمية
التعهيد الجمعي بالمشروعات الرقميةالتعهيد الجمعي بالمشروعات الرقمية
التعهيد الجمعي بالمشروعات الرقميةemad Saleh
 
الاستخدامات السلبية للإنترنت
الاستخدامات السلبية للإنترنتالاستخدامات السلبية للإنترنت
الاستخدامات السلبية للإنترنتemad Saleh
 
المكانز ودعم البحث بمحركات البحث على الويب
المكانز ودعم البحث بمحركات البحث على الويبالمكانز ودعم البحث بمحركات البحث على الويب
المكانز ودعم البحث بمحركات البحث على الويبemad Saleh
 
مناقشة كتاب
مناقشة كتابمناقشة كتاب
مناقشة كتابemad Saleh
 
دور المكتبات العامة في تنمية الوعي الصحي ومكافحة الأزمات الصحية العالمية
دور المكتبات العامة في تنمية الوعي الصحي ومكافحة الأزمات الصحية العالميةدور المكتبات العامة في تنمية الوعي الصحي ومكافحة الأزمات الصحية العالمية
دور المكتبات العامة في تنمية الوعي الصحي ومكافحة الأزمات الصحية العالميةemad Saleh
 
Firefox Add-Ons
Firefox Add-OnsFirefox Add-Ons
Firefox Add-Onsemad Saleh
 
إدارة وتأمين شبكات المكتبات ومراكز المعلومات
إدارة وتأمين شبكات المكتبات ومراكز المعلوماتإدارة وتأمين شبكات المكتبات ومراكز المعلومات
إدارة وتأمين شبكات المكتبات ومراكز المعلوماتemad Saleh
 

Plus de emad Saleh (16)

 الكتب الإلكترونية والقراءة الرقمية.. من منظور تجربة المستخدم
	الكتب الإلكترونية والقراءة الرقمية.. من منظور تجربة المستخدم	الكتب الإلكترونية والقراءة الرقمية.. من منظور تجربة المستخدم
 الكتب الإلكترونية والقراءة الرقمية.. من منظور تجربة المستخدم
 
إدارة المحتوى الرقمي للأدلة الموضوعية على الويب
إدارة المحتوى الرقمي للأدلة الموضوعية على الويبإدارة المحتوى الرقمي للأدلة الموضوعية على الويب
إدارة المحتوى الرقمي للأدلة الموضوعية على الويب
 
معمارية المعلومات_ تطبيقات ونماذج
معمارية المعلومات_ تطبيقات ونماذجمعمارية المعلومات_ تطبيقات ونماذج
معمارية المعلومات_ تطبيقات ونماذج
 
مسارات وصول المستخدمين إلى المحتوى: تنظيم المعلومات، معمارية المعلومات، تجربة...
مسارات وصول المستخدمين إلى المحتوى: تنظيم المعلومات، معمارية المعلومات، تجربة...مسارات وصول المستخدمين إلى المحتوى: تنظيم المعلومات، معمارية المعلومات، تجربة...
مسارات وصول المستخدمين إلى المحتوى: تنظيم المعلومات، معمارية المعلومات، تجربة...
 
تمكين الإبداع والإبتكار في المكتبات العامة والمدرسية: التفكير خارج الصندوق
تمكين الإبداع والإبتكار في المكتبات العامة والمدرسية: التفكير خارج الصندوقتمكين الإبداع والإبتكار في المكتبات العامة والمدرسية: التفكير خارج الصندوق
تمكين الإبداع والإبتكار في المكتبات العامة والمدرسية: التفكير خارج الصندوق
 
مشاركة المعرفة في المجتمعات الافتراضية وأثرها على تخصص المكتبات والمعلومات
مشاركة المعرفة في المجتمعات الافتراضية وأثرها على تخصص المكتبات والمعلوماتمشاركة المعرفة في المجتمعات الافتراضية وأثرها على تخصص المكتبات والمعلومات
مشاركة المعرفة في المجتمعات الافتراضية وأثرها على تخصص المكتبات والمعلومات
 
النشر في المجلات العلمية ذات معامل التأثير
النشر في المجلات العلمية ذات معامل التأثيرالنشر في المجلات العلمية ذات معامل التأثير
النشر في المجلات العلمية ذات معامل التأثير
 
الخدمات المعرفية: الماهية والأنواع
الخدمات المعرفية: الماهية والأنواعالخدمات المعرفية: الماهية والأنواع
الخدمات المعرفية: الماهية والأنواع
 
قاعدة الهادي للانتاج الفكري
قاعدة الهادي للانتاج الفكريقاعدة الهادي للانتاج الفكري
قاعدة الهادي للانتاج الفكري
 
التعهيد الجمعي بالمشروعات الرقمية
التعهيد الجمعي بالمشروعات الرقميةالتعهيد الجمعي بالمشروعات الرقمية
التعهيد الجمعي بالمشروعات الرقمية
 
الاستخدامات السلبية للإنترنت
الاستخدامات السلبية للإنترنتالاستخدامات السلبية للإنترنت
الاستخدامات السلبية للإنترنت
 
المكانز ودعم البحث بمحركات البحث على الويب
المكانز ودعم البحث بمحركات البحث على الويبالمكانز ودعم البحث بمحركات البحث على الويب
المكانز ودعم البحث بمحركات البحث على الويب
 
مناقشة كتاب
مناقشة كتابمناقشة كتاب
مناقشة كتاب
 
دور المكتبات العامة في تنمية الوعي الصحي ومكافحة الأزمات الصحية العالمية
دور المكتبات العامة في تنمية الوعي الصحي ومكافحة الأزمات الصحية العالميةدور المكتبات العامة في تنمية الوعي الصحي ومكافحة الأزمات الصحية العالمية
دور المكتبات العامة في تنمية الوعي الصحي ومكافحة الأزمات الصحية العالمية
 
Firefox Add-Ons
Firefox Add-OnsFirefox Add-Ons
Firefox Add-Ons
 
إدارة وتأمين شبكات المكتبات ومراكز المعلومات
إدارة وتأمين شبكات المكتبات ومراكز المعلوماتإدارة وتأمين شبكات المكتبات ومراكز المعلومات
إدارة وتأمين شبكات المكتبات ومراكز المعلومات
 

آليات التكشيف على الويب وأدواته

  • 1. ‫آليات التكشيف على الويب وأدواته‬ ‫الدكتور‬ ‫عماد عيسى صالح‬ ‫أستاذ علم المعلومات‬ ‫المشارك‬ ‫جامعة الملك عبدالعزيز،‬ ‫السعودية‬
  • 3. ‫مفاهيم ومصطلحات‬ ‫الكشاف ‪:Index‬‬ ‫‪‬‬ ‫الكشاف بمعناه العام هو ما يكشف عما هو مغمور أو مجهول‬ ‫‪‬‬ ‫في وسط معين.‬ ‫) هنري‬ ‫دليل أو مؤشر إلى موقع المعلومات التي نبحث عنها.‬ ‫‪‬‬ ‫هويتلي(‬ ‫دليل منظم يرشد إلى ما يمكن البحث عنه أو استرجاعه، من‬ ‫‪‬‬ ‫مفردات أو حقائق أو معلومات أو نصوص أو وثائق، أو بدائل‬ ‫النصوص والوثائق. ) حشمت قاسم(‬ ‫تتلخص وظائف الكشاف في:‬ ‫‪‬‬ ‫التحقق من المعلومات التي يمكن أن تكون متصلة بموضوع ما،‬ ‫‪‬‬ ‫وتحديد موقعها في الوثيقة و أو الوثائق المكشفة.‬ ‫/‬ ‫استبعاد الحالت التي يرد فيها ذكر الموضوعات على نحو عابر،‬ ‫‪‬‬ ‫ول تقدم شيئا يذكر للمستفيد.‬ ‫‪‬‬
  • 4. ‫) تابع (‬ ‫مفاهيم ومصطلحات‬ ‫وظائف الكشاف ) تابع(:‬ ‫‪‬‬ ‫بيان ما بين الموضوعات من علقات.‬ ‫‪‬‬ ‫توجيه المستفيدين المستفيدين للمصطلحات الكشفية‬ ‫‪‬‬ ‫المستخدمة بديل عن المصطلحات التي يبحثون بها.‬ ‫توجيه المستفيدين نحو موضوعات يمكن البحث عنها أيضا‬ ‫‪‬‬ ‫وتتصل بالموضوع.‬ ‫‪Indexing L‬‬‫لغة التكشيف ‪anguage‬‬ ‫‪‬‬ ‫مجموعة الرموز أو المصطلحات أو المفردات التي تشكل اللغة‬ ‫‪‬‬ ‫المستهدفة التي تترجم إليها المفاهيم الدالة على المحتوى‬ ‫الموضوعي للوثيقة الوثائق، بمعنى أنها تمثل المداخل‬ ‫/‬ ‫الموضوعية لسترجاع الوثيقة‬ ‫لغة التكشيف أيا كان شكلها ونوعها هي الساس في نظام‬ ‫‪‬‬ ‫المضاهاة والسترجاع الموضوعي لوثائق.‬
  • 5. ‫) تابع (‬ ‫مفاهيم ومصطلحات‬ ‫هناك نوعين من التكشيف في نظم السترجاع:‬ ‫‪‬‬ ‫التكشيف بالتعيين:‬ ‫‪‬‬ ‫يعتمد على الجهد الفكري للمكشف في تحديد عناصر المحتوى‬ ‫‪‬‬ ‫الموضوعي للوثيقة ثم اختيار المصطلحات أو الرموز الكشفية‬ ‫الدالة عليها،‬ ‫يعتمد في الساس على لغة مقيدة ) مكنز، خطة تصنيف، قائمة‬ ‫‪‬‬ ‫رءوس موضوعات(‬ ‫التكشيف الشتقاقي أو بالشتقاق:‬ ‫‪‬‬ ‫وفيه تقتبس أو تشتق جميع المصطلحات أو الواصفات‬ ‫‪‬‬ ‫الموضوعية من الوثيقة أو الوثائق المكشفة، فهو يعتمد في‬ ‫الساس على اللغة الطبيعية‬
  • 6. ‫خطوات التحليل الموضوعي‬ ‫الخطوة الولى ، تحليل المفاهيم أو تحليل محتوى مصدر‬ ‫‪‬‬ ‫المعلومات:‬ ‫تهتم بفحص وتصفح مصدر المعلومات بهدف تحديد المفاهيم‬ ‫‪‬‬ ‫والفكار التي يتناولها المصدر.‬ ‫الخطوة الثانية ، ترجمة أو التعبير عن ناتج التحليل:‬ ‫‪‬‬ ‫تهتم بالتعبير عن ناتج تحليل المفاهيم باستخدام مجموعة من نقاط‬ ‫‪‬‬ ‫الوصول الموضوعية أو مؤشرات المحتوى )مصطلحات، رموز،‬ ‫عبارات أو جمل(‬ ‫يتم الحصول عليها إما من لغة مصدر المعلومات نفسه أو من لغة‬ ‫‪‬‬ ‫استفسارات وأسئلة المستفيدين، أو تعيينها من لغة أخرى خارج‬ ‫نطاق مصدر المعلومات.‬ ‫الخطوة الثالثة: الربط بين نقاط الوصول الموضوعية وبين‬ ‫‪‬‬ ‫مصدر المعلومات:‬
  • 7. ‫نظم التسترجاع‬ INFORMATION NEED DOCS. DOCUMENTS User Interface QUERY RESULTS INDEXING RESULT REPRESENTATION SEARCH INDEX
  • 8. (‫نظم التسترجاع )تابع‬ INFORMATION NEED DOCS. DOCUMENTS User Interface QUERY SELECT DATA FOR INDEXING RESULTS QUERY PROCESSING RESULT PARSING & TERM (PARSING & TERM REPRESENTATION PROCESSING PROCESSING) RANKING LOGICAL VIEW OF THE SEARCHING INFORM. NEED INDEX
  • 9.
  • 10. ‫أنواع الكشافات‬ ‫يمكن تقسيم‬ ‫يمكن تقسيم‬ ‫هل يمكن مقابلتها‬ ‫هل يمكن مقابلتها‬ ‫الكشافات إلى ثلث‬ ‫الكشافات إلى ثلث‬ ‫بـالنواع التالية::‬ ‫بـالنواع التالية‬ ‫فئات رئيسية::‬ ‫فئات رئيسية‬ ‫كشاف الموقع‬ ‫‪‬‬ ‫كشاف الكتاب‬ ‫‪‬‬ ‫الويب‬ ‫كشافات النترانت‬ ‫‪‬‬ ‫كشافات النصوص‬ ‫‪‬‬ ‫والنترنت‬ ‫الكشافات‬ ‫‪‬‬ ‫كشافات الميتاداتا‬ ‫‪‬‬ ‫الببليوجرافية‬
  • 11.
  • 12.
  • 13. ‫تكشيف الويب‬ Web Indexing Copyright © 2009 13
  • 14. Source: Netcraft Web Server Survey, December 2012. http://news.netcraft.com/archives/2012/12/04/december-2012-web-server-survey.html
  • 15.
  • 16. 2.4 billion – Number of Internet users worldwide
  • 17. ‫خصائص مصادر )الوثائق( الويب‬ ‫كم ضخم من البيانات، والنمو المستمر، ارتفاع معدل تغير‬ ‫‪‬‬ ‫تنوع كبير وعدم التجانس:‬ ‫‪‬‬ ‫جودة ومصداقية المصادر‬ ‫‪‬‬ ‫الوثائق الثابتة في مقابل الديناميكية‬ ‫‪‬‬ ‫أنواع مختلفة من الوسائط ) نص، صور، صوت، الفيديو(‬ ‫‪‬‬ ‫صيغ مختلفة من الملفات ) ‪(…، H M ،flash ،P‬‬ ‫‪T L‬‬ ‫‪DF‬‬ ‫‪‬‬ ‫تنوع في الموضوعات، واللغات‬ ‫‪‬‬ ‫العلنات‬ ‫‪‬‬ ‫النص الفائق ) التشعبي( ، والرتباط ‪ ، linking‬والروابط‬ ‫‪‬‬ ‫‪B‬‬ ‫المعطلة ‪roken‬‬ ‫التكرار ‪Redundancy‬‬ ‫‪‬‬ ‫موزعة‬ ‫‪‬‬
  • 18. ‫تكشيف الويب‬ ‫يعتمد تكشيف الويب وما تحتويه من صفحات ومواقع على‬ ‫‪‬‬ ‫اختلف أنواعها على أساليب التكشيف اللي حيث أنه‬ ‫السلوب الذي يتناسب مع طبيعة الويب من حيث الحجم‬ ‫‪ ، Size‬والتساع ‪ ، scalability‬والتحديث ‪ Update‬المستمر‬ ‫لمحتواها.‬ ‫‪ (L‬الحاجة إلى التكشيف‬ ‫وصف لينش ) ‪ynch,1996,Online‬‬ ‫‪‬‬ ‫اليدوي والتكشيف اللي على أنهما ضرورة تفرضها تنوع‬ ‫احتياجات المستفيدين وتنوع مصادر الويب، حيث يرى أن‬ ‫مهارات التصنيف والختيار الدقيق التي يمتلكها المكتبيون‬ ‫لبد أن يكملها قدرات وإمكانيات علماء الحاسب اللي في‬ ‫ميكنة عمليات التكشيف وتخزين المعلومات.‬ ‫‪Indexing M‬‬‫أساليب التكشيف ‪ethods‬‬ ‫‪‬‬
  • 19. ‫أول : التكشيف بواسطة الناشرين علي الويب‬ ‫يتولى الفراد أو المؤسسات التي تضع صفحات معلومات‬ ‫‪‬‬ ‫علي الويب تكشيف محتويات هذه الصفحات بواسطة‬ ‫مجموعة من الكلمات المفتاحية أو الدللية التي تصف بدقه‬ ‫محتويات هذه الصفحات والتي يمكن أن تستخدم عند‬ ‫تكشيف هذه الصفحات من خلل محركات البحث.‬ ‫يتيح أسلوب لتوجيه محركات البحث عند تكشيف هذه‬ ‫‪‬‬ ‫الصفحات.‬ ‫‪ (M‬أحد اكواد لغة تكويد‬ ‫يعد كود تاج الميتا ) ‪eta T‬‬ ‫‪ag‬‬ ‫/‬ ‫‪‬‬ ‫النصوص الفائقة ‪ H M‬من أكثر الوسائل التي يعتمد عليها‬ ‫‪T L‬‬ ‫ناشري الويب لعداد ميتاداتا تساعد علي وصف المحتوي‬ ‫الموضوعي لتك الصفحات ) مثل: تاج الكلمات المفتاحيه‬ ‫‪ ، K‬وتاج الوصف ‪(Description‬‬ ‫‪eywords‬‬ ‫‪‬‬
  • 20. ‫أول : التكشيف بواسطة الناشرين علي الويب‬ ‫) تابع (‬ ‫خداع محركات البحث‬ ‫‪‬‬ ‫مشكلة تكشيف صفحات الويب تتمثل في قدرة ناشري الويب على‬ ‫‪‬‬ ‫معالجة الترتيب من خلل وضع كلمات مفتاحية مكررة في الصفحات‬ ‫لخداع محركات البحث، وهو ما يشار إليه بالعديد من المصطلحات‬ ‫‪E‬‬‫) مثل: ،‪ngine Search Persuasion ،Stuffing ،Spam-Indexing‬‬ ‫‪.(K‬‬‫‪eyword Spam‬‬ ‫تتجاهل العديد من محركات البحث تكشيف الميتاداتا نظرا لنهم‬ ‫‪‬‬ ‫يعتبروه حقل مخادع وغير حقيقي.‬ ‫من أنواع التكشيف بواسطة البشر:‬ ‫‪‬‬ ‫واصفات البيانات ) الميتاداتا(‬ ‫‪‬‬ ‫التوسيم والفوكسونومي‬ ‫‪‬‬
  • 21. ‫ثانيا : التكشيف فى محركات البحث‬ ‫تعمل محركات البحث على بناء كشافات لمصادر المعلومات‬ ‫‪‬‬ ‫المنشورة على الويب من خلل اشتقاق كلمات أو عبارات من‬ ‫النصوص نفسها لبناء ملفات تسمح ببحث هذه المشتقات‬ ‫بالعتماد على أساليب البحث والسترجاع المعروفة ) مثل:‬ ‫المنطق البولينى، وتجاور المصطلحات، والبتر، الخ(.‬ ‫أن هذه الملفات ليست أكثر من الملفات المقلوبة التقليدية‬ ‫‪‬‬ ‫التي استخدمت في السترجاع منذ أن حل السترجاع‬ ‫العشوائي محل السترجاع التسلسلي.‬
  • 23. ? How far do people look for results (Source: iprospect.com WhitePaper_2006_SearchEngineUserBehavior.pdf)
  • 24. ‫محركات البحث‬ ‫تأتي محركات البحث على رأس أدوات البحث والسترجاع‬ ‫‪‬‬ ‫للمحتوى على الويب:‬ ‫نسبة استخدام تقارب 48% من اجمالي إجراءات البحث عن‬ ‫‪‬‬ ‫المحتوى,‬ ‫بلغ عدد الستفسارت الموجه إلى محركات البحث نحو 051 مليون‬ ‫‪‬‬ ‫استفسار في اليوم الواحد،‬ ‫%04 من المستخدمين يصلون إلى محتوى الويب من خلل نتائج‬ ‫‪‬‬ ‫محركات البحث .‬ ‫ومع ذلك:‬ ‫‪‬‬ ‫تكشف فقط نحو 61% من محتوى الويب القابل للتكشيف‬ ‫‪‬‬ ‫%08 من المستخدمين ليتجاوزا استخدام أول صفحيتين من نتائج‬ ‫‪‬‬ ‫محركات البحث‬ ‫بلغت نسبة التكرار في استرجاع المحتوى بين محركات البحث بعضها‬ ‫‪‬‬ ‫البعض نحو 9.48%‬
  • 25. Standard Web Search Engine Architecture Sponsored Links CG Appliance Express Discount Appliances (650) 756-3931 Same Day Certified Installation User www.cgappliance.com San Francisco-Oakland-San Jose, CA Miele Vacuum Cleaners Miele Vacuums- Complete Selection Free Shipping! www.vacuums.com Miele Vacuum Cleaners Miele-Free Air shipping! All models. Helpful advice. www.best-vacuum.com Web Results 1 - 10 of about 7,310,000 for miele. (0.12 seconds) Miele, Inc -- Anything else is a compromise At the heart of your home, Appliances by Miele. ... USA. to miele.com. Residential Appliances. Vacuum Cleaners. Dishwashers. Cooking Appliances. Steam Oven. Coffee System ... www.miele.com/ - 20k - Cached - Similar pages Web spider Miele Welcome to Miele, the home of the very best appliances and kitchens in the world. www.miele.co.uk/ - 3k - Cached - Similar pages Miele - Deutscher Hersteller von Einbaugeräten, Hausgeräten ... - [ Translate this page ] Das Portal zum Thema Essen & Geniessen online unter www.zu-tisch.de. Miele weltweit ...ein Leben lang. ... Wählen Sie die Miele Vertretung Ihres Landes. www.miele.de/ - 10k - Cached - Similar pages Herzlich willkommen bei Miele Österreich - [ Translate this page ] Herzlich willkommen bei Miele Österreich Wenn Sie nicht automatisch weitergeleitet werden, klicken Sie bitte hier! HAUSHALTSGERÄTE ... www.miele.at/ - 3k - Cached - Similar pages Search Indexer The Web Indexes Ad indexes
  • 26. ‫بنية محرك البحث ‪SE Architecture‬‬ ‫الزواحف ‪: T crawler‬‬ ‫‪he‬‬ ‫‪‬‬ ‫برنامج يعمل على توفير المحتوى لمحرك البحث حيث يقوم بتتبع‬ ‫‪‬‬ ‫الروابط الفائقة بين المواقع للوصول إلى الصفحات التي تشتمل‬ ‫على المحتوى. ثم استخراج ‪ URL‬واعطائها إلى وحدة التحكم‬ ‫‪s‬‬ ‫للزاحف.‬ ‫وحدة التحكم للزاحف ‪: Crawler Control‬‬ ‫‪‬‬ ‫تحديد أي الروابط الفائقة التي سيتم زيارتها مستقبل وتغذية الزاحف‬ ‫‪‬‬ ‫بالخوارزميات الخاصة بعملية الزحف.‬ ‫وحدة تحليل المجموعات ‪:Collection analysis module‬‬ ‫‪‬‬ ‫مسئولة عن انشاء الكشافات من واقع تحليل الوثائق وتحديد طبيعة‬ ‫‪‬‬ ‫البني التكوينية للوثائق.‬
  • 27. ‫بنية محرك البحث ) تابع (‬ ‫المكشف ‪ : Indexer‬يشتمل على ثلثة أنماط من الكشافات.‬ ‫‪‬‬ ‫كشافات النص ‪ : text index‬يشتمل على الكلمات المفتاحية‬ ‫‪‬‬ ‫والعناوين والجمل الدللية الواردة في محتوى الوثيقة المكشفة.‬ ‫حيث يعمل على استخراج كافة الكلمات من كافة الصفحات، وتسجيل‬ ‫محددات فريدة للمواقع ومكان ظهور كل كلمة.‬ ‫كشافات البناء ‪ : Structure index‬تعكس الروابط بين الصفحات،‬ ‫‪‬‬ ‫وتشتمل على المعلومات التي تتعلق ببنية الروابط الفائقة للصفحات‬ ‫المكشفة وتحفظ في ملف يعرف بالكشاف الساسي، وتعتمد عليه‬ ‫الزواحف في تتبع الصفحات لسحبها من خلل الروابط الفائقة.‬ ‫كشافات الغراض الخاصة ‪ :Utility index‬ككشافات الكيانات الخرى‬ ‫‪‬‬ ‫غير الكيانات المكودة بالنصوص الفائقة، مثل كشافات ملفات ‪P‬‬ ‫‪DF‬‬ ‫وكشافات الصور.‬
  • 28. ‫بنية محرك البحث ) تابع (‬ ‫مستودع الوثائق ‪: pages repository‬‬ ‫‪‬‬ ‫تقوم محركات البحث باختزان وحفظ الصفحات الملتقطة من الويب‬ ‫‪‬‬ ‫في مستودع الصفحات.‬ ‫محرك الستفسار ‪: query engine‬‬ ‫‪‬‬ ‫المسئول عن استلم طلبات البحث والستفسارات من المستفيدين.‬ ‫‪‬‬ ‫‪: Rank M‬‬‫وحدة الترتيب ‪odule‬‬ ‫‪‬‬ ‫المسئولة عن ترتيب وفرز النتائج ذات الصلة باستفسارات‬ ‫‪‬‬ ‫المستفيدين.‬
  • 29. General Web Search Engine Architecture CLIENT WWW QUERIES RESULTS PAGE REPOSITORY QUERY RANKING ENGINE CRAWLER(S) COLLECTION INDEXER CRAWL ANALYSIS MOD. MODULE CONTROL INDEXES UTILITY STRUCTURE TEXT USAGE FEEDBACK
  • 30. ‫تفسير‬ ‫تفسير‬ ‫محرك البحث ) تابع (‬ ‫اختلف‬ ‫اختلف‬ ‫النتائج‬ ‫النتائج‬ ‫تختلف محركات البحث من حيث:‬ ‫‪‬‬ ‫المسترجعة‬ ‫المسترجعة‬ ‫طبيعة المواد التي تنتقيها من مصادر الويب‬ ‫‪‬‬ ‫لنفس‬ ‫لنفس‬ ‫الساليب التي تستخدمها في تكشيف تلك المواد‬ ‫‪‬‬ ‫الستفسار‬ ‫الستفسار‬ ‫تنوع المصادر المكشفة نفسها‬ ‫‪‬‬ ‫باختلف‬ ‫باختلف‬ ‫القدرات التي تتيحها لبحث المواد‬ ‫‪‬‬ ‫محركات‬ ‫محركات‬ ‫كما تختلف أيضا من حيث:‬ ‫‪‬‬ ‫البحث‬ ‫الجراءات التي تتبعها في تحديد حجم المادة المكشفةالبحث تتراوح‬ ‫التي‬ ‫‪‬‬ ‫ما بين التكشيف النتقائي والتكشيف الشامل،‬ ‫عدد الحروف أو الكلمات التي يتم تكشيفها من الصفحة.‬ ‫‪‬‬ ‫بعض محركات البحث تقوم أول ببناء مستخلص للصفحات المكشفة،‬ ‫‪‬‬ ‫ثم تستخدم هذا المستخلص في تكشيف الصفحة.‬
  • 31. ‫الزواحف ‪( Crawler (Robots, Spiders‬‬ ‫تتعامل الزواحف مع الويب من خلل استخدام مجموعة‬ ‫‪‬‬ ‫محددات المصدر الموحدة ) ‪ (URL‬كنقاط إرتكازية.‬ ‫‪s‬‬ ‫تقوم الزواحف بمسح الويب أما:‬ ‫‪‬‬ ‫أفقيا: بأن تبدأ بصفحة واحدة ثم تتبع كل الصفحات المرتبطة بها من‬ ‫‪‬‬ ‫خلل تتبع الروابط الفائقة المتاحة داخل هذه الصفحة‬ ‫رأئيا: بأن تتبع رابط فائق واحد من كل صفحة تقابلها حتى تنتهي من‬ ‫‪‬‬ ‫العمق المطلوب في تتبع الروابط.‬ ‫معظم الزواحف تقوم بتقديم معلومات عن الصفحات من‬ ‫‪‬‬ ‫أجل تكشيفها ويتم تخزين هذه المعلومات في مستودعات‬ ‫للوثائق بمحركات البحث تربط بين معلومات التكشيف وهذه‬ ‫الصفحات في مواقعها.‬ ‫إن نمطية عمل الزواحف يتم تحديدها وفقا لمجموعة من‬ ‫‪‬‬ ‫السياسات.‬
  • 32. ‫سياسات الزاحف ‪Crawler policies‬‬ ‫سياسة الختيار ‪ :Selection policy‬حيث يحدد فيها طبيعة‬ ‫‪‬‬ ‫المحتوى الذي يجب أن يجمع، وتقسم محركات البحث وفقا‬ ‫لسياسات الختيار إلى: محركات البحث العمودية ‪، Vertical‬‬ ‫ومحركات البحث العالمية ‪ ، Global‬ومحركات البحث‬ ‫الموضوعية.‬ ‫‪:P‬‬‫سياسة تكرار زيارة الصفحات ‪age Re-visiting policy‬‬ ‫‪‬‬ ‫وتتمثل في تحديد أوقات إعادة التجميع والجدول الزمني لها.‬ ‫‪ : P‬وتتمثل في‬‫السياسة الخلقية للزاحف ‪oliteness policy‬‬ ‫‪‬‬ ‫سياسة التهذيب في عدم الثقال على المواقع في تحميلها.‬
  • 33. ‫الكشاف أو الملف المقلوب ‪Inverted Index‬‬ ‫‪((or File‬‬ ‫هو ذلك الملف الذي يعمل على توفير سبل للوصول إلى‬ ‫‪‬‬ ‫محتوى الوثائق.‬ ‫يشتمل على المصطلحات الكشفية بشكل يضمن الفاعلية في‬ ‫‪‬‬ ‫السترجاع.‬ ‫يوفر طريقة مختصرة في عملية البحث، بدل من بحث قاعدة‬ ‫‪‬‬ ‫بيانات الوثائق بأكملها لتحديد المصطلحات الواردة في‬ ‫الستفسار.‬ ‫يعمل على تنظيم المعلومات في قائمة مختصرة من‬ ‫‪‬‬ ‫المصطلحات ومن ثم العتماد على المصطلح في تحديد‬ ‫مجموعة الوثائق الملئمة.‬
  • 34. ‫الكشاف المقلوب ) تابع (‬ ‫نتيجة لتتنوع صيغ الملفات المنشورة على الويب ) ‪، html , pdf‬‬ ‫‪‬‬ ‫الخ( ؛‬ ‫‪T‬‬‫لبد من تطويع أو تطبيع النصوص للمعالجة ‪ext‬‬ ‫‪‬‬ ‫‪ Normalization‬وفقا لشكل موحد.‬ ‫إنشاء مصفوفة المصطلح ــ الوثيقة ‪term-document matrix‬‬ ‫‪‬‬ ‫:‬ ‫‪ :T‬وتشمل تفتيت النصوص الكاملة لكلمات‬‫التأخيذ ‪okenization‬‬ ‫‪‬‬ ‫وتحديدها.‬ ‫قائمة الستبعاد ‪ :stopwords‬وتتمثل في استبعاد الكلمات التي‬ ‫‪‬‬ ‫تحمل دللت معلوماتية ولغوية ضئيلة في الوثيقة، وفي نظم‬ ‫استرجاع المعلومات عادة ما يتم التخلص من هذة الكلمات‬ ‫لسباب تتعلق بالكفاءة.‬
  • 35. ( ‫الكشاف المقلوب ) تابع‬ Term Doc # Term Doc # Freq now 1 a 2 1 is 1 aid 1 1 Now is the time Now is the time the 1 all 1 1 time 1 and 2 1 for all good men for all good men for 1 come 1 1 all 1 country 1 1 to come to the aid to come to the aid good 1 men 1 country 2 1 of their country of their country to 1 dark 2 1 come 1 for 1 1 to 1 good 1 1 the 1 Doc 1 aid 1 in 2 1 is 1 1 of 1 it 2 1 their 1 country 1 manor 2 1 men 1 1 It was a dark and It was a dark and it 2 was 2 midnight 2 1 stormy night in stormy night in a 2 night 2 1 dark 2 now 1 1 the country manor. the country manor. and 2 of 1 1 stormy 2 past 2 1 night 2 The time was past The time was past in 2 stormy 2 1 the 2 the 1 2 midnight midnight country 2 the 2 2 manor 2 their 1 1 Doc 2 the 2 time 1 1 time 2 time 2 1 was 2 to 1 2 past 2 was 2 2 midnight 2
  • 36. How Inverted Files are Created Term Doc # Freq a aid 2 1 1 1 Dictionary/Lexicon Postings all 1 1 Term N docs Tot Freq Doc # Freq and 2 1 a 1 1 2 1 come 1 1 aid 1 1 1 1 country 1 1 all 1 1 1 1 country 2 1 and 1 1 2 1 dark 2 1 come 1 1 1 1 country 2 2 1 1 for 1 1 dark 1 1 2 1 good 1 1 2 1 for 1 1 in 2 1 good 1 1 1 1 is 1 1 in 1 1 1 1 it 2 1 is 1 1 2 1 manor 2 1 it 1 1 1 1 men 1 1 manor 1 1 2 1 men 1 1 2 1 midnight 2 1 midnight 1 1 1 1 night 2 1 night 1 1 2 1 now 1 1 2 1 now 1 1 of 1 1 of 1 1 1 1 past 2 1 past 1 1 1 1 stormy 2 1 stormy 1 1 2 1 the 1 2 the 2 4 2 1 the 2 2 their 1 1 1 2 time 2 2 2 2 their 1 1 to 1 2 1 1 time 1 1 was 1 2 1 1 time 2 1 2 1 to 1 2 1 2 was 2 2 2 2
  • 37. The Hidden / Invisible ‫ماذا عن الويب الخفي‬ Web ‫يقصد به مجموعة الصفحات الديناميكية والتفاعلية التي‬  .‫تخزن في قواعد البيانات أو يتم تجميعها حسب الطلب‬ :‫من بينها‬   Content found in databases:  Example: ERIC database, Library catalogs.  Subscription database content:  Examples: E SCOhost databases, L B exisNexis Academic.  Sites requiring login authorization  Examples: Blackboard, membership sites.  Sites blocked by Robot Exclusion Protocols (with a no-index protocol)  etc.
  • 39. ‫المشكلة والحل...‬ ‫المشكلة:‬ ‫‪‬‬ ‫تضخم مخرجات النشر الفردي والمؤسسي على شبكة الويب‬ ‫‪‬‬ ‫وما ترتب عليه من إشكالية ضبط وتنظيم مصادر الويب‬ ‫وتنظيمها لتيسير استكشافها واسترجاعها .‬ ‫الحل المقترح:‬ ‫‪‬‬ ‫أن تصاحب مصدر المعلومات بياناته الواصفة ) الميتاداتا(‬ ‫‪‬‬ ‫التي تيسر تحديد هويته واسترجاعه وضبط استخدامه والذي‬ ‫يتولى منشئ الوثيقة تضمينها أو من ينوب عنه.‬
  • 40. ‫التعريف والمفهوم‬ ‫الميتاداتا هي "البيانات المتضمنة في كيا ن ما أو المرتبطة‬ ‫ٍ‬ ‫‪‬‬ ‫) ‪ISO‬‬ ‫بكيا ن ما وتصف هذا الكيان وتساعد في استرجاعه”.‬ ‫ٍ‬ ‫2002-5-9548(‬ ‫الميتاداتا هي مصطلح ارتبط بوصف وتحديد هوية وملمح‬ ‫‪‬‬ ‫وصفات كيان معلوماتي ‪ Information Object‬قائم على‬ ‫شاهين(‬ ‫شبكة الويب. ) شريف‬ ‫‪: Descriptive M‬‬‫الميتاداتا الوصفية ‪etadata‬‬ ‫‪‬‬ ‫تستخدم في تحديد خصائص الكيان المعلوماتي ووصفه‬ ‫‪‬‬ ‫لغراض التكشيف والسترجاع، فهي تشمل عناصر مثل العنوان‬ ‫والمؤلف والمستخلص والكلمات المفتاحية.‬ ‫توفر معلومات مهيكلة ‪ structured information‬تعزز عمليات‬ ‫‪‬‬ ‫‪،F‬‬‫المعالجة اللية ) مثل: إتاحة البحث بالحقول ‪ielded searches‬‬
  • 41. ‫طرق ربط الميتاداتا بمصدر المعلومات‬ ‫أو ل: التضمين ‪Embedded metadata‬‬ ‫ً‬ ‫‪‬‬ ‫حيث يتم إنشاء الميتاداتا في نفس وقت إنشاء المصدر ومتضمنة مع لغة‬ ‫‪‬‬ ‫تكوين الوثيقة.‬ ‫ثانيا: المصاحبة ‪Associated metadata‬‬ ‫‪‬‬ ‫وفيها يتم إنشاء ملف يحتوي على الميتاداتا ويصاحب أو يزاوج ملف المصدر‬ ‫‪‬‬ ‫محل الوصف؛ بمعنى أن لدينا ملفين الول للمحتوى والثاني لعناصر وصف‬ ‫المحتوى )الميتاداتا(.‬ ‫ثالثا: المستقلة ‪Third-Party metadata‬‬ ‫‪‬‬ ‫وفيها يتم الحتفاظ بالميتاداتا بمستودعات مستقلة عن المصادر من قبل‬ ‫‪‬‬ ‫مؤسسات قد تملك أو ل تملك حق التحكم في المحتوى، وغالبا ما تكون‬ ‫الميتاداتا مخزنة في قواعد بيانات.‬
  • 42.
  • 43.
  • 44. Web site Source Metadata
  • 45. ‫خطط الميتاداتا ‪schema‬‬ ‫خطط الميتاداتا هي عبارة عن مجموعة من عناصر الميتاداتا، مع‬ ‫‪‬‬ ‫قواعد استخدامها، وقد قصد بهذه المجموعة أن تحقق هدفا معينا.‬ ‫صُ‬ ‫هناك ثلثة عناصر رئيسية مرتبطة بأي خطة من خطط الميتاداتا،‬ ‫‪‬‬ ‫وهي:‬ ‫دللت عناصر البيانات ‪semantics‬‬ ‫.1‬ ‫قواعد المحتوى ‪content rules‬‬ ‫.2‬ ‫التركيبة أو الصيغة ‪ Syntax‬التي ترد فيها عناصر البيانات‬ ‫.3‬ ‫معيار دبلن ‪DC‬‬ ‫‪‬‬ ‫يستهدف دعم استكشاف المصادر اللكترونية على شبكة الويب‬ ‫‪‬‬ ‫ووصفها.‬ ‫يتسم بعمومية استخدامه حيث يوجه لكل المشتغلين بالمعلومات‬ ‫‪‬‬ ‫من أخصائيي مكتبات وموردين ومطوري المحتوى الرقمي.‬
  • 46. ‫عناصر المحتوى‬ ‫عنوان ‪ :Title‬اسم يعطى للمصدر، هو السم الذي يعرف به المصدر‬ ‫صُ‬ ‫‪‬‬ ‫رسميا.‬ ‫موضوع وكلمات مفتاحية ‪ :Subject‬يعبر عن موضوع محتوى‬ ‫‪‬‬ ‫المصدر، بكلمات أو عبارات مفتاحية، أو برموز تصنيف تصف موضوع‬ ‫المصدر. ويوصى باختيارها من قائمة مصطلحات مقيدة، أو من خطة‬ ‫تصنيف رسمية.‬ ‫وصف ‪ :Description‬بيان محتوى المصدر، وتشتمل أمثلة الوصف على:‬ ‫‪‬‬ ‫مستخلص، أو قائمة محتويات، أو إشارة إلى تمثيل رسومي للمحتوى، أو‬ ‫نص حر يصف المحتوى، ولكنه ل يقتصر على ذلك فقط.‬ ‫مصدر ‪ :Source‬إشارة إلى مصدر استمد منه المصدر الحالي،قد يستمد‬ ‫‪‬‬ ‫المصدر الحالي كليا أو جزئيا من مصدر آخر، ويوصى عند تعريف‬ ‫المصدر استخدام رقم أو سلسلة أرقام تؤخذ من نظام رسمي لتحديد‬ ‫الهوية.‬
  • 47. ‫)تابع(‬ ‫عناصر المحتوى‬ ‫لغة ‪ :Language‬لغة المحتوى الفكري للمصدر، ويوصى باستخدام‬ ‫‪‬‬ ‫المواصفة الدولية 936‪ ISO‬التي تستخدم حرفين أو ثلثة حروف‬ ‫لتيجان اللغة. ومثال ذلك " ‪ "EN‬أو " ‪ "Eng‬للغة النجليزية، و" ‪"Akk‬‬ ‫للغة الكادية، و" ‪ "EN-GB‬للغة النجليزية المستخدمة في المملكة‬ ‫المتحدة.‬ ‫علقة ‪ :Relation‬إشارة إلى مصدر ذي علقة أو ارتباط، ويوصى عند‬ ‫‪‬‬ ‫تعريف المصدر استخدام رقم أو سلسلة تؤخذ من نظام رسمي لتحديد‬ ‫الهوية.‬ ‫تغطية ‪ :Coverage‬المدى أو المجال لمحتوى المصدر، وتشتمل‬ ‫‪‬‬ ‫التغطية على حيز مكاني )اسم مكان، أو إحداثيات جغرافية(، أو فترة‬ ‫زمنية )مميز فترة، أو تاريخ، أو مدى تاريخي(، أو سلطة )مثل اسم كيان‬ ‫إداري(. ويوصى باختيار قيمة من قائمة مصطلحات مقيدة )مثل، مكنز‬ ‫السماء الجغرافية ] ‪ ( [TGN‬واستخدام أسماء الماكن أو الفترات‬ ‫الزمنية.‬
  • 48. ‫التوسيم والواسمات‬ ‫‪Tagging & tags‬‬
  • 49. ‫التعريف والمفهوم‬ ‫التوسيم مأتى للميتاداتا الموضوعية لنواع متعددة من مصادر الويب‬ ‫‪‬‬ ‫بواسطة الناس ؛ لغراض التنظيم والسترجاع التشاركي للمعلومات،‬ ‫دون قيود أو قواعد تطبيق معقدة،‬ ‫يمكن أن تتم بواسطة غير الخبراء، وأنها بديل غير مكلف للفهرسة‬ ‫‪‬‬ ‫التقليدية لمصادر النترنت. )فتحي عبدالهادي(‬ ‫الواسمة هي كلمة مفتاحية أو مصطلح غير هرمي يخصص لقطعة‬ ‫‪‬‬ ‫معلومات )مثل صورة رقمية، ملف كمبيوتر، روابط إنترنت مفضلة،‬ ‫الخ(. ويساعد هذا النوع من الميتاداتا في وصف مادة ما والعثور عليها‬ ‫مرة أخرى إما بواسطة التصفح أو البحث. وبشكل عام يتم اختيار‬ ‫الكلمات الدللية من جانب منشيء المادة أو من يقوم باستعرضها‬ ‫إعتمادا على النظام. وقد انتشر التوسيم بارتباطه بالجيل الثاني من‬ ‫الويب فهو خاصية مهمة للعديد من خدمات الويب 2. )‪(Wikipedia‬‬
  • 50. ‫التعريف والمفهوم )تابع(‬ ‫الواسمات أو الكلمات الدللية يمكن أن تعتمد على:‬ ‫‪‬‬ ‫الموضوع )مثل الطبخ، الميتاداتا(‬ ‫‪‬‬ ‫الشكل )مثل الصور، المدونات(‬ ‫‪‬‬ ‫الغرض )مثل التسليم، السفر(‬ ‫‪‬‬ ‫الوقت )مثل فبراير، الن، 9002، المستقبل(‬ ‫‪‬‬ ‫الفعال او الوضع )مثل تقرأ، تفرز، ملكي(‬ ‫‪‬‬ ‫ردود الفعال المؤثرة أو النقدية )مثل بارد، مؤلف أكاديمي(‬ ‫‪‬‬
  • 51. ‫‪ ‬لماذا ننشئ الواسمات..؟‬ ‫لتنظيم المعلومات‬ ‫‪‬‬ ‫لدعم عملية البحث‬ ‫‪‬‬ ‫لجيجاد نفس الواسمات فيما بعد‬ ‫‪‬‬ ‫لستكشاف الموقع ومشاركتها مع الرخرجين‬ ‫‪‬‬ ‫لتنظيم مجموعة ضخمة في فئات تتناغم مع النموذج العقلي للمستفيد..‬ ‫‪‬‬ ‫لكشفها علنا/إظهارها وزجيادة استخدامها‬ ‫‪‬‬ ‫للستفادة من الوظيفية/المكانية المتاحة‬ ‫‪‬‬ ‫طرجيقة للتعبير عن آراءهم‬ ‫‪‬‬ ‫للعب لعبة..‬ ‫‪‬‬
  • 52. ‫أنواع التوسيم‬ ‫توسيم الجمهور ‪:public tagging‬‬ ‫‪‬‬ ‫فيه يسمح لزائري الموقع إضافة وإدراة واسمات المحتوى الخاص بهم.‬ ‫‪‬‬ ‫وبال مقارنة بالتبويب التقليدي وغيرها من أساليب التكشيف؛ فإن التوسيم العام‬ ‫يسمح للزائرين حرية الختيار للكلمات الدللية/المفتاحية لوصف المحتوى، ب‬ ‫معنى أن المستفيدين من المحتوى هم الذين يحددون مدى ارتباطها أو صلتها‬ ‫‪‬‬ ‫بالموضوع، مثل مواقع المفضلت الجتماعية )مثل ,‪Digg.com‬‬ ‫‪.(Del.icio.us‬‬ ‫عندما يقوم المستفيدين بتعيين واسمات ذات صلة بالمحتوى أو الرابط الذي تم‬ ‫‪‬‬ ‫إرساله أو تحميله للموقع؛ بعدها يمكن للمستفيدين الخرين البحث بهذه‬ ‫الواسمات للعثور على المحتوى. ومن ثم فإنه عند القيام بعملية بحث يكون‬ ‫العتماد على توسيم مستخدمي المحتوى واتفاقهم على ارتباط الواسمات‬ ‫المستخدمة بالمحتوى، أفضل من العتماد فقط على الواسمات التي وضعها‬ ‫منشيء أو ناشر المحتوى.‬
  • 53. ‫أنواع التوسيم‬ ‫توسيم الناشر ‪:publisher tagging‬‬ ‫‪‬‬ ‫يختلف عن النوع الول فقط في أن منشيء أو ناشر المحتوى هو فقط من‬ ‫‪‬‬ ‫يقوم بوضع الواسمات أو الكلمات الدللية، ول يسمح لغيره من المستفيدين‬ ‫بإضافتها أو إنشاءها.‬ ‫يعد موقع فليكر ‪ Flicker‬لمشاركة الصور من أكثر المثلة على هذا النوع، حيث‬ ‫‪‬‬ ‫يمك ن للشخص الذي يقوم بمشاركة الصور من توسيم كل منها بسلسلة من‬ ‫الكلمات المفتاحية أو الدللية، بحيث يمكن بعدها لمستخدمي الموقع البحث عن‬ ‫الصور اعتماداعلى تلك الواسمات المصاغة من قبل ناشري الصور.‬
  • 54. ‫توسيم الناشر‬ ‫توسيم الناشر‬ ‫توسيم الجمهور‬ ‫توسيم الجمهور‬
  • 55. ‫نموذج نظم التوسيم ‪Tagging Systems Model‬‬ ‫ممحممم ”مممممميث“ أن النموذج‬ ‫س‬ ‫أوض‬ ‫‪‬‬ ‫مامممسي ممممم التوسيم يتكون‬ ‫لنظ‬ ‫الس‬ ‫مستفيد‬ ‫من ثلثة عناصر، هي: المستفيد،‬ ‫والمصادر، والواسمات.‬ ‫ممامممدر هي الكيانات المراد‬ ‫المص‬ ‫‪‬‬ ‫توسيمها.‬ ‫مصادر‬ ‫الواسمات هي الكلمات المفتاحية‬ ‫‪‬‬ ‫أو الدللية‬ ‫تحدد نظم التوسيم:‬ ‫‪‬‬ ‫واسمات‬ ‫من يقوم بعملية التوسيم‬ ‫‪‬‬ ‫ما الذي يمكن توسيمه‬ ‫‪‬‬ ‫ما نوع الواسمات/الكلمات الدللية التي‬ ‫‪‬‬ ‫يمكن استخدامها‬
  • 56. ‫العيوب‬ ‫التضليل في صياغة الواسمات لضمان الوصول للمصدر.‬ ‫‪‬‬ ‫استخدام الواسمات غير ذات دللة أو الغامضة )مثل أنا كئيب،‬ ‫‪‬‬ ‫5، ‪ ،(zzzzzzz‬ومن ثم ل تكون واصفة للمواد التي تحويها.‬ ‫عدم وجود لغة مقيدة للواسمات يجعل من الصعوبة الوصول لجميع‬ ‫‪‬‬ ‫المواد أو البحث عنها.‬
  • 57. ‫سحب/حشود الواسمات ‪tag cloud‬‬ ‫هي عبارة عن تمثيلت مرئية للتيجان؛ تستهدف في الساس التمثيل‬ ‫‪‬‬ ‫المرئي لمعدلت تكرار أو شدة الستخدام لتيجان بعينها، مما يدلل‬ ‫على أهميتها النسبية قياسا بغيرها من التيجان.‬
  • 58.
  • 59.
  • 60.
  • 62. ‫المفهوم والمصطلح‬ ‫يرجع ظهور مصطلح ”‪ “Folksonomy‬إلى مقال لـ ”توماس فاندر“ ‪Thomas‬‬ ‫‪‬‬ ‫‪ Vander‬عام 4002 ؛ للتعبير عن تصنيف يبتكره المستخدمون, ويتكون المصطلح من‬ ‫المزج بين مصطلحين: الناس/البشر ”‪ ،“Folk‬والتصنيف ”‪.“Taxonomy‬‬ ‫الفوكسونومي هو نظام منشا بواسطة المستفيد ‪ User-generated‬يسمح بتوسيم‬ ‫نُ‬ ‫‪‬‬ ‫مصادرهم الرقمية المفضلة باستخدام كلمات أو جمل اللغة الطبيعية التي يخترونها.‬ ‫الفوكسونومي هو ممارسة لمنهجية تعاونية في إنشاء وإدارة الواسمات لشرح أو توضيح‬ ‫‪‬‬ ‫‪ annotate‬وتبويب ‪ categorize‬المحتوى.‬ ‫الفوكسونومي هو ناتج التوسيم الحر للمعلومات والكيانات على الويب )أى شئ له عنوان‬ ‫‪‬‬ ‫موحد للمصدر ‪ (URL‬بواسطة المستفيد ولرغراضه السترجاعية.‬ ‫الفوكسونومي هو تعبير عن محتوى الويب من خلل المستخدمين رغير المهنيين، على أن‬ ‫‪‬‬ ‫يكون هذا التنظيم وفق رؤيتهم من خلل تأثرهم بالثقافة والمجتمع واللغة وأشياء أخرى كثيرة،‬ ‫على أن يتم استرجاع المحتوى بنفس طريقة التنظيم.‬
  • 63.
  • 64. ‫عناصر الفوكسونومي‬ ‫تتمثل مقومات إنشاء الفوكسونومي في ثلثة‬ ‫‪‬‬ ‫عناصر رئيسية: المصادر، والمستفيديون،‬ ‫والواسمات )الكلمات الدللية/الدالة(‬ ‫يضاف إلى العناصر السابقة تطوير بيئة تعاونية‬ ‫‪‬‬ ‫مبنية على الويب )الجيل الثاني من الويب ‪web‬‬ ‫0.2(.‬ ‫يتولى المستفيدون مهمة صيانة هذا التصنيف من‬ ‫‪‬‬ ‫خلل إضافتهم للمزيد من الواسمات‬
  • 65. ‫الونواع‬ ‫الفوكسونومي العريض ‪Broad Folksonomy‬‬ ‫)1‬ ‫وهو التصنيف الذى من خلله يتمكن عدد من المستفيدين من أن يضعوا الرمز أو‬ ‫‪‬‬ ‫الكلمة الدللية المناسبة من وجهة نظرهم كما هو الحال فى دليشيز )الشكل(‬ ‫يستخدم كأداة لكشف اتجاهات مجموعة من المستخدمين أثناء وضعهم لعنصر أو وثيقة‬ ‫‪‬‬ ‫واحدة، بحيث يمكن بعد ذلك استخدام تلك القائمة التى وضعت لختيار أفضل‬ ‫نُ‬ ‫المصطلحات للتعبير عن ذلك المحتوى.‬ ‫الفوكسونومي الضيق ‪Narrow Folksonomy‬‬ ‫)1‬ ‫فيه يمكن للمستفيد أن يحدد رموزا لسهاماته فقط ويتم وضعها مرة واحدة فقط، ول‬ ‫اً‬ ‫‪‬‬ ‫يمكن لمستفيد آخر من توسيم تلك السهامات.‬ ‫الفرق الجوهري بين النوعين في من يضع الكلمات الدللية؛ ففي الفوكسونومي الضيق‬ ‫‪‬‬ ‫يقتصر وضع الواسمات )الكلمات الدللية( على المستخدم الذي رفع المحتوى إلى‬ ‫الموقع فقط دون رغيره، والعكس في الفوكسونومي العريض حيث يسمح للمستخدمين‬ ‫جميعا بوضع واسمات للمحتوى.‬
  • 67. ‫المزايا‬ ‫الشمولية: فهو ي عكس المفردات المستخدمة من جانب المستفيدين، وهو بذلك يمكن أن‬ ‫‪‬‬ ‫يوصف بأنه أكثر ديمقراطية مقارنة بالنظم الخرى التى تعتمد على اللغات المقيدة. حيث‬ ‫يقدم هذا السلوب الفرصة لكل مستفيد للتعبير عن المحتوى الموضوعى بطريقته‬ ‫الخاصة، والسماح بمشاركة رغيره من المستفيدين فى الرموز الموضوعة للتعبير عن وثيقة‬ ‫واحدة.‬ ‫الملئمة والتساع: يمكن من خلل الفوكسونومي أن يتسع للمظاهر الجديدة فى مجال‬ ‫‪‬‬ ‫معين أو لموضوع معين.‬ ‫يعكس فعليا المصطلحات التي يتم استخدامها من قبل الفراد المستخدمين لمصادر‬ ‫بِ‬ ‫‪‬‬ ‫المعلومات.‬ ‫يعتبر بداية لتصميم نظام )مكنز(، حيث يعتبر نواة لبداية العمل على التنقيح والستبعاد‬ ‫‪‬‬ ‫لتكوين مكنز جيد.‬
  • 68. ‫المزايا‬ ‫المصطلحات التي يستخدمها الفراد قد تكون أكثر حداثة مقارنة بالمهنيين، وقد يرجع ذلك‬ ‫‪‬‬ ‫لمتابعتهم المستمرة لكل ما يضاف من مصادر وما يستحدث من مصطلحات في مجال‬ ‫اهتماماتهم.‬ ‫إمكانية إضافة العديد من المصطلحات للتعبير عن مصدر واحد.‬ ‫‪‬‬ ‫عدم وجود مصطلحات أو كلمات دالة يعتمد عليها هذا النوع من التصنيف؛ ومن ثم فيمكن‬ ‫‪‬‬ ‫لى مستفيد أن يضع الرموز التى يراها مناسبة من وجهة نظره، وقد تكون مناسبة بالفعل‬ ‫وقد ل تكون.‬ ‫إمكانية استخدام المستخدم للغته الخاصة التي يمكن بها وصف المعلومات بكلمات تعكس‬ ‫‪‬‬ ‫ثقافته.‬ ‫إمكانية استخدام المستخدم لمصطلحات ذات معاني معينة تعكس مدى اهتمامه بالموضوع.‬ ‫‪‬‬ ‫المشاركة الموضوعية عن طريق تجميع الهتمامات الخاصة بالمستخدمين كلهم وإتاحة‬ ‫‪‬‬ ‫المصادر المتعلقة بهذا الهتمام.‬
  • 69. ‫المزايا‬ ‫عدم وجود الهرمية في التنظيم؛ وبالتالي ل يحتاج المستخدم أن يكون ملما بنظام تصنيف‬ ‫‪‬‬ ‫معين ليتصفح الموقع، حيث ل يحتاج إلى فهم المصطلحات وإيجاد الروابط المختلفة أو‬ ‫حتى محاولة التفكير في أي رأس موضوع يندرج تحته استفساره.‬ ‫سهولة وضع الواصفات أو المصطلحات دون الحاجة إلى التدريب على التصنيف أو‬ ‫‪‬‬ ‫التكشيف.‬ ‫استخدام المصطلحات الكثر استخداما )شائعة( كمصطلحات واصفة للمعلومات مما‬ ‫‪‬‬ ‫يساعد على سهولة استرجاعها بالطريقة الشائعة لغير المهنيين.‬ ‫من السهل إدراج أي واصفات جديدة وتغييرها أو تحديثها.‬ ‫‪‬‬
  • 70. ‫الونتقادات‬ ‫نقص الدقة: رغياب الضبط يسمح لمستخدمي الموقع تحديد أو وضع الكلمات التى تعبر‬ ‫‪‬‬ ‫عن المحتوى الموضوعى لوثيقة ما، وعلى ذلك فيمكن أن نجد أشكال مختلفة للكلمة‬ ‫الواحدة، صيغة المفرد والجمع للسماء، الختصارات؛ وذلك لتباين ثقافات الفراد‬ ‫ومستوياتهم.‬ ‫التصنيف الحر ل يشتمل على دليل للستخدام أو ملحظات توضيحية.‬ ‫‪‬‬ ‫ينتج عنه عدد من مشكلت استكشاف العلقات بين الكلمات الدللية؛ كنتيجة طبيعية‬ ‫‪‬‬ ‫لتفاوت طبيعية مستوى الكلمات المستخدمة للتعبير عن المحتوى ما بين مصطلحات‬ ‫رغاية فى العمومية إلى مصطلحات رغاية فى التخصيص.‬ ‫صعوبة السترجاع في بعض الحيان؛ فالشخص الذي يبحث عن موضوع معين يجب‬ ‫‪‬‬ ‫عليه أن يكون على دراية بثقافة الخرين؛ حتى يتمكن من البحث بالمصطلح الذي أتى‬ ‫به بعض الشخاص الواضعين للواصفات من قبلهم.‬ ‫بِ‬
  • 71. ‫الونتقادات‬ ‫الغموض والختلف في المعاني بجانب كثرة المرادفات من حيث إعطاء أكثر من‬ ‫‪‬‬ ‫مسمى )مصطلح( لمعنى واحد.‬ ‫تعدد استخدام الشكال لرصد المحتوى، حيث هناك من يضع )كلمة واحدة( لوصف‬ ‫‪‬‬ ‫المحتوى وهناك من يضع )شبه جملة( أو )جملة كاملة(.‬ ‫تشابه بعض المصطلحات في طريقة الكتابة مع اختلف المعنى، مثال: المغرب )دولة(،‬ ‫‪‬‬ ‫المغرب )صلة(، المغرب )جهة الغرب(.‬ ‫اختلف التعبير عن المصطلحات فهناك من يعبر )بالصيغة المفردة(، وهناك من يعبر‬ ‫‪‬‬ ‫)بالصيغة الجمع(.‬ ‫عدم وجود رقابة من قبل المسئولين عن الموقع على الواصفات التي يتم وضعها من قبل‬ ‫بِ‬ ‫نُ‬ ‫‪‬‬ ‫المستخدمين مما يؤدى إلى وجود بعض اللفاظ الخارجة.‬ ‫استخدام مصطلحات رغير لغوية من قبل فئة معينة من المستخدمين.‬ ‫بِ‬ ‫‪‬‬
  • 72. ‫الونتقادات‬ ‫استخدام أكثر من لغة واحدة للتعبير عن المحتوى.‬ ‫‪‬‬ ‫استخدام البعض للكلمات الخاصة أو الضمائر، مثال: كلبي – كلب.‬ ‫‪‬‬ ‫استخدام الكثير من العلمات التي تعيق عملية السترجاع، مثـال: & - % -.‬ ‫‪‬‬ ‫استخدام المصطلحات العامية كواصفات.‬ ‫‪‬‬
  • 73. ‫مزيد من المعلومات .. قراءات .. مصادر‬ .2000 ،‫حشمت قاسم . مدخل لدراسة التكشيف والستخلص.ـ القاهرة: دار غريب‬   Larson and Hearst’s slides, at UC-Berkeley. http://www.sims.berkeley.edu/courses/is202/f00/  Wolfgang Hürst (2006). Web Search, Albert-Ludwigs-University Freiburg, Germany, Summer Term  Zdravko Markov and Daniel T. Larose, Data Mining the Web: Uncovering Patterns in Web Content, Structure, and Usage, Wiley, 2007. Slides for Chapter 1: Information Retrieval an Web Search  K.T. Anuradha. Search Engines for Intranets. National Centre for Science Information (NCSI), Indian Institute of Science, Bangalore  Dragomir R. Radev. Search Engine Technology ‫خالد عبد الفتاح . تحليل وفرز النتائج في محركات بحث الشبكة العنكبوتية. في: مؤتمر محركات البحث‬  .2005 ‫على النترنت، شرم الشيخ، فبراير‬ ‫مؤمن سيد النشرتي. التحديات التي تواجه خوارزميات محركات البحث في استرجاع المحتوى العربي على‬  .(2012 ‫.- ع 92 )سبتمبر‬Cybrarians Journal -.‫الشبكة العنكبوتية العالمية دراسة مسحية تحليلية‬
  • 74. ‫محمد فتحي عبد الهادي. التجاهات الحديثة في التحليل الموضوعي للمعلومات وموقف قطاع‬ ‫‪‬‬ ‫المعلومات العربي منها. في: مؤتمر التحاد العربي للمكتبات والمعلومات، المغرب، 9002.‬ ‫شريف كامل شاهين. التجاهات الحديثة في التحليل الموضوعي .ـ مجلة المكتبات والمعلومات العربية،‬ ‫‪‬‬ ‫س42 ، ع2)4002(. ص 5-14.‬ ‫‪‬‬ ‫:‪Smith, Gene. Tagging: People-Powered Metadata for the Social Web.- Berkeley, California‬‬ ‫8002,‪New Riders‬‬ ‫‪‬‬ ‫‪Getting, B. (2007). What Are “Tags” And What Is “Tagging?”. Retrieved 5 2, 2011, from‬‬ ‫-‪http://www.practicalecommerce.com/articles/589-What-Are-Tags-And-What-Is-Tagging‬‬

Notes de l'éditeur

  1. Margaret Maurer OPAL Conference, August 2008 http://www.personal.kent.edu/~mbmaurer