مشکلات موتورهای جستجوی پایگاه‌های نسخ خطی اسلامی

مشکلات موتورهای جستجوی پایگاه‌های نسخ خطی اسلامی

علی مشهدی رفیع

  1. مقدمه

در سالهای اخیر، روند دیجیتال‌سازی در بسیاری از مجموعه‌های آرشیوی نسخ خطی اسلامی در سراسر جهان، شتاب چشمگیری گرفته است و اغلب این مجموعه‌ها برنامه‌های متعددی برای راه‌اندازی پایگاه‌های اطلاع‌رسانی دیجیتال تحت شبکۀ جهانی اینترنت به اجرا گذاشته‌اند[1]. به‌عنوان نمونه اغلب مجموعه‌های بزرگ نسخ خطی خاورمیانه به دیجیتال‌سازی نسخ خطی خود اقدام کرده‌اند و ارائۀ خدمات مرتبط با نسخه‌های دیجیتال مواد کتابخانه‌ای رفته‌رفته به شیوۀ معمول این مجموعه‌ها تبدیل شده است. در حقیقت روند دیجیتال‌سازی به‌حدی شتاب گرفته است که هم‌اکنون پروژه‌هایی مانند کتابخانۀ دیجیتال جهانی در دست اجراست.[2]

یکی از نتایج ملموس پیشرفت روزافزون پروژه‌های دیجیتال‌سازی، راه‌اندازی پایگاه‌های اطلاع‌رسانی مجموعه‌های نسخ خطی است که فارغ از گوناگونی فرم، غالب و نوع خدمات، اغلب با ساختار بانک‌های اطلاعاتی یا کتابخانه‌های دیجیتال سامان داده شده‌اند. در حقیقت، این پایگاه‌های اطلاع‌رسانی ما به ازاء‌‌ های مجازی مجموعه‌های آرشیوی نسخ خطی هستند که اغلب سرویس قابل جستجوی فهرست مجموعه را شامل می‌شوند و گاهی امکان دسترسی مستقیم به نمونۀ دیجیتال نسخۀ خطی را نیز برای کاربر فراهم می‌کنند. مثلاً  از هشت مجموعۀ بزرگ نسخ خطی ایران (کتابخانه‌ ملی ایران، کتابخانۀ آستان قدس رضوی، کتابخانۀ آیت‌الله مرعشی، کتابخانۀ مرکزی دانشگاه تهران، کتابخانۀ مجلس شورای اسلامی، کتابخانۀ کاخ گلستان، کتابخانۀ ملک و کتابخانۀ وزیری یزد)، هفت مجموعه، در وبسایت اینترنتی خود، بانک اطلاعاتی مجزایی برای نسخ خطی منتشر کرده‌اند که خدمات متنوعی در اختیار کاربران خود قرار می‌دهد.

در این بانک‌های اطلاعاتی، کاربران می‌توانند مادۀ آرشیوی (در اینجا، نسخۀ خطی) موردنظر خود را به سه شیوه جستجو کنند:

ـ بازیابی از طریق درختوارۀ موضوعی

ـ بازیابی از طریق ترتیب الفبایی

ـ بازیابی از طریق موتور جستجوی بانک

برای مجموعه‌هایی که تعداد کمی عنوان را در خود جای داده‌اند و این عناوین نیز تنوع موضوعی چندانی ندارند، استفاده از شیوه‌های درختوارۀ موضوعی و ترتیب الفبایی، منطقی به‌نظر می‌رسد. اما برای مجموعه‌هایی که هم از نظر تعداد عنوان و هم از نظر تنوع موضوعی، گستردگی قابل ملاحظه‌ای دارند، بازیابی نسخۀ خطی به دو شیوۀ مذکور اگر نه غیرممکن، ولی بسیار دشوار است. در واقع، برای استفاده از درختواره باید پیش از هر چیز، تصور دقیقی از تقسیم‌بندی موضوعی فهرستنگار مجموعه داشته باشیم و یا برای استفاده از نظم الفبایی باید عنوان مورد نظر خود را به صورت دقیق و کامل از پیش بدانیم. در حقیقت بدون این دو شرط، موفقیت کاربر بیش از هر چیز، به شانس او وابسته خواهد بود.

با این اوصاف می‌توان موتورهای جستجو را یکی از اصلی‌ترین ابزارهای بازیابی در بانک‌های اطلاعاتی و به‌تبع آن پایگاه‌های اطلاع‌رسانی نسخ خطی دانست و میزان موفقیت کاربر در دستیابی به اطلاعات مورد نظر نیز عمدتاً به الگوریتم جستجوی این موتورها و تناسب ساختار آنها با داده‌های بانک بستگی خواهد داشت.

  1. روش‌شناسی

برای ارزیابی موتورهای جستجوی پایگاه‌های اینترنتی نسخ خطی اسلامی، نخست فهرستی از این پایگاه‌ها تهیه شد. در بررسی اولیه، پایگاه‌های فاقد خدمات جستجو از لیست خارج و پایگاه‌های باقیمانده از نظر ساختار، رسم‌الخط، حوزۀ زبانی، نوع خدمات و سطح دسترسی کاربران طبقه‌بندی شدند. نتایج حاصل از این بررسی اولیه 23 پایگاه اینترنتی مشخص کرد و موتورهای جستجوی به‌کار رفته در آنها برمبنای شیوۀ انجام فرایند جستجو و دامنۀ خدماتی که در اختیار کاربر قرار می‌گیرد، دسته‌بندی و هر موتور جستجو با سرویس‌های جستجوی همسنگ خود مقایسه شد.

این پایگاه ها عبارتند از: آرشیو دیجیتال کتابخانۀ ملی آلمان[3]، پایگاه نسخ خطی اسلامی دانشگاه لایپزیگ[4]، پایگاه منابع خطی شرقی دانشگاه آلبرت لودویگ فرایبورگ[5]، آرشیو دیجیتال گالیکا[6] ، کتابخانۀ ملی فرانسه[7] ، کتابخانۀ دیجیتال کمبریج[8] ، پروژه شاهنامه[9]، پروژه فهرست[10] (فهرست مشترک نسخ خطی اسلامی کتابخانۀ های انگلستان)، مجموعه‌های خطی شرقی کتابخانۀ بادلیان[11] ، پایگاه دیجیتال کتابخانۀ ملی ایران، کتابخانۀ دیجیتال موزه ملک، کتابخانۀ دیجیتال مرکز اسناد و کتابخانۀ مجلس شورای اسلامی، کتابخانۀ مرعشی، پایگاه اطلاعات نسخ خطی آقابزرگ، کتابخانۀ دانشگاه مک‌گیل[12]، فهرست هانا کتابخانۀ ملی اتریش[13]، پایگاه نسخ خطی وزارت فرهنگ و گردشگری ترکیه[14]، کتابخانۀ دیجیتال هتی‌تراست[15]، کتابخانۀ دیجیتال دانشگاه میشیگان[16]، پروژه فهرستنگاری برخط کتابخانۀ دانشگاه میشیگان، کتابخانۀ دیجیتال نسخ خطی اسلامی پرینستون[17] ، نسخ خطی عربی برخط مجموعه ولکام[18] و کتابخانۀ اسکندریه مصر[19].

در گام بعدی فهرستی از کلیدواژه‌های مرتبط با موضوعات اقماری نسخه‌شناسی نسخ خطی اسلامی تهیه شد و این کلیدواژه‌ها در تمام موتورهای جستجوی پایگاه‌های یادشده مورد جستجو قرار گرفت. در این مرحله از پژوهش، نگارنده تلاش کرده است تا با تحلیل آماری متغیرهای کمی حاصل از این جستجو‌ها، مانند تعداد دفعات موفقیت در یافتن ماده آرشیوی مورد نظر کاربر و یا مقایسۀ طول رشتۀ کاراکتر مورد نیاز برای یافتن یک مادۀ آرشیوی واحد، در کنار تحلیل محتوای روند هر جستجو، ایرادات و دشواری‌های روند بازیابی را در این پایگاه‌ها شناسایی کند.

  1. ساختار پایگاه‌های اطلاع‌رسانی نسخ خطی

دسته بزرگی از پایگاه‌های اینترنتی نسخ خطی اسلامی و موضوعات اقماری آن صفحات اینترنتی نسبتاً ساده‌ای هستند که تنها به معرفی بخش‌های نسخ خطی اسلامی مجموعه‌های آرشیوی می‌پردازند. در این صفحات ساده عمدتاً توضیحات کوتاهی دربارۀ هستۀ مرکزی مجموعه، نحوۀ گردآوری نسخه‌ها، سابقۀ فهرستنگاری مجموعه و فهرستنگاران آن، شیوه‌های مرمت نسخه‌ها و روند حفاظت و نگهداری مجموعه ارائه می‌شود و به جز چند نمونۀ سادۀ تصویری یا امکان بازدید مجازی از چند نسخۀ مصور و یا نفیس مجموعه، سرویس دیگری به کاربر ارائه نمی‌شود. این دسته از پایگاه‌ها به‌ سبب معرفی مجموعه‌های نسخ خطی اسلامی کتابخانه‌ها و آرشیو‌ها اهمیت شایان توجهی دارند، اما به دلیل عدم ارائه خدمات کتابخانه‌ای، به عنوان پایگاه‌های اینترنتی صرفاً اطلاع رسان شناخته شده و موتورهای جستجو کاربری چندانی در آنها نخواهند داشت. در حقیقت در این پایگاه‌ها، بانک اطلاعاتی وجود ندارد که موتور جستجوی ویژه‌ای برای آن پیش‌بینی شده باشد و برای جستجو در این صفحات ساده، می‌توان از خدمات جستجوی محتوای سایت و یا موتورهای جستجوی عمومی مانند Google، Ask و Bing استفاده کرد.

اما ضرورت استفاده از یک موتور جستجو زمانی احساس خواهد شد که به همین صفحات ساده، یک بانک اطلاعاتی افزوده شود. اگر به همین صفحات ساده، بانک‌های اطلاعاتی از قبیل نسخۀ دیجیتال فهرست مجموعه و یا نمایه‌ای موضوعی افزوده شود، به ناچار باید سازوکاری در اختیار کاربر قرار گیرد تا بتواند اطلاعات مورد نظر خود را بازیابی کند. از این دیدگاه می‌توان داده‌های بانک‌های اطلاعاتی نسخ خطی اسلامی را به سه گروه اصلی تقسیم کرد:

ـ رکورد‌های فهرست مجموعه

ـ شکل دیجیتال‌سازی‌شدۀ نسخه‌های مجموعه

ـ کلیدواژه‌ها

در واقع بانک‌های داده پایگاه‌های نسخ خطی اسلامی با ترکیبی از این سه نوع داده پر خواهد شد. گاهی این بانک‌ها ساختار ساده‌ای از رکوردهای متنی حاوی کلیدواژه‌هایی شبیه به کلیدواژه‌های یک نمایۀ موضوعی هستند و گاهی رکوردهای مفصلی حاوی شناسه‌های فهرست اصلی مجموعه و نسخۀ دیجیتال مادۀ آرشیوی را شامل می‌شوند. به همین جهت می‌توان پایگاه‌های اینترنتی مرتبط با نسخ خطی را از نظر نوع بانک اطلاعاتی آنها در دو گروه بزرگ دسته‌بندی کرد:

ـ فهرست‌های برخط (آنلاین) که عمدتاً به نام OPAC [20] شناخته می‌شوند و کاربر می‌تواند از طریق آنها به اطلاعات کتابشناختی نسخۀ مورد نظر خود دست یابد.

ـ کتابخانه‌های دیجیتال که امکان استفاده از شکل دیجیتال نسخۀ مورد نظر را به کاربر می‌دهند.

بالا در نمونۀ مورد بررسی این پژوهش، از تعداد 23 پایگاه اینترنتی نسخ خطی اسلامی، 10 پایگاه از نوع فهرست‌های برخط و 13 پایگاه از نوع کتابخانه‌های دیجیتال بودند که می‌تواند نشان‌دهندۀ تمایل مجموعه‌داران به انتشار الکترونیکی شکل دیجیتال‌سازی‌شدۀ نسخ خطی باشد. از طرفی در میان پایگاه‌های بررسی‌شده، 13 پایگاه صرفاً به ارائۀ خدمات نسخ خطی اسلامی می‌پردازند و سایر پایگاه‌ها در کنار ارائۀ خدمات دیجیتال مرتبط با سایر مواد آرشیوی، از قبیل مطبوعات، کتابهای چاپی و نقشه‌ها خدماتی نیز در رابطه با نسخ خطی اسلامی و موضوعات اقماری آن ارائه می‌کنند. این موضوع نشان می‌دهد که اهمیت نسخ خطی اسلامی در مجموعه‌های آرشیوی به حدی است که علاوه بر پایگاه‌های مختص این مواد آرشیوی، پایگاه‌های عمومی نیز در کنار خدمات عمومی، به ارائۀ خدمات مرتبط با نسخ خطی اسلامی می‌پردازند.

  1. کاربرد موتورهای جستجو در پایگاه‌های اینترنتی نسخ خطی

موتورهای جستجو یکی از اصلی‌ترین ابزارهای بازیابی در پایگاه‌های نسخ خطی هستند و شاید بتوان کیفیت خدماتی را که پایگاه ارائه می کند، براساس کیفیت خدمات موتورهای جستجو تفسیر کرد. در حقیقت موفقیت در جستجو و بازیابی بهتر اطلاعات ارتباطی مستقیم با رضایت کاربر از کل پایگاه اینترنتی دارد. سایر عناصر تشکیل‌دهندۀ پایگاه اینترنتی، از جمله گراف کلی سایت، چیدمان صفحات، طراحی گرافیک و توجه به راحتی کاربر در زمان استفاده از اپلیکشن‌های گوناگون، نیز در میزان رضایت کاربر از سایت اینترنتی نقشی تعیین کننده دارند، اما تأکید مقالۀ حاضر بر اهمیت موتورهای جستجو از این نکته ناشی می‌شود که هدف اصلی کاربر از مراجعه به یک پایگاه اینترنتی، یافتن اطلاعاتی دربارۀ مادۀ آرشیوی موردنظرش است.

  1. 1. مزایا

سرعت و سهولت دسترسی دو عامل تعیین‌کنندۀ در روند بازیابی اطلاعات در یک پایگاه داده به شمار می آیند[21]. به بیان دیگر در این ارزیابی، فارغ از نوع اطلاعاتی که جستجو می‌کنیم، در پی یافتن پاسخی برای دو پرسش زیر هستیم:

ـ در چه مدت زمانی می‌توان به اطلاعات مورد نظر دست یافت؟

ـ آیا ابزار بازیابی کاربر را مستقیماً به اطلاعات موردنظرش راهنمایی می‌کند و یا پس از استفاده از آن مجدداً کاربر ملزم به وجین کردن نتایج خواهد بود؟

با توجه به این دو شاخص شاید بتوان موتورهای جستجو را نسبت به دو شیوۀ دیگر بازیابی (درختوارۀ موضوعی و نظم الفبایی)  ارجح دانست. زیرا از یک سو، بکارگیری دو شیوۀ مذکور آشکارا زمان‌بر خواهد بود و از سوی دیگر کاربر پیش از اقدام به استفاده از درخت موضوعی و نظم الفبایی، باید تصور دقیقی از تقسیم‌بندی موضوعی مورد نظر طراح پایگاه و یا عنوان اصلی مادۀ آرشیوی مورد نظر خود داشته باشد. اما یک موتور جستجو می‌تواند در کسری از ثانیه، اطلاعات مورد نظر را بیابد و با ورود یک کلیدواژه موثر، امکان دسترسی بی‌واسطۀ کاربر به اطلاعات مادۀ آرشیوی وجود دارد. در حقیقت به شرط استفاده از فناوری متناسب با حجم اطلاعات پایگاه، یک موتور جستجو بهترین ابزار بازیابی اطلاعات خواهد بود.

  1. 2. معایب

معایب موتورهای جستجوی پایگاه‌های اینترنتی نسخ خطی اسلامی را می‌توان در دو گروه کلی دسته‌بندی کرد:

ـ معایب ناشی از خصوصیات فنی و ساختاری موتور جستجو

ـ معایب ناشی از عدم تطابق موتور جستجو با فهرست‌های نسخ خطی اسلامی

در حقیقت، برخی از این معایب ناشی از ویژگی‌های فنی و ساختاری موتورهای جستجو و برخی دیگر ناشی از عدم تناسب انواع موجود موتورهای جستجو با پایگاه‌های اینترنتی نسخ خطی اسلامی است.

بیشتر معایبی که در دستۀ اول جای می‌گیرند، به ساختار الگوریتم جستجوی بکار رفته در برنامه‌نویسی موتور جستجو باز می‌گردد. اغلب الگوریتم‌های بکار رفته در این موتورها به شکلی ساده طراحی شده‌اند و صرفاً از تکنیک مقایسۀ داده ورودی کاربر با داده‌های موجود در بانک بهره می‌برند. اگر چه این تکنیک جان‌مایۀ اصلی الگوریتم را تشکیل می‌دهد بدون در نظر گرفتن سایر پیشامدها و شیوه‌های متفاوت نحوۀ ورود اطلاعات توسط کاربر، بازده چندانی نخواهد داشت و شایان ذکر است که موفقیت اغلب موتورهای جستجوی عمومی از قبیل Google، Ask و Yahoo به توجهی که نسبت به این موارد نشان می‌دهند، بستگی دارد.

  1. 2. 1. معایب فنی- ساختاری

اولین مشکلی که کاربر در مواجهه با موتورهای جستجوی پایگاه‌های نسخ خطی با آن روبه‌رو می‌شود، این است که او باید داده‌های موردنظر خود را با دقت و به درستی وارد کند. در حقیقت کاربر حق هیچ‌گونه اشتباهی ندارد و خطای او در ورود اطلاعات، لاجرم به خطا در بازیابی منجر می‌شود. به عنوان نمونه اگر کاربر املای دقیق عبارت مورد نظر خود را نداند و یا تصادفاً در نوشتن ترتیب حروف یک عبارت اشتباه کند، در بازیابی اطلاعات موفق نخواهد بود.

راه‌حلی که موتورهای جستجوی عمومی برای رفع این مشکل در نظر گرفته‌اند، پیشنهاد صحیح‌ترین عبارت نزدیک به عبارت ورودی توسط کاربر است. در این موتورها، بانک اطلاعاتی حاوی کلیدواژه‌های پرکاربرد وجود دارد و اطلاعات ورودی کاربر در گام اول، با عناصر موجود در این بانک مقایسه و در صورت فقدان و یا اندک بودن نتایج جستجو، نزدیک‌ترین عبارت شبیه به عبارت ورودی کاربر برای جستجوی مجدد به او پیشنهاد می‌شود. مثلاً اگر کاربری به دنبال یافتن نسخه‌های موجود از شاهنامۀ فردوسی در یک پایگاه باشد و سهواً عبارت «شاهنامه» را به صورت «شانهامه» وارد کند، در صورت وجود بانک کلیدواژه، موتور جستجو می‌تواند در حین جستجو برای «شانهامه»، جستجو با عبارت «شاهنامه» را نیز به او پیشنهاد دهد.

لحاظ نکردن این نکته در الگوریتم جستجو گاهی مشکلاتی جدی در روند بازیابی به‌ وجود می‌آورد و شانس کاربر را برای بازیابی مادۀ مورد نظر خود به شکلی چشمگیر کاهش می‌دهد. یکی از ایرادات معمول ناشی از این نقیصه، وجود شیوه‌های متفاوت املای یک کلمۀ واحد است. به عنوان نمونه کلیدواژۀ «شاهنامه» در اغلب بانک‌های اطلاعاتی انگلیسی زبان به صورت Shahnameh و در پایگاه‌های آلمانی زبان بیشتر به صورت Schahname آوانگاری شده است. روشن است که در نبود سرویس پیشنهاد‌دهندۀ کلیدواژه و تصحیح جستجو، مشکلات عدیده‌ای برای کاربر هنگام استفادۀ توأمان از پایگاه‌های انگلیسی و آلمانی به‌ وجود خواهد آمد.

با توجه به آنچه گفته شد، آزمونی برای سنجش میزان موفقیت کاربر در بازیابی نسخۀ خطی با کلیدواژۀ حاوی غلط املایی طراحی شد که در آن با توجه به فراوانی قابل توجه واژۀ «شرح» در عناوین نسخه‌های خطی اسلامی، این کلیدواژة یک بار به صورت درهم‌ریختۀ «رشح» و یک بار به صورت نادرست «شره» در تمام پایگاه‌های نمونه، جستجو و داده‌های آماری به‌دست‌آمده از آن بررسی شد.

نمودار یک: احتمال موفقیت کاربر با ورود کلیدواژۀ حاوی غلط املایی

مشکلات موتورهای جستجوی پایگاه‌های نسخ خطی اسلامی

نتایج حاصل از این آزمون (نمودار یک) نشان می‌دهد که فرآیند بازیابی، در صورت ورود کلیدواژۀ درهم‌ریخته در موتورهای جستجوی پایگاه‌های بررسی‌شده، فقط در 13 درصد موارد، موفق خواهد بود و اگر کلیدواژۀ وارد‌شده حاوی حروف نادرست باشد، تنها در 9 درصد موارد، بازیابی موفق خواهد بود. در حقیقت در هر دو مورد، احتمال موفقیت در بازیابی نسخۀ خطی مورد نظر کاربر بسیار ناچیز خواهد بود.

  1. 2. 2. معایب ناشی از تطابق نداشتن الگوریتم جستجو با فهرست‌های نسخ خطی اسلامی

موتورهای جستجوی پایگاه‌های اینترنتی نسخ خطی یا از فهرست مجموعه به‌عنوان بانک اطلاعاتی استفاده می‌کنند و یا با بانکی سروکار دارند که از فهرست مجموعه اقتباس شده است. در حقیقت هرچه فهرست شناسه‌ها متنوع‌تر و حاوی اطلاعات بیشتری باشد، کلیدواژه‌های بیشتری در بانک ذخیره و بازیابی به‌کمک موتور جستجو ساده‌تر و آسان‌تر خواهد شد.

با وجود این، در اختیار داشتن فهرستی توصیفی تنها شرط لازم برای بازیابی ساده‌تر نخواهد بود و باید الگوریتم به‌کاررفته در برنامۀ موتور جستجو با برخی از ویژگی‌های بانک اطلاعاتی اقتباس‌شده از روی فهرست توصیفی، مانند زبان، رسم‌الخط و اعداد تخمینی از قبیل تاریخ کتابت، مطابقت داشته باشد. در غیر این صورت، بسیاری از اطلاعات هیچ‌گاه در نتایج جستجو آشکار نخواهند شد.

یکی از مهمترین معایب موتورهای جستجوی فعلی پایگاه‌های نسخ خطی اسلامی، عدم توجه به نکات رسم‌الخطی عربی- فارسی در تنظیم الگوریتم آنهاست. این الگوریتم‌ها عموماً برای رسم‌الخط لاتین و خانوادۀ زبانی آن طراحی شده‌اند و به‌کارگیری آنها برای پایگاه‌های نسخ خطی اسلامی که بخش قابل توجهی از اطلاعات آن با رسم‌الخط عربی- فارسی نوشته می‌شود، مستلزم بازنگری در این الگوریتم‌هاست. تعداد حروف این رسم‌الخط به‌مراتب بیش از حروف لاتین است و به‌سبب متصل‌نویسی، بسیاری از این حروف بر حسب قرار گرفتن در ابتدا، میانه و انتهای واژه، به اشکالی متفاوت ظاهر می‌شوند. افزون بر این، نشانه‌های غیر حرفی از قبیل همزه، مد و تنوین نیز در این رسم‌الخط وجود دارد که نمایندۀ یک آوا و یا یک زنجیرۀ آوایی هستند و عمدتاً در مکان‌هایی خارج از رشتۀ کاراکتر اصلی کلمه نوشته می‌شوند.[22]

این تفاوت‌ها موجب می‌شود تا موتور جستجویی که بر پایۀ رسم‌الخط لاتین ایجاد شده است، قادر به تشخیص و بازیابی برخی از کلیدواژه‌های عربی- فارسی نباشد. به همین جهت آزمونی برای سنجش میزان تطبیق موتورهای جستجوی پایگاهای اینترنتی مورد بررسی، آزمونی طراحی و سه کلیدواژه «القرآن»، «قرآن» و «قران» در تمامی پایگاه‌ها جستجو شد و نتایج حاصل از این آزمون به‌صورت آماری مورد تحلیل و بررسی قرار گرفت (نمودار دو).

نمودار دو: احتمال موفقیت کاربر با ورود کلیدواژۀ حاوی ویژگی‌های رسم‌الخط عربی- فارسی

مشکلات موتورهای جستجوی پایگاه‌های نسخ خطی اسلامی

نتایج حاصل از این آزمون نشان می‌دهد که در 78 درصد از پایگاه‌های اینترنتی نمونۀ بررسی شده، الگوریتم جستجو با رسم‌الخط عربی- فارسی تطبیق داده نشده است و این در حالی است که محتوای چند شناسۀ اصلی فهرست‌های نسخ خطی از قبیل عنوان اثر، نام مؤلف، نام کاتب و محل کتابت واژه هایی عربی- فارسی خواهند بود که بسیاری از آنها حاوی نکات رسم‌الخطی پیچیده‌ای هستند.

مشکلات ناشی از ویژگی‌های رسم‌الخطی زمانی دو چندان می‌شود که عناوین و اسامی عربی- فارسی به رسم‌الخط زبان دیگری نویسه‌گردانی شده باشند. به عبارت دیگر، وجود روش‌ها و استانداردهای متفاوت نویسه‌گردانی موجب می‌شود که تفاوت‌های نگارشی موجود در نام‌ها و عناوین عربی- فارسی چندین برابر شود و شانس موفقیت کاربر در بازیابی به‌شکلی چشمگیر کاهش یابد. مثلاً در نمونۀ بررسی شده، از میان 23 پایگاه موجود، تمامی عناوین و اسامی عربی- فارسی موجود در 9 پایگاه با رسم‌الخط لاتین نویسه‌گردانی شده‌اند و کاربر چاره‌ای ندارد جز آنکه کلیدواژۀ مورد نظر خود را با این رسم‌الخط بازنویسی و در بانک جستجو کند. این مسئله می‌تواند کاربر را از جستجو به‌وسیلۀ کلیدواژه منصرف کند و به استفاده از سایر الگوهای بازیابی ازجمله استفاده از ترتیب الفبایی و درختوارۀ موضوعی سوق دهد که مطمئناً فرایندی وقت‌گیر و فاقد دقت لازم خواهد بود.

 

نتیجه‌گیری

با توجه به آنچه گفته شد، عدم مطابقت الگوریتم‌های جستجو با ملزومات اولیۀ بازیابی نسخ خطی اسلامی و بی‌توجهی به ویژگی‌های حوزۀ جغرافیایی و فرهنگی این دسته از مواد آرشیوی را می‌توان یکی از اصلی‌ترین ایرادات وارد بر خدمات جستجو در پایگاه‌های نسخ خطی دانست. به‌طوری‌که نتایج حاصل از آزمون‌های انجام‌شده نشان می‌دهد شانس موفقیت کاربر در بازیابی نسخه‌های خطی موردنظرش بسیار ناچیز و در غالب موارد کمتر از 0.2 است.

به‌عبارت بهتر، موتورهای جستجوی موجود در پایگاه‌های نسخ خطی اسلامی غالباً بر مبنای جستجو در متون نوشته شده با رسم‌الخط لاتین تنظیم شده‌اند و متصل‌نویسی و برخی تفاوت‌های نگارشی موجب می‌شود تا توانایی لازم را برای جستجوی موثر کلیدواژه‌های عربی- فارسی نداشته باشند. در نتیجه باید الگوریتم‌های جستجوی موجود را با کلیدواژه‌های موجود تطبیق داد و یا برای این پایگاه‌ها، الگوریتم‌هایی جدید طراحی کرد تا شانس کاربر را در بازیابی نسخه‌های خطی اسلامی افزایش دهد. این مهم مستلزم اشتراک مساعی کتابداران، فهرستنگاران مجموعه‌های نسخ خطی اسلامی و تکنیسین‌های فناوری اطلاعات خواهد بود.

 

 

منابع:

– Nobuko Morishita, Useful Tips For Finding Arabic and Persian Manuscripts In Different Countries, Institute of Oriental Manuscripts of Russian Academy of Sciences, Near Eastern Seminar organized by the Section of Near Eastern Studies, IOM RAS, Feb 2012.

– Yin-Leng Theng & Schubert Foo (2005), Design and Usability of Digital Library: Case studies in the Asia Pacific, Information Science Publishing (an imprint of Idea Group Inc.)

– Amit Singhal (2001), Modern Information Retrieval: A Brief Overview, Bulletin of the IEEE Computer Society Technical Committee on Data Engineering 24 (4): 35–43.

– Abolfazl AleAhmad, Hadi Amiri, Masoud Rahgozar, Farhad Oroumchian (2008), Experiments with English-Persian Text Retrieval, Proceeding of the 2nd ACM workshop on Improving Non English Web Searching, 77-80.

 

[1]. Yin-Leng Theng & Schubert Foo (2005), Design and Usability of Digital Library: Case studies in the Asia Pacific, Information Science Publishing (an imprint of Idea Group Inc.), p. 32.

[2]. Ibid, p. 34.

[3]. Deutsche digitale Bibliothek

[4]. Islamic Manuscripts at the Leipzig university

[5]. Albert Ludwigs Universitaet Freiburg – Oriental Manuscript Resource (OMAR)

[6]. Gallica bibliotheque numerique

[7]. National library of France

[8]. Cambridge Digital Library

[9]. Shahname Project

[10]. Fihrist – Islamic Manuscripts Catalogue Online

[11]. Oxford Digital Library – Features of the Bodleian Oriental Manuscript Collections

[12]. McGill library

[13]. Austrian National library – HANNA Katalog

[14]. Republic of Turkey, Ministry of Culture and Tourism

[15]. Hathi Trust digital library

[16]. Library of university of Michigan

[17]. Princeton Digital Library of Islamic Manuscripts

[18]. Wellcome Arabic Manuscripts Online

[19]. Bibliotheca Alexandrina

[20]. Online Public Access Catalogue

[21]. Amit Singhal (2001), Modern Information Retrieval: A Brief Overview, Bulletin of the IEEE Computer Society Technical Committee on Data Engineering 24 (4): 35–43.

[22]. Abolfazl AleAhmad & Others (2008), Experiments with English-Persian Text Retrieval, Proceeding of the 2nd ACM workshop on Improving Non English Web Searching, p. 77.

 

منبع :

جستارهايي در ميراث اسلامي (مجموعه مقالات، يادداشت‌ها، اسناد و متون)

دفتر اول

به كوشش: دكتر یوسف بیگباباپور

ارسال نظر

آدرس ایمیل شما منتشر نخواهد شد.