یکشنبه ۷ خرداد ۱۴۰۲ - ۰۹:۱۹

آشنایی با نسخه عربی سامانه مشابه‌یاب نور

حوزه/ کارکرد سمیم نور به این شکل است که کاربر فایل پژوهشی ( اعم از مقاله، پایان‌نامه یا کتاب یا ...) را به سامانه می‌دهد و سامانه با سنجش فایل ورودی با متون پشتیبان موجود در بانک سامانه، گزارشی از درصد مشابهت فایل ورودی نسبت به متونی که قبلاً منتشر شده را به کاربر اعلام می‌کند.

به گزارش خبرگزاری حوزه، دکتر مهدی بهنیافر مدیر سامانه مشابه‌یاب متون نور در مراسم رونمایی از نسخه عربی سامانه مشابه‌یاب نور (سمیم نور)، با اشاره به تاریخچه‌ای از سامانه‌های مشابه‌یاب در دنیا، بیان داشت: این سامانه‌ها در دنیا با عنوان کشف تقلب علمی شناخته می‌شوند و هم اکنون در زبان‌های مختلف حدود ۵۰ سامانه در این حوزه وجود دارد که عموماً مختص به زبان‌ انگلیسی و زبان‌های چپ به راست مانند آلمانی، فرانسوی و ... هستند. تا قبل از سال ۱۳۹۳ سامانه‌ای که زبان‌های راست به چپ مانند فارسی و عربی را پشتیبانی کند وجود نداشت تا اینکه به همت مرکز تحقیقات کامپیوتری علوم اسلامی از سال ۱۳۹۳ نسخه تجاری سامانه مشابه یاب نور که به اختصار سمیم نور نامیده شده، در اختیار جامعه علمی قرار گرفت.

وی شروع کار تحقیق و توسعه مشابه‌یابی متون در مرکز نور را از سال ۸۸ دانست و افزود: شروع کار مشابه‌یابی متون به سال ۸۸ بر می‌گردد و در مرحله نخست نیز شروع کار با زبان عربی شکل گرفت که حاصل آن نیز ابتدا در بخش مشابه‌یاب روایات (در نرم‌افزار جامع الاحادیث ۳.۵) مورد استفاده قرار گرفت و سپس منجر به شکل‌گیری موتور مشابه‌یاب سمیم نور در متون فارسی شد. امروز نیز به طور رسمی موفق به ارائه موتور جستجوی مشابه‌یاب متون عربی نور به همراه رابط کاربری عربی شده‌ایم.

مدیر سامانه مشابه‌یاب متون نور به تشریح سازوکار سامانه مشابه‌یاب نور پرداخت و بیان داشت: کارکرد سمیم نور به این شکل است که کاربر فایل پژوهشی (اعم از مقاله، پایان‌نامه یا کتاب یا ...) را به سامانه می‌دهد و سامانه با سنجش فایل ورودی با متون پشتیبان موجود در بانک سامانه، گزارشی از درصد مشابهت فایل ورودی نسبت به متونی که قبلاً منتشر شده را به کاربر اعلام می‌کند. این فرایند به پژوهشگران، اساتید داور و راهنما یا سردبیران این امکان را می‌دهد که نسبت به پذیرش یا عدم پذیرش این خروجی علمی دقیق‌تر تصمیم بگیرند.

دکتر بهنیافر با بیان اینکه موتور مشابهت‌یاب سمیم نور به عنوان یکی از دو جزء اساسی سمیم نور حاصل تجربیات فنی مرکز نور با بهره‌برداری از NLP (پردازی زبان طبیعی) است، ادامه داد: دیتای پشتیبان سمیم نور یکی دیگر از اجزاء سمیم نور است که هم اکنون از داده‌های فارسی و عربی بهره‌ می‌برد و شامل حدود ۵۰ هزار کتاب (که به زودی ۳۱ هزار عنوان به آن افزوده خواهد شد)، ۸۰۰ هزار مقاله منتشر شده در مجلات معتبر و علمی، حدود ۴ میلیون و ۵۰۰ هزار صفحه مقاله اینترنتی (از ۳۶ وب سایت عرب زبان که ۶۱ وب سایت دیگر هم به آن افزوده خواهد شد) و ۱۴۰ هزار پایان‌نامه دفاع شده (که ۵ هزار عنوان از دانشگاه الأزهر مصر، ادیان و مذاهب اسلامی در ایران و دانشگاه قم به آن افزوده خواهد شد) می‌باشد و موتور مشابه‌یاب سمیم با استفاده از این بانک غنی به سنجش درصد مشابهت می‌پردازد.

وی افزود: در حال حاضر حدود ۲۹ هزار عنوان کتاب، ۷۲ هزار مقاله، قریب به ۲ میلیون صفحه وب و حدود ۱۰ هزار پایان‌نامه به زبان عربی در بانک پشتیبان سمیم نور وجود دارد که در مشابه‌یابی استفاده می‌شوند.

مدیر سامانه مشابه‌یاب متون نور با تبیین موضوعاتی که امکان مشابهت‌یابی در سامانه سمیم نور دارند بیان داشت: مرکز تحقیقات کامپیوتری علوم اسلامی از سال ۶۸ فعالیت خودش را متمرکز بر علوم اسلامی و انسانی کرده و طبیعتاً سمیم نور نیز سامانه‌ای است که بر این دو رشته متمرکز شده است که طیف وسیعی از علوم مانند فقه، اصول، تاریخ و حتی رشته‌هایی مانند تربیت بدنی، روان‌شناسی و... را شامل می‌شود.

دکتر بهنیافر در پایان با توضیح دلیل استفاده از نام سامانه مشابه‌یاب به جای سامانه‌ کشف تقلب، گفت: ما برای نام این سامانه از عنوان کشف تقلب در فارسی و کشف انتحال در عربی استفاده نکردیم چرا که در ایران قوانین دقیقی برای تعریف سرقت علمی و تعیین میزان درصد غیر مجاز اقتباس از آثار (که بر آن سرقت علمی صدق می‌کند)، نداریم بر خلاف زبان انگلیسی و زبان‌های دیگر که این قوانین به طور شفاف بیان شده است.