سه‌شنبه ۲۸ فروردين ۱۴۰۳ - 2024 April 16 - ۶ شوال ۱۴۴۵
۰۸ تير ۱۴۰۱ - ۰۷:۱۲

پیکرۀ زبانی چیست، مخزن شاهد رایانه‌ای کدام است؟

یک زبان‌شناس و فرهنگ‌نویس درباره تفاوت‌های پیکرۀ زبانی با مخزن شاهد رایانه‌ای می‌گوید: گردآوری مخزن شاهد رایانه‌ای به‌جای پیکره وقت و هزینۀ بسیار گزافی می‌طلبد و برای گردآوری آن عمرها و هزینه‌های بسیاری بیهوده تلف می‌شود؛ درحالی‌که گردآوری پیکرۀ زبانی هم به هزینه و زمان بسیار کمتری نیاز دارد و هم امکانات بیشتری در اختیار کاربر قرار می‌دهد.
کد خبر: ۴۶۴۲۵۶

فرهاد قربان‌زاده - زبان‌شناس و فرهنگ‌نویس - در گفت‌وگویی با ایران اکونومیست دربارۀ پیشینۀ پیکره‌های زبانی اظهار کرد: پیش از اختراع رایانه، زبان‌شناسان و زبان‌پژوهان برای پژوهش‌های خود «مخزن شاهد» گردآوری می‌کردند. به این صورت که کتابی را می‌خواندند و زیر برخی واژه‌ها و عبارت‌های موجود در کتاب خط می‌کشیدند و آن را همراه با جمله‌ای که واژه یا عبارتِ مورد نظر در آن به‌کار رفته روی برگه‌های جداگانه‌ای یادداشت می‌کردند. سپس این برگه‌ها را براساس آن واژه‌ها یا عبارت‌ها الفبایی می‌کردند. به مجموع این برگه‌ها «مخزن شاهد» گفته می‌شود.

او سپس گفت: از میان حدود سیصد واژۀ به‌کاررفته در یک صفحه فقط امکان استخراج و برگه‌نویسیِ ده بیست واژه وجود دارد و اگر نگوییم برگه‌نویسیِ همۀ واژه‌های یک کتاب ناممکن است، این کار بسیار دشوار و پرهزینه و وقت‌گیر است. روشن است که روی برگه‌های مخزن شاهد جمله‌های بعدی و قبلی نوشته نمی‌شود یا فقط یکی دو جملۀ قبلی و بعدی نوشته می‌شود و خواننده برای دیدن جمله‌های دیگر، ناگزیر است به متن اصلی مراجعه کند.

قربان‌زاده همچنین با بیان این‌که در سال ۱۹۶۳ و ۱۹۶۴ و در دانشگاه براون نخستین پیکرۀ رایانه‌ای به نام «پیکرۀ براون» گردآوری شد، اظهار کرد: تفاوت «پیکره» با «مخزن شاهد» در این است که برای گردآوری پیکره همۀ متن حروف‌نگاری می‌شود و افراد در انتخاب واژه‌ها سلیقۀ خود را دخالت نمی‌دهند و آنچه در پیکره وارد می‌شود زبان واقعی است. پیکرۀ براون نزدیک به یک‌میلیون واژه داشت. امروزه پیکره‌ای با یک‌میلیون واژه کوچک شمرده می‌شود و پیکره‌هایی که در قرن بیست‌ویکم در زبان انگلیسی گردآوری شده‌اند چندین میلیارد واژه دارند. در دهۀ ۱۹۷۰، زبان‌شناسان و زبان‌پژوهانِ دیگر نیز دست به گردآوری پیکرۀ رایانه‌ای زدند و این روند تاکنون ادامه داشته‌است.

این زبان‌شناس و فرهنگ‌نویس سپس گفت: با رواج رایانه، دیگر گردآوری مخزن شاهد توجیهی ندارد، ولی در ایران دیده شده‌است که، بدون توجه به ویژگی‌ها و پیشرفت‌های روز در گردآوری پیکره، مخزن شاهد و پیکرۀ رایانه‌ای را در هم آمیخته‌اند و چیزی گرد آورند که من پیش‌تر آن را «مخزن شاهد رایانه‌ای» یا «پیکرۀ گسسته» نامیده‌ام. به این صورت که زیر واژه‌های دلخواهِ موجود در متن را خط می‌کشند تا آن‌ها را گزینش کنند و سپس حروف‌نگار جمله‌ای را که واژۀ مشخص‌شده در آن است حروف‌نگاری می‌کند. مخزن شاهد رایانه‌ای نیز مانند مخزن شاهد کاغذی کاستی‌ها و کمبودها و اشکالات پرشماری دارد. برای نمونه:
۱. برای تولید مخزن شاهد رایانه‌ای یک نفر باید واژه‌های دلخواه را گزینش کند و یک نفر هم متن را حروف‌نگاری کند. به هریک از این افراد باید هزینۀ جداگانه پرداخت.
۲. اگر در یک جمله دو یا چند واژه انتخاب شده باشد، حروف‌نگار یک بار آن را حروف‌نگاری می‌کند و برای واژۀ دوم یا چندم آن را کپی می‌کند، ولی چون اسماً بیش از یک شاهد تولید کرده‌است، هزینۀ دو یا چند شاهد را دریافت می‌کند.
۳. برای تولید پیکره می‌توان از متن‌های ازپیش‌حروف‌چینی‌شده، مانند متن‌هایی که در اینترنت در دسترس است، استفاده کرد. گاه نیز می‌توان فایل کتاب را از ناشر تهیه کرد. روشن است که استفاده از این متن‌ها چقدر از وقت و هزینه می‌کاهد. برای تولید مخزن شاهد رایانه‌ای چنین امکانی وجود ندارد.
۴. تولید مخزن شاهد رایانه‌ای بسیار وقت‌گیر است. چون یک نفر باید واژه‌ها را انتخاب کند و حروف‌نگار نیز باید آغاز و پایان هر جمله را بیابد. این مسئله در متن‌های کهن که گاه هر جمله به اندازۀ یک پاراگرافِ بلند است، ممکن است لغزش حروف‌نگار را در پی داشته باشد.
۵. چون یافتن دوبارۀ شاهدهای گزینش‌شده در متنِ کتاب دشوار است، در عمل هیچ ویراستاری شاهد حروف‌نگاری‌شده را با متن کتاب مقابله و ویرایش نمی‌کند. ازاین‌رو، غلط‌های پرشماری به شاهدها راه می‌یابد و پژوهشگر هنگام نقل شاهد در اثر خود، ناگزیر است شاهد را با کتاب اصلی مطابقت دهد. این کار بسیار زمان‌بر است.
۶. چون کاربرِ مخزن شاهد رایانه‌ای به جمله‌های قبلی و بعدیِ شاهد دسترسی ندارد، هنگام استفاده از شاهد، در موارد پرشمار ناگزیر است به کتاب اصلی مراجعه کند و اگر کتاب در دسترس نباشد، با دشواری‌هایی روبه‌رو خواهد شد.
۷. چون متن کامل کتاب‌ها وارد مخزن شاهد رایانه‌ای نشده و گاه یک جمله یا بیت دو یا چند بار وارد شده، امکان گرفتن بسامد دقیق وجود ندارد.

فرهاد قربان‌زاده با یادآوری این‌که در ایران گردآوری پیکره‌های تاریخی کار دشواری نیست، توضیح داد: برخی مؤسسه‌ها و شرکت‌ها متن‌ها را حروف‌نگاری کرده‌اند، مانند مؤسسۀ تحقیقات کامپیوتری علوم انسانی (نور) یا شرکت مهرارقام رایانه (تولیدکنندۀ نرم‌افزار دُرج). برخی وبگاه‌ها، مانند گنجور، نیز پیکرۀ برخط‌اند. با پرداخت هزینه‌ای اندک بسیاری از متن‌ها را از این نهادها و شرکت‌ها و وبگاه‌ها می‌توان تهیه کرد و به‌جای بیست سال صرف وقت برای گردآوری پیکره، آن را در چند ماه گردآوری کرد.

او درباره نرم‌افزارهای پردازش پیکره نیز بیان کرد: این نرم‌افزارها این امکان را دارند که چند نویسه (کاراکتر) با دو فاصله در دو سوی آن‌ها را یک واژه تشخیص دهند. سپس می‌توانند این واژه‌ها را الفبایی کنند یا براساس بسامد یا از انتها (زانسو) بچینند. ازاین‌رو، گزینش واژه برای درج در مخزن شاهد رایانه‌ای نیز کاری بیهوده و وقت‌گیر و هزینه‌بر است. زیرا نرم‌افزار با زدن یک کلید می‌تواند این کار را انجام دهد.

این فرهنگ‌نویس ادامه داد: امکان دیگرِ نرم‌افزارهای پردازش پیکره این است که چون می‌توانند واژه‌های موجود در پیکره را به‌صورت بسامدی نیز نمایش دهند، اگر واژه‌ای فقط یکی دو شاهد داشته باشد، یا کهن و کم‌کاربرد و تخصصی و گویشی است یا غلط تایپی است. درنتیجه، می‌توان غلط‌های موجود در پیکره را نیز یافت و آن‌ها را اصلاح کرد.

قربان‌زاده در پایان گفت: کوتاه آنکه گردآوری مخزن شاهد رایانه‌ای به‌جای پیکره وقت و هزینۀ بسیار گزافی می‌طلبد و برای گردآوری آن عمرها و هزینه‌های بسیاری بیهوده تلف می‌شود. درحالی‌که گردآوری پیکرۀ زبانی هم به هزینه و زمان بسیار کمتری نیاز دارد و هم امکانات بیشتری در اختیار کاربر قرار می‌دهد.

 

نظر شما در این رابطه چیست
آخرین اخبار