تبليغاتX
بازخوانی یک پرونده - OCR چیست؟
پایانی  خوش بر انتظار طولانی فارسی زبانان

کلی از نرم‏افزار آراکس صحبت کردیم، ولی از اصل موضوع که OCR۱ باشه، غافل موندیم. امروز یکی از دوستان عالم به علوم فلسفی و رایانه و ... که خبر تولد آراکس را برایش فرستاده بودم، به من میل زد و گفت: اگر منظورتان نرم‏افزاریست که صحبت فارسی را تبدیل به متن تایپ شده می‏کند که خوب "نویسا" قبلا وجود داشته! و من متوجه شدم که OCR را باید بیشتر توضیح داد.

به تصویر زیر دقت کنید، ببیند کلمة «بازسازی» در آن وجود دارد یا نه؟ با کمی دقت متوجه می‏شوید که در خط ماقبل آخر، این کلمه وجود دارد... خوب حالا ببینید توی این کتاب 160 صفحه‏ای چند بار در مورد «موفقیت» بحث شده است؟... مسلما کار سختی است و احتمالا حدود یکی دو ساعت طول می‏کشد تا متوجه ‏شوید 40 بار از «موفقیت» صحبت شده است... حالا لطفا با استفاده از مطالب این کتاب یک گزارش چند صفحه‏ای در مورد عوامل اصلی موفقیت بنویسید!.. خوب دیگر، باید به صفحه‏کلید متوسل شده و مطالب مورد نظر را یکی یکی با انگشتان مبارک تایپ بفرمایید.

تصویر یک سند نمونه

تا حالا از این جور اتفاقات برایتان افتاده؟ مثلا بخواهید از مطالب یک کتاب، یک نامة اداری، یک مقالة جذاب و یا یک مطلب مجله در جایی مثل وبلاگ، پایان نامه، مقاله و یا آرشیو شخصی استفاده کنید. در چنین مواردی اگر به جای اصل کتاب، فایل متنی، PDF و یا WORD کتاب را در اختیار داشتید، بهتر نبود؟ مثلا جستجوی کلمة موفقیت در تمام کتاب 160 صفحه‏ای چقدر طول می‏کشید؟ به اندازة یک کلیک ماوس!. مشکل اینجاست که غالب اسناد، مجلات و کتابهایی که داریم، به صورت کاغذی‏اند و فایل متنی آنها در دسترس نیست.

یک راه حل: چطور است اسنادی که متن آنها را لازم داریم، به تایپیست داده و فایل متنی آنها را تحویل بگیریم. صفحه‏ای 260 تومان، 10 روزه هم آماده است!... اگر پول و زمان کافی داشته باشید، پیشنهاد خوبیه، ولی تحمل کنید، شاید راههای بهتری هم باشد.

خوشبختانه این موضوع، فقط مشکل من و شما نبوده و انسانهای زیادی در سالیان متمادی درگیر این مشکل بوده‏اند. بالاخره یک دانشمند روسی به نام تيورين در سال 1900 میلادی بحث خواندن خودکار متن را مطرح کرد و وسیله‏ای برای این منظور ساخت. بعدها تلاشهایی برای گسترش این وسیله‏ که به ماشین نویسه‏خوان نوری، OCR، مشهور شد انجام گرفت. اولين ماشين OCR براي خواندن كدهاي پستي ‌دستنويس در سال 1968 در ژاپن ساخته شد و بعدها به ترتیب کشورهای آلمان (1978)، آمریکا (1980) و انگلیس (1982) از ماشین‏های OCR برای خواندن کدهای پستی تایپی استفاده کردند.

یک راه حل بهتر: در حال حاضر نرم‏افزارهای OCR جای ماشینهای مذکور را گرفته‏اند و بهره‏برداری از این سیستم‏ها برای همگان آسان شده است. کار این نرم‏افزارها این است که تصویر سند را به عنوان ورودی گرفته و با تحلیل ساختار آن و پردازش حروف و علائم موجود در آن، متن معادل سند را تولید کرده و به صورت یک فایل متنی، PDF و یا WORD در اختیار قرار می‏دهند. در واقع این نرم‏افزارها، نوعی تایپیست بسیار سریع هستند... این راه‏حل بهتر از راه حل قبلی نیست؟!
فرایند OCR به طور خلاصه
--------------------------------------------------------------------------------
۱. Optical Character Reader/Recognition

+ نوشته شده توسط حسین در یکشنبه دوم تیر 1387 و ساعت 3:30 بعد از ظهر |