چكيده :
برنامه تشخيص دهنده متن كه به آن OCR نيز گفته مى شود (مخفف Optical Character Recognition _ به معناى تشخيص نورى حروف) برنامه اى است كه با استفاده از روش هاى گوناگون هوش مصنوعى، تصاوير
حاوى متن را به متن قابل ويرايش تبديل مى كند. بازشناسي حروف و كاراكترها يكي از
موضوعات جالبي است كه درقرون اخير توجه بسياري از محققين را به خود جلب كرده است
تصاوير كامپيوترى از ميليون ها نقطه (Pixel) تشكيل شده اند و رايانه دركى نسبت به محتواى
تصوير نداشته و تنها رنگ و شدت روشنايى نقاط تصوير به عنوان عناصر تشكيل دهنده تصوير براى رايانه تعريف
شده است. حال اگر اين تصاوير حاوى متن باشند (مثلاً صفحات كتابى را كه چاپ شده است
اسكن نموده و به صورت
تصوير به كامپيوتر منتقل نماييم) بدون استفاده از برنامه تشخيص دهنده متن، كامپيوتر قادر به
شناسايى متن درون تصاوير نبوده و بنابراين عملياتى همانند جست وجوى كلمات كتاب و يا ويرايش
متن درون كتاب امكان پذير نخواهد بود. حال آنكه با به كارگيرى برنامه تشخيص دهنده متن، تصاوير صفحات كتاب
به متن كامپيوترى تبديل شده و امكان ويرايش متن، جست وجوى متن، چاپ مجدد متن با
كيفيت بالا و انتقال الكترونيكى سريع آن (با توجه به آنكه حجم اطلاعات متنى بسيار
كمتر از اطلاعات تصويرى است) فراهم مى شود.
وجود مشكلاتي از قبيل نويز،
مسائل ويژه متون دست نويس و وابسته به نويسنده و … پيچيدگي مسئله را به شدت افزايش مي دهد. جهت تحليل اينگونه مسائل
نياز به انجام عملياتي از قبيل جداسازي كاراكترها از كلمات و شناسائي ويژگيهاي
اساسي كاراكترها خواهيم داشت. درOCR اطلاعات ورودي توسط يك
پويشگر خوانده مي شود و سپس موقعيت هر كاراكتر شناسائي مي شود. به دنبال آن
كاراكترها از يكديگر جدا مي شوند و نتيجه به صورت يك ماتريس به پيش پردازنده ارسال
مي شود و عمليات نازكسازي، كاهش نويز و نرمال سازي اندازه اي روي آن انجام مي شود
و در نهايت ماشين مربوط به شناسائي كاراكترها آنها را شناسائي مي كند .
-----------------------
مقدمه : در اين مقاله
قست دارم به بررسي روشها ي موجو د در زمينه او سي آر بپردازم . با توجه به تنوع
روشهاي موجود يكي از روشهاي مناسب را انتخاب و برنامه اي نوشته و در آخر به معرفي
پايگان اوپن سورس و رايگان در زمينه او سي آر كه در زمينه او سي آر فارسي فعاليت
مي كند .
------------------------------------------------
تاريخچه :
بيش از يك قرن از كار بر روي شناسايي متون مي گذرد(در سال
1929 tyring كه يك دانشمند روسي بود كار بر روي شناسايي
حروف براي معلولين را آغاز كرد) و بيش از 40
سال از كار بر روى
برنامه هاى
تشخيص دهنده
متن مى گذرد و در ايران بيش از 5 سال است كه بر روي برنامه
هايي كه بتواند متون چاپي را شناسايي كند مي گذرد ( در سال 1380 براي ثبت نام داوطلبان
آزمون «سازمان ملي پرورش استعدادهاي درخشان-تيزهوشان- كه متاسفانه هنوز كار جدي
براي تشخيص دست نوشته ها فارسي شروع نشده است )
----------------------
OCR چيست؟
OCR سرنام اصطلاحي است كه صورت كامل آن در واژهنامههاي انگليسي به
دو صورت آمده است:
1. Optical Character Recognition
2. Optical Character Reader
بازشناسي
نوري نويسه ها
فرايندي
كه در طي آن ، نويسه
هاي تايپ شده يا چاپي بر روي
يك صفحه ، به شكل الكترونيكي اسكن و تحليل مي
شوند و اگر بنا بر شكل ظاهريشان قابل شناسايي تشخيص داده شوند ، به كُد نويسه ي رقومي ( كه قابليت پردازش به وسيله ي رايانه را دارد ) تبديل مي شوند . « اُسي آر » موجب حذف يك فرايند وقتگير ، يعني واردكردن دوباره ي اطلاعات موجود در نسخه ي چاپي مي شود ، ولي اگر نسخه ي اسكن شده ناقص باشد يا حاوي « نشانه هاي
زير و زبري » يا نويسه هاي غيرقابل تشخيص باشد ، ممكن است نتيجه ي كار ، پيش بيني ناپذير باشد .
-----------------------------
بحث :
به طور كلي او سي آر به دو دسته تقسيم مي شود :
1- بلادرنگ(On-Line) : با
توجه به سخت افزار و الگوريتم خاصي كار مي كنند.
عمليات شناسائي زماني انجام مي شود كه
كاربر درحال رسم حروف و يا كاراكترها مي باشد جهت انجام اين كار نياز به يك صفحه
الكترونيكي با دقت 200 نقطه در اينچ و سرعت نمونه برداري 100 نقطه در ثانيه، داريم
همچنين اين صفحه بايد قادر به ارسال اطلاعات به صورت يك بعدي نيز باشد .
در روشهاي بلادرنگ از داده هاي يك
بعدي استفاده مي شود . در حالت بلادرنگ مي توان قسمتهاي مختلف متن را ذخيره كرد و
سپس عمليات شناسائي را توسط روشهاي برون خطي انجام داد روشهاي بلادرنگ داراي
مزيتهاي فراواني هستند كه تعدادي از آنها عبارتند از 1- ترتيب نوشتن 2- جهت و نحوة
حركت قلم موجود است و مي تواند جهت شناسائي مورد استفاده قرار گيرد.
همچنين برداشتن و گذاشتن قلم نيز مي
تواند جهت شناسائي ضربه ها مورد استفاده قرار گيرد .
روشهاي تشخيص كاراكترها به صورت
بلادرنگ ، به دو دستة عمده تقسيم مي شوند .
الف -تحليل كاراكترها با استفاده از
تركيب ، كه مبتني بر مدل سازي متون توليد شده دست نويس مي باشد .
ب - استفاده از روشهاي برون خطي جهت شناسائي بلادرنگ
2 - برون خطي(Off-Line ) : در بازشناسي برون خطي، عمليات پس از چاپ يا نوشتن كامل متون
انجام خواهد شد.
روشهاي شناسائي برون خطي ( Off-Line ) روي تصاوير دو بعدي اعمال مي شوند
-------------
*
استفاده از ويژگيهاي آماري و طبقهبندي کنندههاي متداول آماري
*
استفاده از ويژگيهاي ساختاري و طبقهبندي کننده مناسب
*
کاربرد منطق فازي
*
کاربرد شبکههاي عصبي
* پيش پردازش
در اين مرحله قسمتهاي مناسبي از تصوير جهت شناسائي و جداسازي قطعات علامتگذاري مي
شوند بطور كلي عملياتي كه در پيش پردازش انجام مي شوند به شرح زير است، اما با
توجه به روش انتخاب شده ممكن است يك يا چند مرحله از مراحل زير اصلا انجام نشود يا
اينكه به شكلي متفاوت صورت پذيرد.
از ديگر عملياتي كه در پيش پردازش انجام مي شود تشخيص موقعيت كاراكترها مي باشد
اين كار نيز مي تواند توسط نمودارهاي چگالي افقي و عمودي انجام شود .
* جداسازي
متون دست نويس شامل جمله ها،كلمات وكاراكترهاهستندو فرض مي شود كه جمله ها با نقطه
ختم مي شوند و بين كلمات نيز فواصل كوتاهي وجود دارد بدين ترتيب قطعات مختلف متني
كه ممكن است در يك تصوير موجود باشد شناسائي مي شوند. سپس احتمال اينكه جمله بدست
آمده صحيح باشد بررسي مي شود. اعمال فوق با روشهاي مختلف جداسازي انجام مي شود و در
هر مورد احتمال صحت جمله بررسي مي شود و جمله اي كه احتمال صحيح بودن آن بيش از
سايرين باشد معرفي مي شود پس از آن ماشين تشخيص كلمه كار خود را شروع مي كند. در
صورتيكه اين ماشين، عمليات تشخيص را به صورت كاراكتري انجام مي دهد، بايد عمليات
جداسازي در سطح كاراكترها را هم انجام دهد .
* شناسائي
اين قسمت سعي در شناسائي كاراكترها و كلمات دارد. توجه شود كه غالب نرم افزارهاي
نوشته شده در زمينه تشخيص كلمات تنها قادر به شناسائي تعداد محدودي از كلمات مي
باشند. آنچه در مباحث زيرين مشاهده مي شود روشهائي جهت شناسائي كاراكترها و كلمات
مي باشند يك سيستم تشخيص كلمه تنها مي تواند از استراتژيهاي تحليلي،holistic و مبتني بر تشخيص استفاده كند روش چهارم تنها مربوط به شناسائي
كاراكترها مي باشد.
* روشهاي تحليلي
روشهاي تحليلي كلمات را قبل از شناسائي به واحدهاي كوچكتري تقسيم مي كنند با توجه
به روش استفاده شده، اين واحدها مي توانند قطعه ها كاراكترها شبه كاراكترها و… باشند. اين واحدها به شدت وابسته به كاراكترها هستند بنابراين
شناسائي آنها وابسته به يك مجموعه خاص از كلمات نمي باشد (محدوديت در تعداد كلمات
وجود ندارد)روشهاي تحليلي عمليات جداسازي را بطور كامل و دقيق انجام مي دهند چون
در اين روشها كلمات صريحاً به كاراكترهائي شكسته خواهند شد كه به طور جداگانه
شناسائي مي شوند. البته در چنين مواردي نياز به يك پردازش نهائي جهت اطمينان از
صحت اطلاعات نيز وجود دارد.
* روشهاي holistic
روشهاي holistic كلمات را بصورت يكجا و بدون هيچگونه جداسازي
شناسائي مي كنند و اين عمليات را طي دو مرحله انجام مي دهند.
1)استخراج ويژگيها
2)مقايسه شكل كلمه ناشناخته با كلمات موجود در مجموعه لغات خود
* روشهاي مبتني بر تشخيص
در روشهاي مبتني بر تشخيص يك سري جداسازيهاي داخلي انجام مي شود و هر گروه از
كاراكترهاي جداسازي شده با يك ماشين جداگانه بررسي مي شوند و تنها گروهي ارائه مي
شود كه داراي معني قابل قبولي باشد. سپس تصوير جداسازي شده به ماشين تشخيص الگو
ارسال مي شوند و پس از انتخاب بهترين جداسازي نتيجه نهائي استفاده خواهد شد.
* بازشناسي كاراكترها
بدون شك بازشناسي كاراكترهاي دست نويس پايه كليه ماشينهاي خواندن اتوماتيك هستند.
بازشناسي كاراكترها به صورت تك تك مي تواند نمونه اي از مسائل تشخيص الگو باشد كه
نياز به انتخاب ويژگيها استخراج ويژگيها، فرايند يادگيري و دسته بندي اطلاعات دارد
دو ديدگاه كلي بازشناسي كاراكترها و اعداد مي توانند به صورت زير باشند.
1-تطبيق الگو
2- تحليل ساختاري
* شبكه عصبي : با استفاده از يك شبكه
هوشمند عصبي ( Neocognitron ) كار مي كند. اين روش نوعي از شبكه هاي
عصبي است كه جهت مدل سازي تصاوير مورد استفاده قرار مي گيرد و قادر به كسب توانائي
هائي جهت شناسائي الگوهاي تصويري توسط يادگيري مي باشد - كارائي شبكه هاي عصبي با
بكارگيري دو مقدار آستانه اي و استفاده ازيك بانك اطلاعاتي بزرگ
Neocognitron مدلي از شبكه هاي عصبي چند لايه است كه قادر به شناسائي الگوها مي
باشد اين شبكه داراي يك ساختار سلسله مراتبي است كه لايه هاي بالائي آن داراي
حساسيت بيشتري نسبت به انتقال و چرخش الگو در تصوير مي باشند اين شبكه قادر به
استخراج ويژگيهاي پيچيده تصوير نيز مي باشد
* MLP نيز نمونه اي از شبكه هاي عصبي است كه جهت دسته بندي اطلاعات مورد
استفاده قرار مي گيرد.
* K- neakest – neigbor
* براي شناسايي اعداد چون پيوستگي در آنها وجود
ندارد مي نوان از الگوريتم DTW (DYNAMIC TIME WARPING
استفاده نمود که تا 75% ميزان بازشناسي دارد.
ابتدا تصاوير سياه و سفيد اعداد با دقت 200 DPI اسکن
و سپس نرم سازي لبه هاي تصوير و حذف نويز با استفاده از فيلتر هاي مورفولوژيک
انجام مي شود
* معمولا
اغلب OCR
هاي که در ايران هستند از Hidden
neurons يک
لايه استفاده ميکنند که اين باعث ميشه يک حالت مشخص شده (مثلا فونت خاص) رو تحليل
کنند
ولي در روش Hebb
که يکي از پيشگامان علم AI هست که روش توضيح اصلاحي رو بوجود آورد .اين مسئله حل شده که
ميتونيد به آن مراجعه کنيد.
* شبکه هاي عصبي مصنوعي (Artificial Neural Network)
بحث
Artificial Intelligent همه اين موارد رو حل کرده و دقيقا الگوريتمهاي که به وسيله اين
روش نوشته ميشه کار مغز رو شبيه سازي ميکنه ! البته بجز مواردي (مثل توزيع وزني ، Feedback
و ...) که قبول دارم بايد درباره اش تحقيقات بيشتري انجام بگيره ! که هنوز هم
مواردي به صورت راز باقي مونده
*
نكات زبان فارسي براي او سي آر :
1 - . اول اينكه ما در فارسي حروف را به
صورت چسبيده و پيوسته مينويسيم و اين كار
براي تشخيص حرف به حرف نوشته از سوي رايانه (كه قرار
است در مراحل بعدي آن را تايپ
كند) بسيار مشكل است. تصور كنيد كه همين كلمه ساده
«است» را به حالتهاي مختلف ميشود
نوشت: يكي براي «س» دندانه ميگذارد، يكي
نميگذارد، يكي آن را ميكشد و
يكي نميكشد و... حالا اگر همين صورتهاي مختلف «س»
به «ت» هم بچسبند، تشخيص حروف
براي ما انسانها هم سخت ميشود، چه رسد به
رايانه.
2
- مشكل ديگر خط ما اين است كه حرفهاي فارسي
بسيار به هم شبيهاند. مثلاً در
نظر بگيريد كه تفاوت «ر» با «ز» با «ذ» يا «ب» با
«ت» تنها در يك نقطه است، و چون
نقطه جزء بسيار كوچكي است، اگر يك خط يا حتي يك لك
كوچك روي كاغذ بيفتد، تشخيص
حروف از هم بسيار دشوار ميشود و دردسر جدي براي
بازشناسي حروف توسط رايانه
ايجاد ميكند
. دربارة
اعداد فارسي هم اين مشكل وجود
دارد: صفر ما يك نقطه كوچك است كه ميتواند رايانه را
به اشتباه بيندازد؛ اعداد 4، 3،
2، 1 هم بسيار به هم شبيه هستند و تنها تفاوتشان يك
دندانه كوچك است.
3
-
-----------------------------
نتيجه گيري :
------------------------------------------
مراجع :
-
ماهنامه دانشگر
-
گرافولوژي، علم مطالعه و بررسي شخصيت و خصوصيات فردي براساس نحوه نوشتن
است. در جهان غرب مهمترين كاربرد گرافولوژي، گزينش متقاضيان استخدام است. با
استخراج و تجزيه و تحليل سريع و دقيق ويژگيهاي دستنوشته به کمک کامپيوتر، ميتوان
کمک قابل توجهي به گرافولوژيستها کرد.
مهمترين ويژگيهاي دستنوشته كه در
گرافولوژي استفاده ميشوند عبارتند از: شكل حاشيههاي سفيد صفحه، فاصله بين سطرها،
كجي سطرها، كجي كلمات، زاوية كشيدگي حروف به بالا و پايين، تيزي گوشهها در حروف،
ميزان درشتنويسي، فشردگي متن، سرعت نوشتن و نظم در نوشتن. در اين مقاله، روشهايي
براي استخراج خودکار برخي از اين ويژگيها پيشنهاد ميشود و نتايج حاصل از اجراي
اين روشها بر 118 نمونه دستنوشته افراد مختلف ارائه ميشود.
امكان شخصيتشناسي براساس دست
نوشتههاي فارسي ميسر شد
به همت پژوهشگران پژوهشكده برق جهاددانشگاهي امكان بررسي
شخصيت و خصوصيات فردي بر اساس نحوه نوشتن از روي دست نوشتههاي فارسي به كمك كامپيوتر
فراهم شد. به گزارش ايسنا، علم
گرافولوژي كه تجزيه و تحليل ويژگيهاي دست نوشتهها شامل شكل حاشيههاي سفيد صفحه،
فاصله بين سطرها، كجي سطرها، كجي كلمات، زاويه كشيدگي، حروف به بالا و پايين، تيزي
گوشهها در حروف، ميزان درشت نويسي، فشردگي متن، سرعت و نظم در نوشتن ميپردازد،
به شناسايي شخصيت افراد مختلف كمك ميكند.
از علم
گرافولوژي در گزينش متقاضيان استخدام، تشخيص اختلالات رواني و معالجه بيماران
رواني، تشخيص هويت و يا تعيين جعلي بودن اسناد و مدارك دستنويس استفاده ميشود كه
بسياري از ايدههاي آن قابل تعميم به زبان فارسي است.
بر اين
اساس در بررسي ويژگيهاي دست نوشته در گرافولوژي حاشيه بزرگ و مساوي از دو طرف
نشان دهنده روحيه تابع قانون و مدير خوب، متن با كشيدگي از همه طرف و منسبط نشان
دهنده فردي صادق و قابل اعتماد، متن با كلمات درشت بيانگر روحيهاي بيانگرا و متن
با كلمات ريز بيانگر روحيه درون گرا، متن با سطرهاي نزديك به هم، متعلق به فردي
تنگ نظر و داراي روحيه جمع آوري، متن با سطرهاي دور از هم نشانگر فردي داراي قدرت
تصميم گيري در شرايط مختلف، ميزان نزديكي كلمات به هم نشان دهنده ميزان نزديكي فرد
با محيط اطراف، متن با خطوط رو به بالا بيانگر روحيه خوش بيني و خطوط روبه پايين
متعلق به فردي بد بين ، متن با كشيدگي بالايي و پاييني بيشتر از كشيدگي عرضي
نشانگر فردي با عقايد ارزشمند، و در صورت كشيدگي عرضي بيشتر بيانگر فردي از خود
راضي، زاويه كشيدگي عمودي حروف (نسبت به راستاي افقي و در جهت مثلثاتي ) بزرگتر از
100 درجه بيانگر فردي گرم و زودجوش و كوچكتر از 70 درجه فردي بدبين و كم رو را
نشان ميدهد
در اين مقاله روشي براي بازشناسي برخط زير-كلمات فارسي ارائه ميشود. ابتدا نقاط و
علائم زير-كلمه و مكان نسبي آنها تشخيص داده ميشود و با توجه به آن زيرمجموعة همعلامتها
از مجموعة زير-كلمات فارسي انتخاب ميشود. اگر اين زيرمجموعه فقط يك عضو داشته
باشد آن كلاس به زير-كلمه ناشناخته نسبت داده ميشود و گر نه بدنة زير-كلمه
ناشناخته با بدنههاي
زير-كلمات همعلامت مقايسه ميشود. زير-كلمهاي كه يكي از
بدنههاي منتسب به آن با بدنه زير-كلمه ناشناخته كمترين فاصله را داشته باشد، به
زير-كلمه ناشناخته نسبت داده ميشود. سيستم بازشناسي علاوه بر شبيه ترين زير-كلمه،
حداكثر 9 زير-كلمة ديگر را نيز كه در رتبههاي بعدي از نظر فاصله با زير-كلمه
ناشناخته قرار ميگيرند، پيشنهاد ميكند.
روش پيشنهادي براي يك پايگاه داده شامل 11 نمونه از هر
زير-كلمه با يك فرهنگ 1000 زير -كلمهاي، آزمايش شده است. ميزان بازشناسي
درست با در نظر گرفتن اولين گزينه
بازشناسي 95/74% و با درنظر گرفتن 10 گزينه اول بازشناسي 87/97% است.
----------13850606-------------------------------
|
![]()
|
بازشناسي نوري حروف: مروري بر مباحث نظري و ملاحظات كاربردي با تأكيد بر مسائل خاص زبان فارسي |
دوره 20شماره سوم و چهارم
(بهار و تابستان 1384)
17-32
اسماعيل فرامرزي
عضو هيئت علمي مركز اطلاعات و مدارك علمي ايران
Email: Faramarzi@irandoc.ac.ir
چكيده
در اين مقاله مباني نظري و جنبههاي كاربردي مبحث بازشناسي نوري حروف (اُسيآر)
بصورت جامع مورد بررسي قرار ميگيرند و زيربخشها و بلوكهاي پردازشي آن معرفي ميگردند.
همچنين خصايص و پيچيدگيهاي مختص نگارش زبان فارسي كه يك نرمافزار «اُسيآر» بايد
آنها را در عمليات پردازشي خود لحاظ نمايد، بيان خواهند شد. تحقيقات داخلي انجامشده
در زمينه «اُسيآر» مورد اشاره قرار خواهند گرفت؛ نرمافزارهاي معروف تجاري «اُسيآر»
لاتين و فارسي معرفي، و قابليتها و نقاط قوت و ضعف آنها تشريح ميشوند. در آخر
هم پيشنهادهايي در راستاي انتخاب راهكارهاي مناسب به منظور تسريع در حصول يك نرمافزار
«اُسيآر» كارآمد براي زبان فارسي ارائه ميگردد. مخاطب اين مقاله، دانشآموختگان
رشتههاي فني و غيرفني هستند كه قصد دارند درباره اين حوزه اطلاعات مقدماتي كسب
نمايند. ازاين رو از جنبههاي محاسباتي و رياضيات مسئله چشمپوشي شده است.
كليدواژهها: : بازشناسي نوري حروف («اُسيآر» )Optical Character Recognition (OCR)،تجزيه و تحليل تصوير
مدرك(Document Image Analysis (DIA)) ، پردازش تصوير(Image
processing) ، شناسايي الگوي آماري(Statistical
pattern recognition) ، زبان فارسي
1. مقدمه
قبل از آن كه وارد مبحث «اُسيآر» شويم، لازم است اشاره مختصري به حوزههاي
بازشناسي الگو و آناليز تصوير اسناد (ديآياِي) داشته باشيم.
شناسايي الگو، شاخهاي
از هوش مصنوعي است كه با طبقهبندي و توصيف مشاهدات سروكار دارد. شناسايي الگو به ما كمك ميكند
دادهها (الگوها) را با تكيه بر دانش قبلي يا اطلاعات آماري استخراجشده از
الگوها، طبقهبندي نماييم. الگوهايي كه ميبايست طبقهبندي شوند، معمولاً گروهي از
سنجشها يا مشاهدات هستند كه مجموعه نقاطي را در يك فضاي چند بعدي مناسب تعريف مينمايند.
يك سيستم شناسايي
الگوي كامل متشكل است از يك حسگر كه مشاهداتي را كه ميبايست توصيف يا طبقهبندي
شوند جمعآوري مينمايد، يك سازوكار براي استخراج ويژگيها كه اطلاعات عددي يا
نمادين را از مشاهدات، محاسبه ميكند (اين اطلاعات عددي را با يك بردار بنام بردار
ويژگيها نمايش ميدهند)؛ و يك نظام طبقهبندي يا توصيف كه وظيفه اصلي طبقهبندي
يا توصيف الگوها را با تكيه بر ويژگيهاي استخراج شده عهدهدار است.
شكل 1 نمودار بلوكي يك سيستم شناسايي
الگو را نشان ميدهد (Theodoridis، 1999). همانطوري كه از پيكانهاي
برگشتي مشخص است، اين بلوكها لزوماً مستقل نيستند و بسته به نتايج حاصله گاهي
لازم است كه بلوكهاي اوليه مجدداً طراحي گردند تا راندمان كلي سيستم بهبود يابد.

شكل 1. نمودار بلوكي يك سيستم
شناسايي الگو (Theodoridis، 1999)
امروزه حجم زيادي از اسناد كاغذي موجود، توسط اسكنرها يا دوربينها به اسناد
تصويري ديجيتالي تبديل ميشوند. ذخيرهسازي، بازيابي و مديريت كارآمد اين آرشيوهاي
تصويري، در بسياري از برنامهها نظير اتوماسيون اداري و كتابخانههاي ديجيتالي
اهميت فراواني دارند. در نتيجه دستيابي به الگوريتمهاي مؤثر به منظور آناليز
تصويري اسناد، يك نياز اساسي به حساب ميآيد.
مبحث «آناليز تصوير اسناد» (ديآياِي) از جمله شاخههاي فعال در شناسايي الگو و پردازش تصاوير
ميباشد و مشتمل بر كليه مراحل پردازشي است كه محتويات يك سند اسكن يا فكس شده را
به يك فرم الكترونيكي مناسب، تبديل مينمايد. تكنيكهاي «ديآياي» اجزاي مختلف
«ساختاري» سند، يعني قسمتهاي متني (پاراگرافها، كلمات، حروف، ...)، قسمتهاي
گرافيكي (خطوط، نمادها، نمودارها، ...) و قسمتهاي تصويري (تصاوير موجود در متن)
را از يكديگر تفكيك ميكنند و پردازش مناسب را بر روي هر دسته از اجزا، اعمال مينمايند
و نيز با توجه به ارتباط «منطقي» بين اجزاي مختلف، نقش هر يك از اين اجزا را در
سند مشخص ميسازند. شكل 2 ساختار سلسلهمراتبي «ديآياِي» را به نمايش ميگذارد (O'Gorman، 1995).
همانگونه كه شكل 2 نشان ميدهد، «ديآياِي» دربردارنده دسته بزرگي از تكنيكها
بنام تكنيكهاي «بازشناسي نوري حروف» (يا اُسيآر) است. اين تكنيكها در مورد
اجزايي از تصوير سند كه توسط تكنيكهاي تحليل ساختاري در «ديآياِي» به عنوان متن
تشخيص داده شدهاند، اعمال ميگردند و تصوير سند را به يك متن قابل ويرايش توسط
رايانه تبديل مينمايند. سيستمهاي اُسيآر با حذف نقش تايپيستها در فرايند تبديل
اسناد كاغذي به قالب الكترونيكي، سرعت ورود اطلاعات به رايانه را دهها برابر
افزايش ميدهند و روند انجام اين فرايند را به ميزان قابل توجهي تسهيل ميكنند.
امروزه بازار مصرف سيستمهاي «اُسيآر»، طيف بسيار وسيعي از مؤسسات (شامل مراكز
نشر، دانشگاهها، كتابخانهها، بانكها، ادارات پستي، شركتهاي بيمه، و ...) را
دربرميگيرد. در نتيجه آشنايي اوليه با مباني اين سيستمها براي كليه افرادي كه به
نحوي با اسناد و مدارك سر و كار دارند، ضروري به نظر ميرسد.

اكثر كارهاي انجامشده در زمينه «اُْسيآر» در رابطه با متون لاتين، چيني و ژاپني
بوده است ]عزمي، 78؛ مسروري، 79[و سيستمهاي تجاري «اُسيآر» لاتين در سالهاي
اخير پيشرفت كيفي قابل ملاحظهاي داشتهاند. اما «اُسيآر» فارسي با وجود حجم
نسبتاً وسيع تحقيقات دانشگاهي و نياز شديد بازار تجاري به آن، هنوز هم از جايگاه
مورد نظر فاصله بسياري دارد و تاكنون هيچ سيستم «اُسيآر» كارآمدي كه از نظر دقت و
كيفيت محيط نرمافزاري، قابل مقايسه با سيستمهاي «اُسيآر» لاتين باشد، عرضه
نگرديده است. در نتيجه ضرورت انجام تحقيقات بيشتر در زمينه متون فارسي و عربي
كاملاً احساس ميشود. بواسطه وجود تفاوتهاي اساسي بين نحوه نگارش فارسي و لاتين
(نظير چسبيدهبودن حروف كلمه به يكديگر، تغيير شكل حروف براساس موقعيت نسبي آن در
كلمه فارسي، و ...)، امكان اعمال مستقيم روشهاي بازشناسي متون لاتين به منظور شناسايي متون فارسي وجود
ندارد.
نحوه ارائه مطالب در اين مقاله بدين شرح است: بخش 2 به معرفي سيستم «اُسيآر» ميپردازد.
تاريخچه تحقيقات انجامشده در زمينه «اُسيآر» در بخش 3 مطرح ميشود. سابقه
مطالعات بر روي «اُسيآر» فارسي در بخش 4 مورد اشاره قرار خواهد گرفت. در بخش 5
تحقيقات صورتگرفته در داخل كشور در زمينه «اُسيآر» فارسي معرفي ميشوند. در بخش
6 مهمترين ويژگيهاي نگارشي زبان فارسي كه در طراحي يك سيستم «اُسيآر» فارسي
بايد لحاظ گردند بيان ميشوند. بخش 7 انواع سيستمهاي «اُسيآر» را از لحاظ الگوي
ورودي تشريح ميكند. مرور جامعي بر عمليات پردازشي سيستمهاي «اُسيآر» در بخش 8
انجام خواهد پذيرفت. بخش 9 به بررسي معروفترين نرمافزارهاي تجاري «اُسيآر»
فارسي و لاتين، نحوه عملكرد، و نقاط قوت و ضعف آنها ميپردازد. و بالاخره در بخش
10 راهكارهايي به منظور تسهيل در روند دستيابي به يك سيستم «اُسيآر» كارآمد فارسي
ارائه خواهد شد.
2. معرفي بازشناسي نوري حروف
در چند دهه گذشته بازشناسي الگوهاي نوشتاري شامل حروف، ارقام و ديگر نمادهاي
متداول در اسناد نوشتهشده به زبانهاي مختلف، توسط گروههاي مختلفي از محققين
مورد مطالعه و بررسي قرار گرفته است. نتيجه اين تحقيقات منجر به پيدايش مجموعهاي
از روشهاي سريع و تا حد زيادي مطمئن موسوم به «اُسيآر» يا «بازشناسي نوري حروف»
به منظور وارد نمودن اطلاعات موجود در اسناد، مدارك، كتابها و ساير مكتوبات تايپي
و حتي دستنوشت به
داخل رايانه شده است. اصطلاح «اُسيآر» به تكنيكهايي اطلاق ميشود كه در تصاوير
اسكن يا فكس شده، نواحي متني را تشخيص ميدهند و سپس اين نواحي (تصويري) را به متن
قابل ويرايش تبديل مينمايند (Trier