چكيده :

برنامه تشخيص دهنده متن كه به آن OCR نيز گفته مى شود (مخفف Optical Character Recognition _ به معناى تشخيص نورى حروف) برنامه اى است كه با استفاده از روش هاى گوناگون هوش مصنوعى، تصاوير حاوى متن را به متن قابل ويرايش تبديل مى كند. بازشناسي حروف و كاراكترها يكي از موضوعات جالبي است كه درقرون اخير توجه بسياري از محققين را به خود جلب كرده است
تصاوير كامپيوترى از ميليون
 ها نقطه (Pixel) تشكيل شده اند و رايانه دركى نسبت به محتواى تصوير نداشته و تنها رنگ و شدت روشنايى نقاط تصوير به عنوان عناصر تشكيل دهنده تصوير براى رايانه تعريف شده است. حال اگر اين تصاوير حاوى متن باشند (مثلاً صفحات كتابى را كه چاپ شده است اسكن نموده و به صورت تصوير به كامپيوتر منتقل نماييم) بدون استفاده از برنامه تشخيص دهنده متن، كامپيوتر قادر به شناسايى متن درون تصاوير نبوده و بنابراين عملياتى همانند جست وجوى كلمات كتاب و يا ويرايش متن درون كتاب امكان پذير نخواهد بود. حال آنكه با به كارگيرى برنامه تشخيص دهنده متن، تصاوير صفحات كتاب به متن كامپيوترى تبديل شده و امكان ويرايش متن، جست وجوى متن، چاپ مجدد متن با كيفيت بالا و انتقال الكترونيكى سريع آن (با توجه به آنكه حجم اطلاعات متنى بسيار كمتر از اطلاعات تصويرى است) فراهم مى شود.
وجود مشكلاتي از قبيل نويز، مسائل ويژه متون دست نويس و وابسته به نويسنده و پيچيدگي مسئله را به شدت افزايش مي دهد. جهت تحليل اينگونه مسائل نياز به انجام عملياتي از قبيل جداسازي كاراكترها از كلمات و شناسائي ويژگيهاي اساسي كاراكترها خواهيم داشت. درOCR اطلاعات ورودي توسط يك پويشگر خوانده مي شود و سپس موقعيت هر كاراكتر شناسائي مي شود. به دنبال آن كاراكترها از يكديگر جدا مي شوند و نتيجه به صورت يك ماتريس به پيش پردازنده ارسال مي شود و عمليات نازكسازي، كاهش نويز و نرمال سازي اندازه اي روي آن انجام مي شود و در نهايت ماشين مربوط به شناسائي كاراكترها آنها را شناسائي مي كند .

-----------------------

مقدمه : در اين مقاله قست دارم به بررسي روشها ي موجو د در زمينه او سي آر بپردازم . با توجه به تنوع روشهاي موجود يكي از روشهاي مناسب را انتخاب و برنامه اي نوشته و در آخر به معرفي پايگان اوپن سورس و رايگان در زمينه او سي آر كه در زمينه او سي آر فارسي فعاليت مي كند .

------------------------------------------------

 

تاريخچه :

بيش از يك قرن از كار بر روي شناسايي متون مي گذرد(در سال 1929 tyring     كه يك دانشمند روسي بود كار بر روي شناسايي حروف براي معلولين را آغاز كرد) و بيش از 40  سال از كار بر روى برنامه هاى تشخيص دهنده متن مى گذرد   و در ايران بيش از 5 سال است كه بر روي برنامه هايي كه بتواند متون چاپي را شناسايي كند مي گذرد ( در سال 1380 براي ثبت نام داوطلبان آزمون «سازمان ملي پرورش استعدادهاي درخشان-تيزهوشان- كه متاسفانه هنوز كار جدي براي تشخيص دست نوشته ها فارسي شروع نشده است )

 

----------------------

OCR چيست؟
OCR
  سرنام اصطلاحي است كه صورت كامل آن در واژه‌نامه‌هاي انگليسي به دو صورت آمده است:


1. Optical Character Recognition
2. Optical Character Reader

بازشناسي نوري نويسه ها

 

فرايندي كه در طي آن ، نويسه هاي تايپ شده يا چاپي بر روي يك صفحه ، به شكل الكترونيكي اسكن و تحليل مي شوند و اگر بنا بر شكل ظاهريشان قابل شناسايي تشخيص داده شوند ، به كُد نويسه ي رقومي ( كه قابليت پردازش به وسيله ي رايانه را دارد ) تبديل مي شوند . « اُسي آر » موجب حذف يك فرايند وقتگير ، يعني واردكردن دوباره ي اطلاعات موجود در نسخه ي چاپي مي شود ، ولي اگر نسخه ي اسكن شده ناقص باشد يا حاوي « نشانه هاي زير و زبري » يا نويسه هاي غيرقابل تشخيص باشد ، ممكن است نتيجه ي كار ، پيش بيني ناپذير باشد .

 

-----------------------------

بحث :

 

به طور كلي او سي آر به دو دسته تقسيم مي شود :

1-  بلادرنگ(On-Line)  :   با توجه به سخت افزار و الگوريتم خاصي كار مي كنند.

عمليات شناسائي زماني انجام مي شود كه كاربر درحال رسم حروف و يا كاراكترها مي باشد جهت انجام اين كار نياز به يك صفحه الكترونيكي با دقت 200 نقطه در اينچ و سرعت نمونه برداري 100 نقطه در ثانيه، داريم همچنين اين صفحه بايد قادر به ارسال اطلاعات به صورت يك بعدي نيز باشد .

در روشهاي بلادرنگ از داده هاي يك بعدي استفاده مي شود . در حالت بلادرنگ مي توان قسمتهاي مختلف متن را ذخيره كرد و سپس عمليات شناسائي را توسط روشهاي برون خطي انجام داد           روشهاي بلادرنگ داراي مزيتهاي فراواني هستند كه تعدادي از آنها عبارتند از 1- ترتيب نوشتن 2- جهت و نحوة حركت قلم موجود است و مي تواند جهت شناسائي مورد استفاده قرار گيرد.

همچنين برداشتن و گذاشتن قلم نيز مي تواند جهت شناسائي ضربه ها مورد استفاده قرار گيرد .

روشهاي تشخيص كاراكترها به صورت بلادرنگ ، به دو دستة عمده تقسيم مي شوند .

الف -تحليل كاراكترها با استفاده از تركيب ، كه مبتني بر مدل سازي متون توليد شده دست نويس مي باشد .
ب - استفاده از روشهاي برون خطي جهت شناسائي بلادرنگ

 

2 -  برون خطي(Off-Line ) : در بازشناسي برون خطي، عمليات پس از چاپ يا نوشتن كامل متون انجام خواهد شد.

روشهاي شناسائي برون خطي ( Off-Line ) روي تصاوير دو بعدي اعمال مي شوند
-------------

* استفاده از ويژگيهاي آماري و طبقه‌بندي کننده‌هاي متداول آماري

* استفاده از ويژگيهاي ساختاري و طبقه‌بندي کننده مناسب

* کاربرد منطق فازي

* کاربرد شبکه‌هاي عصبي

*  پيش پردازش
در اين مرحله قسمتهاي مناسبي از تصوير جهت شناسائي و جداسازي قطعات علامتگذاري مي شوند بطور كلي عملياتي كه در پيش پردازش انجام مي شوند به شرح زير است، اما با توجه به روش انتخاب شده ممكن است يك يا چند مرحله از مراحل زير اصلا انجام نشود يا اينكه به شكلي متفاوت صورت پذيرد.
از ديگر عملياتي كه در پيش پردازش انجام مي شود تشخيص موقعيت كاراكترها مي باشد اين كار نيز مي تواند توسط نمودارهاي چگالي افقي و عمودي انجام شود .
* جداسازي
متون دست نويس شامل جمله ها،كلمات وكاراكترهاهستندو فرض مي شود كه جمله ها با نقطه ختم مي شوند و بين كلمات نيز فواصل كوتاهي وجود دارد بدين ترتيب قطعات مختلف متني كه ممكن است در يك تصوير موجود باشد شناسائي مي شوند. سپس احتمال اينكه جمله بدست آمده صحيح باشد بررسي مي شود. اعمال فوق با روشهاي مختلف جداسازي انجام مي شود و در هر مورد احتمال صحت جمله بررسي مي شود و جمله اي كه احتمال صحيح بودن آن بيش از سايرين باشد معرفي مي شود پس از آن ماشين تشخيص كلمه كار خود را شروع مي كند. در صورتيكه اين ماشين، عمليات تشخيص را به صورت كاراكتري انجام مي دهد، بايد عمليات جداسازي در سطح كاراكترها را هم انجام دهد .

*  شناسائي
اين قسمت سعي در شناسائي كاراكترها و كلمات دارد. توجه شود كه غالب نرم افزارهاي نوشته شده در زمينه تشخيص كلمات تنها قادر به شناسائي تعداد محدودي از كلمات مي باشند. آنچه در مباحث زيرين مشاهده مي شود روشهائي جهت شناسائي كاراكترها و كلمات مي باشند يك سيستم تشخيص كلمه تنها مي تواند از استراتژيهاي تحليلي،
holistic و مبتني بر تشخيص استفاده كند روش چهارم تنها مربوط به شناسائي كاراكترها مي باشد.
* روشهاي تحليلي
روشهاي تحليلي كلمات را قبل از شناسائي به واحدهاي كوچكتري تقسيم مي كنند با توجه به روش استفاده شده، اين واحدها مي توانند قطعه ها كاراكترها شبه كاراكترها و
باشند. اين واحدها به شدت وابسته به كاراكترها هستند بنابراين شناسائي آنها وابسته به يك مجموعه خاص از كلمات نمي باشد (محدوديت در تعداد كلمات وجود ندارد)روشهاي تحليلي عمليات جداسازي را بطور كامل و دقيق انجام مي دهند چون در اين روشها كلمات صريحاً به كاراكترهائي شكسته خواهند شد كه به طور جداگانه شناسائي مي شوند. البته در چنين مواردي نياز به يك پردازش نهائي جهت اطمينان از صحت اطلاعات نيز وجود دارد.
* روشهاي holistic
روشهاي
holistic كلمات را بصورت يكجا و بدون هيچگونه جداسازي شناسائي مي كنند و اين عمليات را طي دو مرحله انجام مي دهند.
1)استخراج ويژگيها
2)مقايسه شكل كلمه ناشناخته با كلمات موجود در مجموعه لغات خود
* روشهاي مبتني بر تشخيص
در روشهاي مبتني بر تشخيص يك سري جداسازيهاي داخلي انجام مي شود و هر گروه از كاراكترهاي جداسازي شده با يك ماشين جداگانه بررسي مي شوند و تنها گروهي ارائه مي شود كه داراي معني قابل قبولي باشد. سپس تصوير جداسازي شده به ماشين تشخيص الگو ارسال مي شوند و پس از انتخاب بهترين جداسازي نتيجه نهائي استفاده خواهد شد.

* بازشناسي كاراكترها
بدون شك بازشناسي كاراكترهاي دست نويس پايه كليه ماشينهاي خواندن اتوماتيك هستند. بازشناسي كاراكترها به صورت تك تك مي تواند نمونه اي از مسائل تشخيص الگو باشد كه نياز به انتخاب ويژگيها استخراج ويژگيها، فرايند يادگيري و دسته بندي اطلاعات دارد دو ديدگاه كلي بازشناسي كاراكترها و اعداد مي توانند به صورت زير باشند.
1-تطبيق الگو
2- تحليل ساختاري

 

* شبكه عصبي : با استفاده از يك شبكه هوشمند عصبي ( Neocognitron ) كار مي كند. اين روش نوعي از شبكه هاي عصبي است كه جهت مدل سازي تصاوير مورد استفاده قرار مي گيرد و قادر به كسب توانائي هائي جهت شناسائي الگوهاي تصويري توسط يادگيري مي باشد - كارائي شبكه هاي عصبي با بكارگيري دو مقدار آستانه اي و استفاده ازيك بانك اطلاعاتي بزرگ

Neocognitron مدلي از شبكه هاي عصبي چند لايه است كه قادر به شناسائي الگوها مي باشد اين شبكه داراي يك ساختار سلسله مراتبي است كه لايه هاي بالائي آن داراي حساسيت بيشتري نسبت به انتقال و چرخش الگو در تصوير مي باشند اين شبكه قادر به استخراج ويژگيهاي پيچيده تصوير نيز مي باشد

 

* MLP نيز نمونه اي از شبكه هاي عصبي است كه جهت دسته بندي اطلاعات مورد استفاده قرار مي گيرد.

 

* K- neakest – neigbor

 

* براي شناسايي اعداد چون پيوستگي در آنها وجود ندارد مي نوان از الگوريتم                   DTW (DYNAMIC TIME WARPING
استفاده نمود که تا 75% ميزان بازشناسي دارد.
ابتدا تصاوير سياه و سفيد اعداد با دقت 200
DPI اسکن و سپس نرم سازي لبه هاي تصوير و حذف نويز با استفاده از فيلتر هاي مورفولوژيک انجام مي شود


*  معمولا اغلب OCR هاي که در ايران هستند از Hidden neurons يک لايه استفاده ميکنند که اين باعث ميشه يک حالت مشخص شده (مثلا فونت خاص) رو تحليل کنند
ولي در روش
Hebb که يکي از پيشگامان علم AI هست که روش توضيح اصلاحي رو بوجود آورد .اين مسئله حل شده که ميتونيد به آن مراجعه کنيد.

* شبکه هاي عصبي مصنوعي (Artificial Neural Network)

 بحث Artificial Intelligent همه اين موارد رو حل کرده و دقيقا الگوريتمهاي که به وسيله اين روش نوشته ميشه کار مغز رو شبيه سازي ميکنه ! البته بجز مواردي (مثل توزيع وزني ، Feedback و ...) که قبول دارم بايد درباره اش تحقيقات بيشتري انجام بگيره ! که هنوز هم مواردي به صورت راز باقي مونده

 

* 

 

 

 

 

 

 

نكات زبان فارسي براي او سي آر :

1 - . اول اينكه ما در فارسي حروف را به صورت چسبيده و پيوسته مي‌نويسيم و اين كار براي تشخيص حرف به حرف نوشته از سوي رايانه (كه قرار است در مراحل بعدي آن را تايپ كند) بسيار مشكل است. تصور كنيد كه همين كلمه ساده «است» را به حالت‌هاي مختلف مي‌شود نوشت: يكي براي «س» دندانه مي‌گذارد، يكي نمي‌گذارد، يكي آن را مي‌كشد و يكي نمي‌كشد و... حالا اگر همين صورت‌هاي مختلف «س» به «ت» هم بچسبند، تشخيص حروف براي ما انسان‌ها هم سخت مي‌شود، چه رسد به رايانه.
2 - مشكل ديگر خط ما اين است كه حرف‌هاي فارسي بسيار به هم شبيه‌اند. مثلاً در نظر بگيريد كه تفاوت «ر» با «ز» با «ذ» يا «ب» با «ت» تنها در يك نقطه است، و چون نقطه جزء بسيار كوچكي است، اگر يك خط يا حتي يك لك كوچك روي كاغذ بيفتد، تشخيص حروف از هم بسيار دشوار مي‌شود و دردسر جدي براي بازشناسي حروف توسط رايانه ايجاد مي‌كند

. دربارة اعداد فارسي هم اين مشكل وجود دارد: صفر ما يك نقطه كوچك است كه مي‌تواند رايانه را به اشتباه بيندازد؛ اعداد 4، 3، 2، 1 هم بسيار به هم شبيه هستند و تنها تفاوتشان يك دندانه كوچك است.

3  - 

-----------------------------

نتيجه گيري :

 

 

 

------------------------------------------

مراجع :

-       ماهنامه دانشگر

-       http://www.pirahansiah.com

-       www.tiziran.com

-        

 

 

 

 

 

  گرافولوژي، علم مطالعه و بررسي شخصيت و خصوصيات فردي براساس نحوه نوشتن است. در جهان غرب مهمترين كاربرد گرافولوژي، گزينش متقاضيان استخدام است. با استخراج و تجزيه و تحليل سريع و دقيق ويژگي‌هاي دست‌نوشته به کمک کامپيوتر، مي‌توان کمک قابل توجهي به گرافولوژيست‌ها کرد.

مهمترين ويژگي‌هاي دست‌نوشته كه در گرافولوژي استفاده مي‌شوند عبارتند از: شكل حاشيه‌هاي سفيد صفحه، فاصله بين سطرها، كجي سطرها، كجي كلمات، زاوية كشيدگي حروف به بالا و پايين، تيزي گوشه‌ها در حروف، ميزان درشت‌نويسي، فشردگي متن، سرعت نوشتن و نظم در نوشتن. در اين مقاله، روش‌هايي براي استخراج خودکار برخي از اين ويژگي‌ها پيشنهاد مي‌شود و نتايج حاصل از اجراي اين روش‌ها بر 118 نمونه دست‌نوشته افراد مختلف ارائه مي‌شود.

 

                    امكان شخصيت‌شناسي براساس دست نوشته‌هاي فارسي ميسر شد

 به همت پژوهشگران پژوهشكده برق جهاددانشگاهي امكان بررسي شخصيت و خصوصيات فردي بر اساس نحوه نوشتن از روي دست نوشته‌هاي فارسي به كمك كامپيوتر فراهم شد. به گزارش ايسنا، علم گرافولوژي كه تجزيه و تحليل ويژگي‌هاي دست نوشته‌ها شامل شكل حاشيه‌هاي سفيد صفحه، فاصله بين سطرها، كجي سطرها، كجي كلمات، زاويه كشيدگي، حروف به بالا و پايين، تيزي گوشه‌ها در حروف، ميزان درشت نويسي، فشردگي متن، سرعت و نظم در نوشتن مي‌پردازد، به شناسايي شخصيت افراد مختلف كمك مي‌كند. از علم گرافولوژي در گزينش متقاضيان استخدام، تشخيص اختلالات رواني و معالجه بيماران رواني، تشخيص هويت و يا تعيين جعلي بودن اسناد و مدارك دستنويس استفاده مي‌شود كه بسياري از ايده‌هاي آن قابل تعميم به زبان فارسي است. بر اين اساس در بررسي ويژگي‌هاي دست نوشته در گرافولوژي حاشيه بزرگ و مساوي از دو طرف نشان دهنده روحيه تابع قانون و مدير خوب، متن با كشيدگي از همه طرف و منسبط نشان دهنده فردي صادق و قابل اعتماد، متن با كلمات درشت بيانگر روحيه‌اي بيانگرا و متن با كلمات ريز بيانگر روحيه درون گرا، متن با سطرهاي نزديك به هم، متعلق به فردي تنگ نظر و داراي روحيه جمع آوري، متن با سطرهاي دور از هم نشانگر فردي داراي قدرت تصميم گيري در شرايط مختلف، ميزان نزديكي كلمات به هم نشان دهنده ميزان نزديكي فرد با محيط اطراف، متن با خطوط رو به بالا بيانگر روحيه خوش بيني و خطوط روبه پايين متعلق به فردي بد بين ، متن با كشيدگي بالايي و پاييني بيشتر از كشيدگي عرضي نشانگر فردي با عقايد ارزشمند، و در صورت كشيدگي عرضي بيشتر بيانگر فردي از خود راضي، زاويه كشيدگي عمودي حروف (نسبت به راستاي افقي و در جهت مثلثاتي ) بزرگتر از 100 درجه بيانگر فردي گرم و زودجوش و كوچكتر از 70 درجه فردي بدبين و كم رو را نشان مي‌دهد

 

 

 

در اين مقاله روشي براي بازشناسي برخط  زير-كلمات فارسي ارائه مي‌شود. ابتدا نقاط و علائم زير-كلمه و مكان نسبي آنها تشخيص داده مي‌شود و با توجه به آن زيرمجموعة هم‌علامتها از مجموعة زير-كلمات فارسي انتخاب مي‌شود. اگر اين زيرمجموعه فقط يك عضو داشته باشد آن كلاس به زير-كلمه ناشناخته نسبت داده مي‌شود و گر نه بدنة زير-كلمه ناشناخته با بدنه‌هاي

زير-كلمات هم‌علامت مقايسه مي‌شود. زير-كلمه‌اي كه يكي از بدنه‌هاي منتسب به آن با بدنه زير-كلمه ناشناخته كمترين فاصله را داشته باشد، به زير-كلمه ناشناخته نسبت داده مي‌شود. سيستم بازشناسي علاوه بر شبيه ترين زير-كلمه، حداكثر 9 زير-كلمة ديگر را نيز كه در رتبه‌هاي بعدي از نظر فاصله با زير-كلمه ناشناخته قرار مي‌گيرند، پيشنهاد مي‌كند.

روش پيشنهادي براي يك پايگاه داده شامل 11 نمونه از هر زير-كلمه با يك فرهنگ 1000 زير -كلمه‌اي، آزمايش شده است. ميزان بازشناسي درست  با در نظر گرفتن اولين گزينه بازشناسي 95/74% و با درنظر گرفتن 10 گزينه اول بازشناسي 87/97% است.

 

 

 

 

----------13850606-------------------------------

این نسخه‌ی ذخیره شده‌ای از http://www.irandoc.ac.ir/etela-art/20/20_3_4_3.htm است که توسط G o o g l e در 9 آگوست 2006 11:27:10 GMT تهیه شده است.
ما نسخه ذخيره شده G o o g l e را به عنوان تصويری از صفحه اصلی در هنگام کاوش وب گرفتيم.
این صفحه ممکن است تغییر کرده باشد. اینجا را کلیک کنید تا نسخه‌ی کنونی آن را بدون هایلایت ببینید.
اين صفحه ذخيره به تصاويري اشاره دارد که ممکن است ديگر در دسترس نباشند. براي دسترسی به نمونه تنها متنی ذخيره شده اينجا کليک کنيد.
برای گذاشتن چوب الف یا دادن پیوند به این صفحه، url ذیل را بکار برید:http://www.google.com/search?q=cache:IlJth5inldcJ:www.irandoc.ac.ir/etela-art/20/20_3_4_3.htm+I.R.I.S+%D8%B4%D9%86%D8%A7%D8%B3%D8%A7%D9%8A%D9%8A+%D8%AF%D8%B3%D8%AA+%D8%AE%D8%B7&hl=fa&ct=clnk&cd=1

گوگل با تهيه کنندگان اين صفحه همکاری نمی کند و مسووليتی نيز درباره مندرجات آن به عهده نمی گيرد.

این واژه‌های جستجو شده هایلایت شده‌اند

iris 

شناسايي 

دست 

خط 


بازشناسي نوري حروف: مروري بر مباحث نظري و ملاحظات كاربردي با تأكيد بر مسائل خاص زبان فارسي

فصلنامه علوم اطلاع‌رساني

دوره 20شماره سوم و چهارم

 (بهار و تابستان 1384) 17-32

 

اسماعيل فرامرزي
عضو هيئت علمي مركز اطلاعات و مدارك علمي ايران

Email: Faramarzi@irandoc.ac.ir


چكيده
در اين مقاله مباني نظري و جنبه‌هاي كاربردي مبحث بازشناسي نوري حروف (اُسي‌آر) بصورت جامع مورد بررسي قرار مي‌گيرند و زيربخش‌ها و بلوك‌هاي پردازشي آن معرفي مي‌گردند. همچنين خصايص و پيچيدگي‌هاي مختص نگارش زبان فارسي كه يك نرم‌افزار «اُسي‌آر» بايد آن‌ها را در عمليات پردازشي خود لحاظ نمايد، بيان خواهند شد. تحقيقات داخلي انجام‌شده در زمينه «اُسي‌آر» مورد اشاره قرار خواهند گرفت؛ نرم‌افزارهاي معروف تجاري «اُسي‌آر» لاتين و فارسي معرفي، و قابليت‌ها و نقاط قوت و ضعف آن‌ها تشريح مي‌شوند. در آخر هم پيشنهادهايي در راستاي انتخاب راهكارهاي مناسب به منظور تسريع در حصول يك نرم‌افزار «اُسي‌آر» كارآمد براي زبان فارسي ارائه مي‌گردد. مخاطب اين مقاله، دانش‌آموختگان رشته‌هاي فني و غيرفني هستند كه قصد دارند درباره اين حوزه اطلاعات مقدماتي كسب نمايند. ازاين رو از جنبه‌هاي محاسباتي و رياضيات مسئله چشم‌پوشي شده است.


كليدواژه‌ها: : بازشناسي نوري حروف («اُسي‌آر» )
Optical Character Recognition (OCR)،تجزيه و تحليل تصوير مدرك(Document Image Analysis (DIA)) ، پردازش تصوير(Image processing) ، شناسايي الگوي آماري(Statistical pattern recognition) ، زبان فارسي
 

 

1. مقدمه
قبل از آن كه وارد مبحث «اُسي‌آر» شويم، لازم است اشاره مختصري به حوزه‌هاي بازشناسي الگو و آناليز تصوير اسناد (دي‌آي‌اِي) داشته باشيم.
شناسايي الگو، شاخه‌اي از هوش مصنوعي است كه با طبقه‌بندي و توصيف مشاهدات سروكار دارد. شناسايي الگو به ما كمك مي‌كند داده‌ها (الگوها) را با تكيه بر دانش قبلي يا اطلاعات آماري استخراج‌شده از الگوها، طبقه‌بندي نماييم. الگوهايي كه مي‌بايست طبقه‌بندي شوند، معمولاً گروهي از سنجش‌ها يا مشاهدات هستند كه مجموعه نقاطي را در يك فضاي چند بعدي مناسب تعريف مي‌نمايند.
يك سيستم شناسايي الگوي كامل متشكل است از يك حسگر كه مشاهداتي را كه مي‌بايست توصيف يا طبقه‌بندي شوند جمع‌آوري مي‌نمايد، يك سازوكار براي استخراج ويژگي‌ها كه اطلاعات عددي يا نمادين را از مشاهدات، محاسبه مي‌كند (اين اطلاعات عددي را با يك بردار بنام بردار ويژگي‌ها نمايش مي‌دهند)؛ و يك نظام طبقه‌بندي يا توصيف كه وظيفه اصلي طبقه‌بندي يا توصيف الگوها را با تكيه بر ويژگي‌هاي استخراج شده عهده‌دار است.
شكل 1 نمودار بلوكي يك سيستم شناسايي الگو را نشان مي‌دهد (
Theodoridis، 1999). همانطوري كه از پيكان‌هاي برگشتي مشخص است، اين بلوك‌ها لزوماً مستقل نيستند و بسته به نتايج حاصله گاهي لازم است كه بلوك‌هاي اوليه مجدداً طراحي گردند تا راندمان كلي سيستم بهبود يابد.


 

شكل 1. نمودار بلوكي يك سيستم شناسايي الگو (Theodoridis، 1999)
امروزه حجم زيادي از اسناد كاغذي موجود، توسط اسكنرها يا دوربين‌‌ها به اسناد تصويري ديجيتالي تبديل مي‌شوند. ذخيره‌سازي، بازيابي و مديريت كارآمد اين آرشيوهاي تصويري، در بسياري از برنامه‌ها نظير اتوماسيون اداري و كتابخانه‌هاي ديجيتالي اهميت فراواني دارند. در نتيجه دستيابي به الگوريتم‌هاي مؤثر به منظور آناليز تصويري اسناد، يك نياز اساسي به حساب مي‌آيد.
مبحث «آناليز تصوير اسناد» (دي‌آي‌اِي) از جمله شاخه‌هاي فعال در شناسايي الگو و پردازش تصاوير مي‌باشد و مشتمل بر كليه مراحل پردازشي است كه محتويات يك سند اسكن يا فكس شده را به يك فرم الكترونيكي مناسب، تبديل مي‌نمايد. تكنيك‌هاي «دي‌آي‌اي» اجزاي مختلف «ساختاري» سند، يعني قسمت‌هاي متني (پاراگراف‌ها، كلمات، حروف، ...)، قسمت‌هاي گرافيكي (خطوط، نمادها، نمودارها، ...) و قسمت‌هاي تصويري (تصاوير موجود در متن) را از يكديگر تفكيك مي‌كنند و پردازش مناسب را بر روي هر دسته از اجزا، اعمال مي‌نمايند و نيز با توجه به ارتباط «منطقي» بين اجزاي مختلف، نقش هر يك از اين اجزا را در سند مشخص مي‌سازند. شكل 2 ساختار سلسله‌مراتبي «دي‌آي‌اِي» را به نمايش مي‌گذارد (
O'Gorman، 1995).
همانگونه كه شكل 2 نشان مي‌دهد، «دي‌آي‌اِي» دربردارنده دسته بزرگي از تكنيك‌ها بنام تكنيك‌هاي «بازشناسي نوري حروف» (يا اُسي‌آر) است. اين تكنيك‌ها در مورد اجزايي از تصوير سند كه توسط تكنيك‌هاي تحليل ساختاري در «دي‌آي‌اِي» به عنوان متن تشخيص داده شده‌اند، اعمال مي‌گردند و تصوير سند را به يك متن قابل ويرايش توسط رايانه تبديل مي‌نمايند. سيستم‌هاي اُسي‌آر با حذف نقش تايپيست‌ها در فرايند تبديل اسناد كاغذي به قالب الكترونيكي، سرعت ورود اطلاعات به رايانه را ده‌ها برابر افزايش مي‌دهند و روند انجام اين فرايند را به ميزان قابل توجهي تسهيل مي‌كنند. امروزه بازار مصرف سيستم‌هاي «اُسي‌آر»، طيف بسيار وسيعي از مؤسسات (شامل مراكز نشر، دانشگاه‌ها، كتابخانه‌ها، بانك‌ها، ادارات پستي، شركت‌هاي بيمه، و ...) را دربرمي‌گيرد. در نتيجه آشنايي اوليه با مباني اين سيستم‌ها براي كليه افرادي كه به نحوي با اسناد و مدارك سر و كار دارند، ضروري به نظر مي‌رسد.




اكثر كارهاي انجام‌شده در زمينه «اُْسي‌آر» در رابطه با متون لاتين، چيني و ژاپني بوده است ]عزمي، 78؛ مسروري، 79[و سيستم‌هاي تجاري «اُسي‌آر» لاتين در سال‌هاي اخير پيشرفت كيفي قابل ملاحظه‌اي داشته‌اند. اما «اُسي‌آر» فارسي با وجود حجم نسبتاً وسيع تحقيقات دانشگاهي و نياز شديد بازار تجاري به آن، هنوز هم از جايگاه مورد نظر فاصله بسياري دارد و تاكنون هيچ سيستم «اُسي‌آر» كارآمدي كه از نظر دقت و كيفيت محيط نرم‌افزاري، قابل مقايسه با سيستم‌هاي «اُسي‌آر» لاتين باشد، عرضه نگرديده است. در نتيجه ضرورت انجام تحقيقات بيشتر در زمينه متون فارسي و عربي كاملاً احساس مي‌شود. بواسطه وجود تفاوت‌هاي اساسي بين نحوه نگارش فارسي و لاتين (نظير چسبيده‌بودن حروف كلمه به يكديگر، تغيير شكل حروف براساس موقعيت نسبي آن در كلمه فارسي، و ...)، امكان اعمال مستقيم روش‌هاي بازشناسي متون لاتين به منظور شناسايي متون فارسي وجود ندارد.
نحوه ارائه مطالب در اين مقاله بدين شرح است: بخش 2 به معرفي سيستم «اُسي‌آر»‌ مي‌پردازد. تاريخچه تحقيقات انجام‌شده در زمينه «اُسي‌آر» در بخش 3 مطرح مي‌شود. سابقه مطالعات بر روي «اُسي‌آر» فارسي در بخش 4 مورد اشاره قرار خواهد گرفت. در بخش 5 تحقيقات صورت‌گرفته در داخل كشور در زمينه «اُسي‌آر»‌ فارسي معرفي مي‌شوند. در بخش 6 مهم‌ترين ويژگي‌هاي نگارشي زبان فارسي كه در طراحي يك سيستم «اُسي‌آر» فارسي بايد لحاظ گردند بيان مي‌شوند. بخش 7 انواع سيستم‌هاي «اُسي‌آر» را از لحاظ الگوي ورودي تشريح مي‌كند. مرور جامعي بر عمليات پردازشي سيستم‌هاي «اُسي‌آر» در بخش 8 انجام خواهد پذيرفت. بخش 9 به بررسي معروف‌ترين نرم‌افزارهاي تجاري «اُسي‌آر» فارسي و لاتين، نحوه عملكرد، و نقاط قوت و ضعف آن‌ها مي‌پردازد. و بالاخره در بخش 10 راهكارهايي به منظور تسهيل در روند دستيابي به يك سيستم «اُسي‌آر» كارآمد فارسي ارائه خواهد شد.
2. معرفي بازشناسي نوري حروف
در چند دهه گذشته بازشناسي الگوهاي نوشتاري شامل حروف، ارقام و ديگر نمادهاي متداول در اسناد نوشته‌شده به زبان‌هاي مختلف، توسط گروه‌هاي مختلفي از محققين مورد مطالعه و بررسي قرار گرفته است. نتيجه اين تحقيقات منجر به پيدايش مجموعه‌اي از روش‌هاي سريع و تا حد زيادي مطمئن موسوم به «اُسي‌آر» يا «بازشناسي نوري حروف» به منظور وارد نمودن اطلاعات موجود در اسناد، مدارك، كتاب‌ها و ساير مكتوبات تايپي و حتي دست‌نوشت به داخل رايانه شده است. اصطلاح «اُسي‌آر» به تكنيك‌هايي اطلاق مي‌شود كه در تصاوير اسكن يا فكس شده، نواحي متني را تشخيص مي‌دهند و سپس اين نواحي (تصويري) را به متن قابل ويرايش تبديل مي‌نمايند (
Trier