فناوری تبدیل گفتار به نوشتار در حقیقت زیر مجموعه ای از فناوری پردازش یا بازشناسی گفتار یا speech recognition می باشد که می تواند صوتی که وجود دارد را (اعم از صحبت های افراد، صوت ضبط شده، صدای یک فیلم و…) به نوشتار تبدیل کند یا به عبارتی گفتار را تبدیل به نوشتار نماید.
فناوری تبدیل گفتار به نوشتار در حقیقت نوعی برنامه، اپلیکیشن، نرم افزار و… می باشد که محتوای صوتی را گرفته و با پردازش محتوای آن صوت، آن را به کلمات مکتوب تبدیل می نماید. فناوری تبدیل گفتار به نوشتار، همان طور که گفته شد یک فناوری بر پایه هوش مصنوعی می باشد که قادر است از یک گفت و گوی شفاهی و محتوای صوتی موجود، محتوای متنی تهیه کند و یا اینکه به صورت تایپ در لحظه به کار رود.
تبدیل گفتار به نوشتار بخشی از فناوری بازشناسی گفتار می باشد که به سادگی میتوان مسئله بازشناسی گفتار را در این فرمول احتمالاتی شرطی خلاصه کرد:
به این معنی که ما به دنبال رشتهای از کلمات خروجی هستیم که با توجه به سیگنال ورودی موجود، محتملترین رشته کلمات خروجی را به ما نشان دهند. مسئله را می توان بر اساس این فرمول باز کرد و گفت که احتمال سیگنال، نسبت به رشته کلمات مورد نظر ضرب در احتمال کلمات. زمانی که این دو را باز کنیم، در واقع دو پایه اساسی یک سیستم بازشناسی گفتار به دست می آید که عبارتند از:
۱.مدل آتیکی
۲.مدل زبانی
کار مدل آتیکی آن است که تشخیص می دهد با توجه به سیگنال ورودی محتمل ترین آواهای خروجی چه چیزهایی هستند. کار مدل زبانی هم آن است که تشخیص دهد پس از ترکیب آواها، محتمل ترین کلماتی که در آن زبان می توانیم پشت سرهم داشته باشیم، چه هستند. این فرمول شاید ساده ترین و پایهای ترین فرمول بازشناسایی گفتار باشد. در ساختار کلی یک سیستم بازشناسایی گفتار همه چیز از سیگنال صوتی شروع می شود.
سیگنال صوتی وارد یک سری پیش پردازش ها می شود. به عنوان مثال در زمانهایی که سکوت داریم، سیگنال صوتی را می بُریم یا نویز را کاهش می دهیم، استخراج ویژگی ها نیز بخشی از پیش پردازش می باشد. پس از اتمام پیش پردازش، سیگنال صوتی با یک سری ویژگی های کلی بدست میآید. در نهایت با ترکیب دو مدل زبانی و آتیکی، سیگنال یا ویژگی ها را به کلمات نهایی رمز گشایی (Decode) می کنیم.
درباره این سایت