
امروزه تعداد زیادی سیستم تشخیص صوت در بازارها وجود دارند. قوی ترین آنها امکان پردازش و شناسایی کلمه را دارد. تشخیص صوت در کامپیوتر به معنای توانایی یک سیستم کامپیوتری، برنامه نرم افزاری یا یک سخت افزار در رمزگشایی سیگنال های صوتی به صداهای دیجیتالی است که بتوان آن را توسط کامپیوتر یا سخت افزار تعبیر کرد و مورد پذیرش قرار داد. تشخیص صوت معمولی برای انجام یک عملیات در یک دستگاه، انجام دستورات، نوشتن بدون نیاز به کیبورد و موس و انجام فعالیت هایی نظیر آنها مورد استفاده قرار می گیرد. به طور کلی بیشترین حوزه تشخیص صوت در تشخیص صدای انسان و گفتار است. یک سیستم تشخیص صوت پایه نیاز به ۲۲ مگاهرتز پردازنده، حداقل ۴۶ مگابایت رم، یک میکروفن پایه یک کارت صدای حداقل ۶۴ بیتی نیاز دارد. افزایش سایز رم، پردازنده و کارت صدا و افزایش توان میکروفن می تواند در افزایش دقت و کارایی سیستم های تشخیص صوت کمک شایانی نماید. علاوه بر این حداقل نیازمندی های سخت افزاری، سیستم های تشخیص صوت نیاز به نرم افزار دارند تا بتواند داده ها را جمع آوری، تحلیل و تفسیر نمایند. نرم افزارهای متفاوت از روش های متقاوتی به این اهداف نائی می آیند. مدل های وابسته به صوت و زبان دارای مدل پردازش پایه هستند که در آنها صدا از میکروفن گرفته می شود و توسط کامپیوتر پردازش می شوند. در مدل های صوتی صدا آنالیز و تحلیل می شوند و بعد از آن که کاربر در میکروفن صحبت می کند، صدای مورد نظرتوسط میکروفن گرفته می شود و نویزها و صداهای اضافی موجود در پس زمینه صدا که روی حجم صدا و کیفیت آن تاثیر گذارند، حذف می شوند. از توابع ریاضی برای دریافت صدا و تبدیل آن به رنج و فرکانس مورد نیاز استفاده می شود. سپس داده های بدست آمده تحلیل می شوند و تبدیل به نمایش های دیجیتالی در می آیند.