
پیشرفت های اخیر در زمینه رباتیک محققان را بر آن داشته است تا در زمینه بازشناسی احساس از روی سیگنال های بیولوژیک و به ویژه گفتار تحقیقات مهمی انجام دهند. بازشناسی احساس از روی گفتار کاربردهای مختلفی در سیستم های تعاملی انسان و ماشین دارد، به طور مثال می تواند عملکرد سیستم های تشخیص گفتار را بهبود بخشد. همچنین در زمینه آموزش، بازی های کامپیوتری، پزشکی، روان شناسی و خودروهای هوشمند کاربردهای متنوعی دارد. تشخیص احساس از روی گفتار را می توان به عنوان یک مسئله تشخیص الگو در سه زیربخش استخراج ویژگی، انتخاب ویژگی و طبقه بندی بررسی نمود. با وجود تلاش های گسترده، استخراج ویژگی های موثر هنوز به عنوان یکی از چالش های مهم این حوزه به شمار می رود. اغلب ویژگی هایی که برای بازشناسی احساس از روی گفتار به کار گرفته می شوند می توانند در دو گروه ویژگی های عروضی و ویژگ های طیفی دسته بندی شوند. ویژگی های عروضی بیشتر با لحن و ریتم گفتار در ارتباط هستند. این ویژگی ها معمولا از مشخصات آماری منحنی های فرکانس گام و انرژی محاسبه می شوند و با در برداشتن اطلاعات مهم احساسی، پرکاربردترین ویژگی های این حوزه به شمار می آیند. ویژگی های طیفی که از طیف سیگنال به دست می آیند در سال های اخیر جایگاه ویژه ای پیدا کرده اند. این ویژگی ها به عنوان مکمل ویژگی های عروضی نقش به سزایی در افزایش راندمان تشخیص احساس از روی گفتار داشته اند. اغلب ویژگی های یاد شده با برانگیختگی احساس ارتباط دارند، لذا در جداسازی احساس های با سطح برانگیختگی یکسان مانند عصبانیت و خوشحالی ناکارآمد می باشند. بر اساس تحقیقات گذشته تداخل احساس های عصبانیت و خوشحالی و همچنین خستگی و عادی بخش مهمی از خطای سیستم های بازشناسی احساس از روی گفتار را به خود اختصاص داده است. بنابراین به نظر می رسد استخراج ویژگی هایی که بتواند این دو احساس را از یکدیگر جدا کند مسئله مهمی باشد.