پایان نامه تشخیص گوینده در محیط شامل چند گوینده با استفاده از ماشین بردار پشتیبان

word 8 MB 31352 117
1390 کارشناسی ارشد مهندسی الکترونیک
قیمت قبل:۷۴,۳۰۰ تومان
قیمت با تخفیف: ۳۴,۵۰۰ تومان
دانلود فایل
  • بخشی از محتوا
  • وضعیت فهرست و منابع
  • الکترونیک گروه

    پایان نامه کارشناسی ارشد

    چکیده:

    شناسایی گوینده یکی از مباحث مطرح در بحث پردازش گفتار می باشد. شناسایی گوینده عبارت است از فرآیندی که طی آن با استفاده از سیگنال صحبت تشخیص دهیم چه کسی چه موقع واقعا صحبت می کند. هدف طراحی سیستمی است که بتواند تغییر در گوینده را مشخص نماید و گفتار هرگوینده را برای سیستم برچسب گذاری نماید. یعنی مشخص نماید که کدام گوینده، در چه بازه هایی صحبت کرده است. امروزه این عمل با یک عنوان جدید که هر دو فرآیند جداسازی و برچسب گذاری را در بر می گیرد بنام Speaker Diarization مشهور گشته است. هدف از بخش بندی تقسیم سیگنال گفتاری به بخش هایی است که تنها شامل گفتار یک گوینده هستند و هدف از خوشه بندی نیز شناسایی بخش های گفتاری مربوط به یک گوینده و اختصاص یک برچسب واحد به آنهاست.

    هدف از انجام این پایان نامه طراحی و پیاده سازی یک سیستم بخش بندی و خوشه بندی گوینده با استفاده از الگوریتم های جدید و همچنین  بهبود نتایج این الگوریتم ها برای این موضوع می باشد. این سیستم باید بطور صحیح نقاط تغییر گوینده را بدون دانستن اطلاعات قبلی از گوینده تشخیص داده و در نهایت تمام قسمت های صوتی مربوط به یک گوینده را در یک خوشه قرار می دهد.

    در این پایان نامه، سیستم تشخیص گوینده، از سه مرحله اصلی تشکیل شده است. درمرحله اول قسمت- های غیر گفتاری، از بخش های گفتاری فایل صوتی حذف می شوند، تا دقت و سرعت عملیات سیستم در مراحل بعدی افزایش پیدا کند. سپس فایل گفتاری به بخش هایی همگن که در آن فقط گفتار یک گوینده وجود دارد، تقسیم می شود. در مرحله سوم با استفاده از خوشه بندی مناسب، بخش های گفتاری مرحله قبل، که متعلق به یک گوینده هستند، در یک خوشه جای می گیرند. جهت پیاده سازی سیستم از چهار نوع بردار ویژگی MFCC root-MFCC, TDC, و root-TDC و سه نوع پایگاه داده استفاده شده است و دقت مرحله بخش بندی 80% بوده است و دقت مرحله خوشه بندی نیز 59% با استفاده از ماشین بردار پشتیبان بدست آمده است.

    کلمات کلیدی:

    بخش بندی آماری گوینده

    بخش بندی گویندگان

    تشخیص بخش های صوتی

    خوشه بندی گویندگان

    مقدمه

    امروزه داده های چند رسانه ای بخش قابل توجهی از دانش انسان را در بر می گیرند. حجم پرونده های چند رسانه ای آرشیو شده در موسسه های مختلف در سال های اخیر افزایش چشمگیری داشته است. دسترسی و وضوح بالای این پرونده ها می تواند کمک شایانی به افرادی کند که در جستجوی اطلاعات باشند. بنابراین عملیات جستجو و بازیابی اطلاعات در این حجم بالا کاری است که خود احتیاج به سیستم کامپیوتری دارد. و درنتیجه یکی از حوزه های تحقیقاتی که به تازگی مورد توجه قرار گرفته است، مربوط به ساختاربندی پرونده- های چند رسانه ای است. در میان این داده ها، اطلاعات صوتی اهمیت بالاتری دارد. زیرا بخش اعظم آرشیوها حاوی داده های صوتی از گزارش های تلویزیونی، رادیویی و همچنین مکالمات تلفنی می باشد. در سالهای اخیر تحقیقات وسیعی در این حوزه آغاز شده و نتایج قابل قبولی نیز حاصل شده است. از دیگر کاربردهای این حوزه در تشخیص مجرم، جدا کردن صحبت های مهم یک شاهد یا متهم در دادگاه و ... میتوان اشاره نمود.

    در کاربرد صوتی، عمده اطلاعات موجود در پرونده ها، صحبت های تعدادی گوینده است و هدف از سیستم نهایی، پاسخ به این سوال است که چه کسی در چه زمانهایی صحبت کرده است؟ بخش های مختلف این حوزه تحقیقاتی به نامهای مختلفی مانند: قطعه بند گوینده ای[1]، تشخیص گوینده[2] ،رونویسی قوی[3]، و اندیس گذاری گوینده ای[4] نامیده شده اند. از چنین سیستم هایی برای جابجایی راحت در داده های صوتی، در فایل های صوتی طولانی (مانند: اخبار و ملاقات ها و جلسات یک شرکت و ...) که متعلق به چند گوینده باشند بهره- برداری می شود. مکالمات و محاسبات رادیویی طولانی از محیط هایی هستند که در آنها چند گوینده حضور داشته و با هم صحبت می کنند. هدف نهایی چنین سیستم هایی، پیاده سازی روش هایی مناسب برای افراز پرونده صوتی به نواحی است که در آنها گوینده ای خاص صحبت کرده باشد. دسترسی راحت به بخش هایی از صحبت یک گوینده توسط این سیستم فراهم می گردد. با داشتن حجم بالایی از داده های صوتی اهمیت این سیستم ها بیشتر می گردد.

    با افزایش تعداد مدارک متنی موجود در اینترنت، نیاز به تکنیک هایی نظیر فهرست نگاری متن به منظور تسهیل دسترسی و جستجو در این مدارک افزایش پیدا کرد. نظیر همین نیاز نیز با افزایش تعداد مدارک صوتی نظیر سخنرانی ها، مصاحبه ها و گردهمایی ها و ... ایجاد شد. بطور مشخص دسترسی به مدارک صوتی بسیار سخت تر از دسترسی به متن است و گوش دادن به یک فایل صوتی ضبط شده بیشتر از خواندن متن زمان بر است و فهرست نگاری دستی مدارک صوتی در مقایسه با فهرست نگاری متن، مشکل است. راه حل پیشنهادی جهت رفع این مشکل، فهرست نگاری خودکار مدارک صوتی[5] است.

    اولین بار سیستم هایی تشخیص گوینده توسط کمپانیNIST در سال 1999 ارایه شد. در سال2001،  پلکان و سیدهارون به همراه گروهشان با استفاده از کم کردن اثر نویز بر روی سیگنال بهبودهایی در نتایج سیستم دادند و جداسازی بهتر گویندگان را باعث شدند. در سال 2005، بولیان  و کنی با بکارگیری بردارهای ویژگی دیگر (یا ادغام روش های قبلی) و استفاده از مدل های گوسی در سیستم نتایج متفاوتی بدست آوردند. در سال 2005 توسط یاماشیتا و ماتسوناگا با استفاده از ویژگی های سیگنال صوتی مانند فرکانس پیچ سیگنال، انرژی، فرکانس های ماکزیمم سیگنال، و سه ویژگی دیگر نتایج در قسمت بخش بندی گوینده این سیستم بهبود داده شد.[1] و در سال های بعدی با انجام روش های مختلف برروی قسمت های متفاوت آن تا به امروز این سیستم ها در حال تکمیل شدن و بهتر شدن نتایج بوده اند.

    هدف از این پایان نامه، طراحی و پیاده سازی سیستمی است که بتواند در یک فایل صوتی که شامل گفتار چندین گوینده می باشد، تغییر در گوینده را مشخص نماید و تا حد امکان، گفتار هر گوینده را بدون دانستن اطلاعات قبلی از وی، دسته بندی نماید. این سیستم می تواند شامل دو بخش اساسی باشد که عبارتند از:

    -بخش بندی گوینده

    -خوشه بندی گوینده

    کار قسمت بخش بندی[6]، تقسیم سیگنال گفتاری به سگمنت هایی است که تنها شامل گفتار یک گوینده هستند. در مرحله خوشه بندی[7]، شناسایی و دسته بندی بخش های گفتاری مربوط به یک گوینده و اختصاص یک برچسب واحد به آن انجام می شود. این مطلب در بسیاری از کاربردهای گفتاری که مربوط به بازشناسی یا فهرست نگاری[8] گفتار در محیطی که چندین گوینده ممکن است در آن اقدام به سخن گفتن بنمایند، مانند یک جلسه، کنفرانس، اخبار و نظایر آن کاربرد دارد. این کار نه تنها می تواند به سیستم های بازشناسی گفتار پیشرفته جهت بهبود نتایج بازشناسی گروهی کمک نماید بلکه در شناسایی و متن نگاری مکالمه ها نیز به آنها کمک می نماید. همانطور که قبلا نیز ذکر شد، امکان استفاده از آن در فهرست نگاری صوتی که امکان جستجو در فایل های صوتی را فراهم می نماید نیز ممکن است. شکل (1-1) نحوه کار این سیستم را بخوبی نشان می- دهد.

    شکل (1-1): نمایش بخش بندی گویندگان روی گفتار ورودی

    فایل صوتی مورد بررسی یک صوت ضبط شده تک کاناله است که شامل چندین منبع صوتی است. این منابع صوتی  متفاوتند و می توانند شامل چند گوینده، موسیقی، انواع نویز و ... باشند. نوع و جزییات منابع صوتی موجود در فایل به ویژگی کاربردی آن فایل بستگی دارد.

    بطور کلی سیستم های بخش بندی و خوشه بندی گوینده در سه حوزه زیر دارای کاربرد می باشند:

    دادگان اخباری

    جلسات ضبط شده

    مکالمات تلفنی

    همانطور که قبلا نیز اشاره شد این سه حوزه تفاوت هایی مانند کیفیت ضبط صوت (پهنای باند، میکروفون ها و نویز) و میزان و نوع منابع غیرگفتاری، تعداد گویندگان، سبک و ساختار گفتار (طول مدت گفتار، ترتیب گویندگان) دارند و هر حوزه جهت کار بخش بندی و خوشه بندی گوینده، مسائل و مشکلات خاص خود را دارد. البته در سیستم های تشخیص گوینده سعی بر آن است تا برای هر سه حوزه کاری، نتایج قابل قبول و مناسبی حاصل شود.[1]

    در سطح پایین تر کار چنین سیستمی دسته بندی داده های صوتی در خوشه هایی است که هر یک متعلق به یک گوینده باشد. در همین جا به راحتی میتوان دید که دو دیدگاه ناظرانه[9] (با سرپرست) و غیر ناظرانه[10] (بدون سرپرست) در این بخش مشاهده می شود. در دیدگاه اول از پیش اطلاعاتی از اینکه چه کسانی در فایل صوتی صحبت می کنند، وجود دارد. ولی در دیدگاه دوم کار سیستم دسته بندی فایل به بازه های زمانی است که در آنها تنها یک گوینده که هویت آن بر ما پوشیده است، صحبت می کند. توجه شود که میتوان از خروجی یک دسته بند غیرناظرانه به عنوان ورودی سیستم های شناسایی[11]، استفاده کرد و به این ترتیب یک سیستم دسته بندی ناظرانه خواهیم داشت. بنابراین کارایی و همچنین زمان اجرای سیستم ناظرانه بدست آمده بهتر است. از سوی دیگر، عملکرد این سیستم ها، به میزان اطلاعات قبلی مجاز نیز بستگی دارد. این اطلاعات قبلی می تواند نمونه گفتار از گویندگان، تعداد گویندگان موجود در فایل صوتی، یا اطلاعاتی از ساختار فایل ضبط شده باشد. ولی در اکثر سیستم های بخش بندی و خوشه بندی گوینده فرض بر نبود هیچگونه اطلاعات قبلی راجع به گویندگان و تعداد آنهاست. در این پروژه نیز با روش های بکار گرفته شده، فرض بر اینست که هیچگونه اطلاعات قبلی از گویندگان، مانند تعداد آنها، هویت آنها و داده آموزشی موجود نمی باشد و بنابراین مدل های گویندگان را نمیتوان از قبل آماده کرد. شکل (1-2) ساختار کلی سیستم های بخش بندی و خوشه بندی گوینده را نشان می دهد.

    شکل (1-2): ساختار کلی سیستم های بخش بندی و خوشه بندی گوینده

    چنین سیستمی شامل مراحل کاری مختلفی است و میتوان بخش های ذکر شده در قسمت های بعدی را برای آنها در نظر گرفت.[6-5]

    1-2-مراحل مختلف کاری سیستم های بازشناسی گوینده

    بطور کلی مراحل مختلف یک سیستم بازشناسی گوینده، بصورت زیر خلاصه می گردد:

    1-قطعه بندی آکوستیکی[12]

    2-تشخیص گفتار از غیر گفتار[13]

    3-تشخیص جنسیت گوینده

    4-تشخیص تغییر گوینده

    5-جمع زدن گوینده های مشابه

    این سیستم دارای بلوک های کاری مستقل از هم می باشد که هر بلوک ورودی خود را از خروجی بلوک قبلی دریافت می کند و ورودی لازم برای بلوک کاری پس از خود را تهیه می کند. در برخی سیستم ها، از بلوک سوم کاری صرف نظر می شود. در ادامه شرح مختصری از بخش های مختلف داده شده است.[4-2]

    1-2-1-قطعه بند آکوستیکی

    در اولین مرحله، باید جریان داده های صوتی به قطعات همگن آکوستیکی تقسیم شود. برای این امر باید نقاطی که  تغییر در خواص آکوستیکی داده های صوتی روی میدهد را، بدست آورد. در واقع این نقاط شکست[14] بعنوان ورودی به بلوک کاری بعدی داده می شود. در بسیاری از کاربردهای چند رسانه ای که داده ها علاوه بر صدا دارای تصویر نیز می باشند، عمل تشخیص نقاط تغییر، هم از روی صدا و هم از روی تصویر امکان پذیراست.[2] بنابراین کارایی چنین سیستم هایی نسبت به داده هایی که تنها شامل صوت یا تصویر هستند، بالاتر خواهد بود.

     امروزه روش های کاربردی تعیین نقاط تغییر آکوستیکی،  همگی بر پایه ی محاسبه فاصله آماری بین دو قطعه مجاور استوار هستند. تفاوت عمده ی میان آنها معیار فاصله ای است که در آنها بکار می رود. از روش های غیر آماری مورد استفاده میتوان به شبکه عصبی[15] و ماشین بردار پشتیبان[16]  اشاره نمود، که در بخش های بعدی توضیح داده خواهند شد.

    از دیدگاهی قطعه بندی، یک مساله بهینه سازی[17] است. زیرا هدف نهایی یافتن نقاطی است که در آنها معیار فاصله به ماکزیمم محلی[18] برسد. یکی از پرکاربردترین معیارهایی که امروزه برای تعیین نقاط شکست آکوستیکی بکار می رود، معیار بیزین[19] است.  پیش از این، روش های آماری دیگری از سال 1997 ابداع شده بود، که همگی آنها در مقایسه با معیار بیز جواب مناسبی نمی داده اند.[1] ارایه این روش اعتبار روش های دیگر را تا حدودی کمتر نمود.

    1-2-2-تشخیص گفتار از غیر گفتار(دسته بندی[20] صوتی)

    برای پیاده سازی این سیستم ها، قبل از هر کار دیگری بخش های گفتاری صوت ضبط شده را از بخش های غیر گفتاری آن مانند (سکوت، موسیقی، نویز خیابان، صدای سرفه ، صدای ورق زدن و ...) جدا می نمایند. با حذف بخش های غیرگفتاری میزان بار محاسباتی سیستم کاهش پیدا می کند و سرعت سیستم بیشتر می شود و سپس مراحل بخش بندی و خوشه بندی اجرا می شود. بعد از یافتن نقاط تغییر آکوستیکی، میتوان جریان داده های صوتی را مانند قطعات همگن در نظر گرفت. به عبارت دیگر یک قطعه نباید هم شامل گفتار، هم موسیقی و سکوت با هم باشد. اگر یک قطعه شامل گفتار دو گوینده باشد، باز هم همگن نخواهد بود. بنابراین این بلوک کاری خروجی قطعه بند صوتی را دریافت کرده و از آن قطعاتی را که حاوی داده های صوتی غیرگفتاری اند را حذف می کند. در یک سیستم تشخیص گفتار، معمولا داده های صوتی به 5 کلاس[2] زیر تقسیم می شوند:

    1-موسیقی خالص

    2-گفتار خالص

    3-گفتار همراه با نویز

    4-سکوت

    5-سکوت همراه با نویز

    البته در یک سیستم تشخیص گوینده، تنها احتیاج به تشخیص موارد 2و3 وجود دارد. زیرا هدف سیستم کار با گفتار بوده و هر چیزی غیر از گفتار از جریان داده ی صوتی حذف می شود تا بلوک های کاری پس از این بلوک با تمرکز برروی گفتار عمل نمایند. روشی که برای رسیدن به هدف این سیستم وجود دارد، بیشترین میزان شباهت[21](ML) مبتنی بر مدل مخلوط گوسی(GMM)[22] می باشد.

    1-2-3-تشخیص جنسیت گوینده

    این بخش سیستم برای بهبود سرعت اجرای بلوک کاری خوشه بندی داده های گفتاری بکار می رود.[2] به این ترتیب که با برچسب خوردن هریک از قطعات گفتاری به عنوان مرد یا زن، فضای جستجو کاهش می یابد، زیرا لازم نیست که قطعات گفتاری با برچسب جنسی مخالف با یکدیگر مقایسه شوند. روش بکار رفته در این بلوک کاری نیز ML مبتنی بر GMM می باشد.

    1-2-4-تشخیص تغییر گوینده

    از جهت ترتیب و ترکیب بخش بندی و خوشه بندی نیز روش های موجود پیاده سازی شده در سیستم ها به دو دسته تقسیم می شوند: در روش اول یک روال دو مرحله ای [7-9] اجرا می شود. (همانند ساختار شکل (1-2)) که مرحله اول بخش بندی است. این مرحله مرز سگمنت ها را بر اساس تغییرات آکوستیکی سیگنال مشخص می کند. مرحله دوم خوشه بندی است که سگمنت های متعلق به هر گوینده را در یک خوشه دسته بندی می کند. نقطه ضعف این روش برطرف نشدن خطاهای ناشی از مرحله بخش بندی در پردازش های بعدی سیستم می باشد. و متعاقبا کارآیی مرحله خوشه بندی را نیز کاهش می دهد. در روش دوم بخش بندی و خوشه بندی بصورت توام [23] و تکراری[24] است. این روش کارآیی بیشتری در مقایسه با روش اول دارد. در این روش تکرارهای لازم  با استفاده از مدل های پنهان مارکوف(HMM)  پیاده سازی شده اند.[10]

    1-3-روش های بخش بندی و خوشه بندی گویندگان

    تاکنون روش های مختلفی برای بخش بندی و خوشه بندی گویندگان در یک جریان صوتی پیشنهاد شده است. روش های بکارگرفته شده را میتوان در سه دسته طبقه بندی نمود:

    روش های بر اساس فاصله[25] [7][11]

    روش های بر اساس مدل[26] [12-14]

    روش های هیبرید یا ترکیبی[27] [15-17]

    1-3-1-روش بر اساس فاصله

    در این روش بخش بندی گویندگان به دو بخش اصلی تقسیم می شود:

    1)آشکارسازی تغییر گوینده[28]: در ابتدا آشکارساز تغییر گوینده جریان صوتی[29] را به سگمنت های کوچکتر که شامل گفتار تنها یک گوینده هستند، تقسیم می کند.

    2)خوشه بندی سگمنت ها(بخش ها): ادغام سگمنت های گفتاری متعلق به هر گوینده است. این ادغام با استفاده از یک معیار فاصله که شباهت بین دو سگمنت را اندازه می گیرد انجام می شود. مزیت این روش آن است که به هیچ اطلاعات قبلی نیاز ندارد ولی چون خوشه بندی بر اساس فاصله بین سگمنت های مجزا است وسگمنت های خیلی کوتاه نمی توانند به اندازه کافی مشخصات یک گوینده را توصیف کنند، بنابراین سگمنت های خیلی کوتاه روی دقت این روش تاثیر نامطلوب دارند.[16و17] عیب این روش، متکی بودن بر فاصله است، که موجب می گردد مقاومت و پایداری زیادی نداشته باشد.[15]

    1-3-2-روش بر اساس مدل

    در روش بخش بندی بر اساس مدل برای هر گوینده موجود در فایل صوتی با استفاده از داده های آموزشی یک مدل آموزش داده می شود. و این کار قبل از بخش بندی انجام می شود و سپس یک بخش بندی با استفاده از مدل های پنهان مارکوف [30] برای یافتن بهترین دنباله زمانی گویندگان[31] انجام می شود. جریان صوتی ورودی با استفاده از این مدل ها توسط انتخاب بیشترین درست نمایی دسته بندی می شود. در این روش، بخش بندی توسط بررسی ماکزیمم درست نمایی کلی[32] انجام می شود. در هر صورت بیشتر روش های بر اساس مدل به اطلاعات قبلی برای آماده سازی مدل های گویندگان نیاز دارند.

    1-3-3-روش هیبرید یا ترکیبی

    این روش ها جدید و متنوع هستند و هنوز برای حصول نتایج بهتر بر روی آنها کار می شود. این روش ترکیبی از دو روش بر اساس فاصله و بر اساس مدل می باشد. نتایج حاصل از این روش در سیستم های پردازش گوینده بطور قابل ملاحظه ای بهتر از سایر روش های دیگر است.[15][17] برای نمونه در این روش یک الگوریتم بخش بندی بر اساس فاصله، تنها برای ساخت یک مجموعه اولیه مدل های گویندگان بکار می رود. سپس با شروع از این مدل ها، بخش بندی بر اساس مدل انجام می شود و با ترکیب خوشه بندی بر اساس فاصله و بر اساس مدل دقت خوشه بندی افزایش می یابد.

    1-4-خوشه بندی نمودن

    خوشه بندی کردن بخشی از علم دسته بندی غیر ناظرانه ی داده های آماری است. یعنی هیچ اطلاعی از نوع، مدل و حتی تعدادخوشه ها در اختیار نداریم و به صورت کورکورانه داده هایی را که با هم شباهت دارند در یک خوشه فرضی دسته بندی می کنیم. بیشتر از روش توده کردن سلسله مراتبی[33] که روشی آماری برای جمع کردن داده هایی است که به هم شباهت دارند، استفاده می شود. نکته مهم یافتن معیار شباهت است. به عبارت دیگر، اصول کلی فرآیند خوشه بندی کردن در تمام کاربردها یکسان است و فقط معیار شباهت برای هر کاربرد متفاوت است. قبلا دیدیم که معیار BIC بهترین معیار برای اندازه گیری شباهت دو قطعه است، بنابراین برای خوشه بندی نمودن نیز از BIC استفاده می شود. بدیهی است که با تغییر دادن معیار شباهت به الگوریتم های دیگری می رسیم که لزوما جواب یکسانی به ما نمی دهند.

    1-5-خلاصه

    در این فصل سیستم های تشخیص گوینده و مراحل مختلف سیستم معرفی شدند. سه مرحله اصلی کار سیستم توضیح داده شد. که این مراحل عبارتند از: مرحله اول، شامل جداکردن سکوت از سیگنال اصلی است و مرحله دوم، بخش بندی سیگنال خروجی حاصل از مرحله اول به سگمنت های همگن است. مرحله سوم نیز خوشه- بندی سگمنت های حاصل از مرحله دوم می باشد. انواع روش های بخش بندی و خوشه بندی توضیح داده شد. مزیت ها و معایب آنها گفته شد.

     

     

     

     

    1.Speaker Segmentation

    2.Speaker Diarization

    3.Rich Transcription

    4.Speaker Indexing

    1 .Automatic Audio Indexing

    [6] .Segmentation

    [7] .Clustering

    [8] .Indexing

    1.Supervised

    2.Unsupervised

    3.Identification

    1. Acoustic Segmentation Module

    2.Speech Detection

    1.Break Point

    2.Artificial Neural Network

    3.Support Vector Machine

    4.Optimization

    5.Local Maximum

    1.Bayesian Information Criterion

    2.Classification

    1.Maximum Likelihood.

    2. Gaussian Mixture Model

    [23] .Joint

    [24] .Iterative

    [25] .Distance-based

    [26] .Model-based

    [27] .Hybrid

    [28].Speaker Change Detection

    [29].Audio Stream

    [30].Hidden Markov Models(HMM)

    [31].Best Time-aligned Speaker Sequence

    [32].Global Maximum Likelihood Framework

    4.Agglomerative Hirearchical

    Abstract

    In the every audio signal, it becomes very important answer questions like: “what was said?”, but also “who said it?” as information varies depending on who utters the spoken words. Within the speech technologies, The broad topic of acoustic indexing studies the classification of sounds into different classes/sources. Algorithms used for acoustic indexing worry about the correct classification of the sounds, but not necessarily about the correct separation of them when more than one exist in the same audio segment. These purely classification techniques have sometimes been called audio clustering, which benefit from the broad topic of clustering, well studies in many areas. When multiple sounds appear in the same audio signal one must turn his attention to techniques called as audio diarization to process them.These can include particular speakers, music, background noise sources.

    When the possible classes correspond to the different speakers in a recording these techniques

    are called speaker diarization. Speaker diarization can be defined in terms of being a subtype of audio diarization, where the speech segments of the signal are broken into the different speakers They aim at answering the question “Who spoke when?” given an audio signal. Algorithms doing speaker diarization need to locate each speaker turn and assign them to the appropriate speaker cluster. The output of the system is a set of segments with a unique ID assigned to each person that intervenes in the recording.

    In this project using VAD’s G.729B in once step for seprate voice & unvoice. Then in this system using BIC algorithm for speech’segmentation by using MFCC’s feature, root-MFCC’s feature, TDC & root-TDC feature for second step ,and at last in the system using SVM for clustering.

    Keywords:

    Speaker Diarization, Voice Activity Detection, Speech Segmentation, Speaker Clustering

     

  • فهرست:

    فهرست مطالب

    فصل اول: معرفی سیستم های تشخیص گوینده

    1-1 –مقدمه...........................................................................................................................................................................................................2

    1-2-مراحل مختلف کاری سیستم های تشخیص گوینده...........................................................................................................................6

         1-2-1- قطعه بند آکوستیکی.....................................................................................................................................................................7

         1-2-2-تشخیص گفتار از غیر گفتار..........................................................................................................................................................8

         1-2-3-تشخیص جنسیت گوینده..............................................................................................................................................................9

         1-2-4-تشخیص تغییر گوینده...................................................................................................................................................................9

    1-3-روش های بخش بندی و خوشه بندی گویندگان..............................................................................................................................10

         1-3-1-روش­های بر اساس فاصله...........................................................................................................................................................10

         1-3-2-روش­های بر اساس مدل..............................................................................................................................................................11

         1-3-3-روش­های هیبرید یا ترکیبی.......................................................................................................................................................11

    1-4-خوشه بندی نمودن..................................................................................................................................................................................11

    1-5- خلاصه........................................................................................................................................................................................................12

    فصل دوم: تشخیص گفتار از نواحی غیرگفتاری

    2-1-مقدمه...........................................................................................................................................................................................................14

    2-2-ساختار قسمت تشخیص گفتار از غیر گفتار........................................................................................16

         2-2-1-پیش پردازش.................................................................................................................................................................................16

         2-2-2-استخراج ویژگی............................................................................................................................................................................17

              2-2-2-1-انرژی...................................................................................................................................................................................18

              2-2-2-2-نرخ عبور از صفر...............................................................................................................................................................19

              2-2-2-3- استخراج ویژگی به کمک ضرایب کپسترال فرکانسی در مقیاس مل.................................................................19

              2-2-2-4- ضرایب LPC...........................................................................................................23

              2-2-2-5- آنتروپی.............................................................................................................................................................................24

              2-2-2-6- اندازه متناوب بودن........................................................................................................................................................26

    ح

              2-2-2-7- اطلاعات زیر باند.............................................................................................................................................................28

              2-2-2-8- سایر پارامترها..................................................................................................................................................................28

     

         2-2-3- محاسبه آستانه.............................................................................................................................................................................29

         2-2-4- تصمیمات VAD..............................................................................................................29

              2-2-4-1- تصمیم گیری مبتنی بر مدل مخفی مارکوف..........................................................................................................30

              2-2-4-2- تصمیم گیری مبتنی بر شبکه های عصبی...............................................................................................................31

         2-2-5- تصحیح نتایج VAD..........................................................................................................33

    2-3- بلوک دیاگرام چند VAD استاندارد....................................................................................................................................................33

         2-3-1-استاندارد ETSI AMR........................................................................................................33

         2-3-2- الگوریتم GSM...............................................................................................................34

    2-4-خلاصه.........................................................................................................................................................................................................35

    فصل سوم: آشکارسازی تغییر گوینده

    3-1-مقدمه...........................................................................................................................................................................................................37

    3-2-بخش بندی گوینده..................................................................................................................................................................................38

         3-2-1-بخش بندی بر اساس فاصله.......................................................................................................................................................38

         3-2-2-بخش بندی  بر اساس مدل........................................................................................................................................................40

         3-2-3-بخش بندی هیبرید......................................................................................................................................................................40

    3-3-مقایسه روش­های بخش بندی................................................................................................................................................................40

    3-4-روش­های متداول آشکارسازی گوینده..................................................................................................................................................41

         3-4-1- معیار اطلاعات بیزین( (BIC................................................................................................41

              3-4-1-2- بخش بندی با استفاده از مدل آماری گوینده..........................................................................................................42

         3-4-2- ترکیب آماره T2 و BIC.......................................................................................................45

              3-4-2-1- سرعت و بهره بیشتر در بخش بندی T2-BIC........................................................................................................47

         3-4-3- فاصله نرخ درستنمایی عمومی((GLR...................................................................................................................................49

         3-4-4-فاصله KL2.....................................................................................................................49

         3-4-5- آشکارسازی تغییر گوینده با استفاده از DSD.............................................................................51

         3-4-6- BIC متقاطع(Cross-BIC (XBIC))……............................................................................................................................52

         3-4-7-درستنمایی مدل مخلوط گوسی..(GMM-L) ......................................................................................................................53

    3-5-خلاصه.........................................................................................................................................................................................................53

    خ

     

     

     

    فصل چهارم: روش­های دسته­بندی

    4-1-مقدمه...........................................................................................................................................................................................................55

    4-2-اجزا سیستم خوشه بندی........................................................................................................................................................................56

    4-3-روش های خوشه بندی............................................................................................................................................................................57

         4-3-1-روش های خوشه بندی سلسله مراتبی....................................................................................................................................58

              4-3-1-1-تکنیک­های خوشه­بندی بالارونده.................................................................................................................................59

              4-3-1-2-تکنیک­های خوشه­بندی پایین رونده...........................................................................................................................60

         4-3-2-روش های خوشه بندی افرازی..................................................................................................................................................61

    4-4- روش های خوشه بندی متداول در سیستم های خوشه بندی گوینده........................................................................................61

    4-5- دسته­بندی کننده ماشین­ های بردار پشتیبان...................................................................................................................................63

         4-5-1- دسته­بندی کننده­ ماشین بردار پشتیبان خطی....................................................................................................................63

              4-5-1-1- دسته­بندی کلاس­های جداپذیر...................................................................................................................................63

              4-5-1-2- دسته­بندی کلاس­های جدا ناپذیر...............................................................................................................................68

              4-5-1-3- دسته­بندی داده­های چند کلاسه با ماشین­های بردار پشتیبان............................................................................71

         4-5-2- ماشین­های بردار پشتیبان غیر خطی......................................................................................................................................72

    4-6- خلاصه........................................................................................................................................................................................................74

    فصل پنجم: پیاده سازی و مشاهدات سیستم ترکیبی پیشنهادی

    5-1-مقدمه...........................................................................................................................................................................................................76

    5-2-ساختار سیستم پیاده سازی شده..........................................................................................................................................................77

    5-3-پایگاه داده...................................................................................................................................................................................................80

    5-4-استخراج ویژگی.........................................................................................................................................................................................82

    5-5-معیار ارزیابی سیستم های تشخیص گوینده.......................................................................................................................................84

    5-6-نتایج آزمایشات..........................................................................................................................................................................................88

    5-6-1- اثر اعمال VAD بر روی سیگنال گفتار.........................................................................................................................................88

    5-6-2- اثر تغییر طول پنجره VAD بر روی دقت سیستم......................................................................................................................89

    5-6-3- اثر تغییر طول پنجره BIC بر روی نتایج بخش بندی................................................................................................................89

    د

    5-6-4-دقت.حاصل.از.بخش.بندی.بر.دو.نوع.از.دادگان با استفاده از MFCC.....................................................................................................93

     

    5-6-5-اثرتغییر.بردار.ویژگی.بر.روی.دقت.مرحله.بخش بندی................................................................................................................93

    5-6-6-مقایسه.نتایج.مرحله.بخش­بندی.با.بکارگیری.بردارهای.ویژگی متفاوت..................................................................................95

    5-6-7-اثرجنسیت،گویندگان.برتشخیص.درست.مرزهای.بخش بندی.................................................................................................96

    5-6-8-دقت مرحله خوشه­بندی بکارگیری ماشین بردار پشتیبان(SVM) با بردار ویژگی MFCC………..…………96

    5-6-9-دقت مرحله خوشه بندی ماشین بردار پشتیبان با بکارگیری بردار ویژگی root-MFCC ............................................................97

    5-6-10- اثر تغییر نوع تابع کرنل ماشین بردار پشتیبان بر روی دقت مرحله خوشه­بندی...............................................................98

    5-7-خلاصه.........................................................................................................................................................................................................98

    فصل ششم: جمع بندی و پیشنهادات

    6-1-جمع بندی  و خلاصه نتایج.................................................................................................................................................................100

    6-2-پیشنهادات...............................................................................................................................................................................................101

    منابع..................................................................................................................................................................................................................

    منبع:

     

    [1].Xavier.Anguera.Mir, Phd Thesis, “Robust Speaker Diarization for meetings”, 2006.

    [2].L.Docio, C.Garcia, ”Speaker Segmentation, detection and tracking in multi-speaker long audio recordings”, Third COST275 Workshop Bimetrics on the internet. 2005.

    [3]. Janes.Zibert, B.Vesnicer, F.Mihelie, ”A System for speaker detection and tracking in audio broadcast news”, IEEE proceeding, pp.51-61, 2008.

    [4].A.F.Martin, M.A.Przybocki, “Speaker recognition in a multi-speaker environment”, Euro speech 2001 Scandinavia, Coference on Speech Communication and Technology, 2001.

    [5]. R.O.Duda, P.E.Hart, D.G.Stork, “Pattern Classification” ,john wiley and sons , 2nd edition, 2007.

    [6]. Christopher M.Bishop, “Pattern Recognition and Machine learning”, pp.738, Springer2006.

    [7]. M.A.Siegler,U.Jain,B.Raj, M.Stern, “Automatic Segmentation, Classification and Clustering of Broadcast News Audio”, Proc.DARPA Speech Recognition Workshop, Chantilly, Virginia, pp.97-99, 1997.

    [8].S.Chen, P.Gopalakrishnan, “ Speaker , Environment and Channel Change Detection and Clustering via the Bayesian Information Criterion”, Proc .Darpa Broadcast News Transcription Understanding Workshop, Lansdowne, VA, USA, pp . 127-132, 1998.

    [9].T.Hain, S.E.Johnson, A.Tuerk, P.C.Woodland, S.J.Young, “Segment generation and clustering in the HTK broadcast news transcription system”, Proc.Darpa Broadcast News Transcription and Understanding Workshop , Landsdowne, pp.133-137, 1998.

    [10].J.Amera, C.Wooters, “ A Robust speaker clustering algorithm”, Proc.ASRU(Automatic Speech Recognition Understanding) Workshop, U.S. Virgin Islands, pp.411-416, 2003

    [11].B.Zhou, J.H.L.Hansen, “Unsupervised Audio Stream Segmentation and clustering via the Baysian Information Criterion”, Proc. ICSLP, Beijing, China, pp. 714-717, 2000.

    [12].K.Sommez, L.Heck, M.Weintraub, “Speaker Tracking and Detection with Multiple Speakers”, Proc. EUROSPEECH , Budapest, Vol. 5, pp. 2219 – 2222, 1999.

    [13].P.C.Woodland, T.Hain, S.Johnson, T.Niesler, A.Tuerk, S.B.Young, “ Experiments in Broadcast News Transcription”, Proc.ICASSP, Seattle, Washington, pp.909 ff, 1998.

    [14].L.Wilcox, F.Chen, D.Kimber, V.Balasubramanian, “Segmentation of Speech Using Speaker Identification “, Proc. ICASSP, Adeliade, Australia, Vol, pp. 161-164, 1994.

    [15].H.Kim, D.Ertelt, T.Sikora, “ Hybrid speaker-based segmentation system using model-level clustering”, Proc. ICASSP, Philadelphia, USA, Vol,pp. 745-748, 2005.

    [16].H.Kim, T.Sikora, “Automatic Segmentation of Speakers in Broadcast Audio Material”, Proc. SPIE, Vol. 5307, pp.429-438, 2003.

    [17].P.Yu, F.Seide, C.Ma, E.Chang, “ An Improved Model-based Speaker Segmentation System”, Proc. EUROSPEECH, Geneva, Switzerland, pp. 2025-2028, 2003.

    [18].D.Valj, B.Kacic, B.Horvat, “Usage of frame dropping and frame attenuation algorithms in automatic speech recognition system”, IEEE proceeding, pp.149-152, 2003.

    [19].J.Faneuff, “Spatial, spectral, and perceptual nonlinear noise reduction for hands-free microphones in a car”, Master Thesis Electrical and computer Engineering, 2002.

    [20].L.Karray, C.Mokbel, J.Monne, “ Solutions for robust speech\non speech detection in wireless environment”, IEEE proceeding, pp.166-170, 2002.

    [21].همایونپور.م، ا.ش.نبوی، "مقایسه و ارزیابی روشهای تشخیص گفتار از سکوت"، کنفرانس بین المللی فن آوری اطلاعات، دی ماه 1382. صفحه 629-639

    [22].D.R.Paoletti, G.Erten, “Enhanced silence detection in variable rate coding systems using voice extraction “, proc. 43IEEE Midwest symp, vol.2, PP.592-594, 2000.

    [23].A.Benyassine, E.Shlomot, H.Yu Su, E.Yuen, “ Arobust low complexity voice activity detection algoritm for speech communication systems “, IEEE proceeding, pp. 97-98, 1997.

    [24].A.Sangwan, M.C.Chiranth, H.S.Jamadagni, R.Sah, R.V.Prasad, V.Gaurav, “ VAD techniques for real-time speech transmission on the Internet”, 5th IEEE Internetional conference on High-speed Networks and Multimedia communications, pp. 46-50, 2002.

    [25].S.G.Tanyer, H.Ozer, “Voice activity detection in non-stationary Gaussian noise” proceeding of ICSP,pp. 1620-1623. 1998.

    [26].W.Shin, B.Lee, Y.Lee, “Speech/ non-speech classification using multiple features for robudt end point detection”, IEEE ICASSP, pp.876-881, 2000.

    [27].B.V.Harsha, “Anoise robust activity detection algorithm”, proc. Of int. symposium of intelligent multimedia video and speech processing, pp. 322-325, 2004.

    [28].R.Khemchandani, “Twin Support Vector Machines for Pattern Classification”, IEEE  Transactions on pattern analysis and machin intelligence, pp.905-910, 2007.

     

    [29].B.Fergani, M.Davy, A.Houacine, “ Speaker Diarization using one-class support vector machines”, Sience Direct, Speech Communication50, pp.355-365, 2008.

    [30].H.I.Kim, S.K.Park, “ Voice activity detection algorithm using radial basis function network”, Electronics Letters, Vol.40, No.22, 2004.

    [31].P.Renevey, A.Drygajlo, “Entropy based Voice Activity Detection in very noisy conditions”, Eurospeech’01 , pp.1883-1886 , 2001.

    [32].Jia-Lin Shen, Jeih-Weih Hung, Lin-Shan Lee, “Robust entropy-based endpoint detection for speech recognition in noisy environments”, International Conference on Spoken Language, Sydney, Australia, November 30-December4, 1998.

    [33].I.Abdullah, S.Montresor, M.Baudry, “Robust speech/non-speech detection in adverse conditions using an entropy based estimator”, IEEE proceeding, pp.757-760, 1977.

    [34].R.Tucker, “ Voice activity detection using a periodicity measure”, IEEE Proceeding-I. VoI. 139, No.4, pp.377-380, 1992.

    [35].I.D.Lee, H.P.Stern, S.A.Mahmoud, “ A voice activity detection algorithm for communication systems with dynamically varying back ground acoustic noise”, IEEE proceeding, pp.1214-1218, 1998.

    [36].H.Kobatake, K.Tawa, A.Ishida, “Speech/non-speech discrimination for speech recognition system under real life noise environment “, IEEE proceeding, pp.365-368, 1989.

    [37].J.Ramirez, J.C.Segura, C.Benitez, A.De la Torre, A.Rubio, “ A new adaptive long-term Spectral Estimation voice activity detector”, EUROSPEECH, pp.3041-3044, 2003.

    [38].Ramirez et al, “Efficient voice activity detection algorithms using long-term speech information”, speech communication, Vol.42, Issues 3-4, pp.271-278, 2004.

    [39].F.Beritelli, S.Casale, A,Cavallaro, ”A robust voice activity detector for wireless communication using soft computing”, IEEE proceeding, pp.1818-1828, 1998.

     [40].Q.Jin, K.Laskowski, T.Schultz, A.Waibel, ”Speaker Segmentation and Clustering in meetings”, ICSLP, JAEJU Island, Korea, pp.945-951, 2004.

     [41].J.Rmirez, J.C.Segura, C.Benitez, A.De la Torre, A. Rubio, ”An Effective Subband OSF-Based VAD with Noise Reduction for robust speech recognition” IEEE 2005.

    [42].J.Wei, L.Du, Z.Yan, H.Zeng, “A new algorithm for voice activity detection “, IEEE proceeding, pp.588-590, 2003.

    [43].Vijayachander, Shobha Devi, “ A novel algorithm for voice activity detection”, IEEE proceeding, pp.222-225, 2005.

    [44].M.Jelinek, F.Labonte, “Robust signal/noise discrimination for wideband speech and audio coding”, proc.IEEE Workshop on speech Coding, Delevan, Wisconsin, USA,pp.151-153, September 17-20, 2000.

    [45].N.R.Garner, P.A.Barrett, D.M.Howard, A.M.Tyrrell, “ Robust noise detection for speech detection and enhancement”, electronics letters, Vol.33, No.4, pp.270-271, 1997.

    [46].M.Orlandi, A.Santarelli, D.Falavigna, “Maximum Likelihood endpoint detection with time-domain features”, eurospeech 2003, Geneva, pp.1757-1760.

    [47].A.Acero, C.Crespo, C.Del La Torre, J.C.Torrecilla, “Robust HMM-based endpoint detection”, Euro speech, pp.1551-1554, 1993.

    [48].W.H.Abdullah, “HMM-based techniques for speech segments extraction”, science programming, pp.221-239, 2002.

    [49].H.Othman, T.Abdulnasr, “Asemi-continuos state transition propability HMM-based voice activity detection “, IEEE proceeding-I. Vol.139, No.4, pp.821-824, 2004.

    [50].R.Sarikaya, J.H.L.Hansen, “Robust speech activity detection in the presence of noise”, ICSLP, 1998.

    [51].F.Beitelli, S.Casale, A.Cavallaro, “Adaptive voice activity detection for wireless communications based on hybrid fuzzy learning”, IEEE proceeding, pp.1729-1734, 1998.

    [52].A.Cavallaro, F.Beritelli, S.Casale, ”Afuzzy logic based speech detection algorithm for communications in noisy environment”, IEEE proceeding, pp.565-568, 1998.

    [53].Y.Tian, J.Wu, Z.Wang, D.Lu,”Fuzzy clustering and Bayesian information criterion based threshold estimation for robust voice activity detection”, IEEE proceeding, pp.444-447, 2003.

    [54].F.Beaufays, D.Boies, M.Weintraub, Q.Zhu, “Using speech/non-speech detection to bias recognition search on noisy data”, IEEE proceeding, pp.424-427, 2003.

    [55].S.Grashey, “A new voice activity detection based on self organizing maps” ,Euro Speech, pp.1733-1736. 2003.

    [56].A.Sangwan, H.S.Jamadagni, M.C.Chiranth, R.Sah, R.V.Prasad, V.Guarav, “Second and third adaptable threshold for VAD in VoIP”, IEEE proceeding, pp.1693-1696, 2002.

    [57].C.Dong, K.Jinming, “ A robust voice activity detector applied for AMR”, proceeding of ICASP, pp.687-692, 2000.

    [58].E.Cornu, H.Shikhzadeh, R.L.Brennan, H.R.Abutalebi, E.C.Y.Tam, P.Iles, K.W.Waong, “ETSI AMR2 VAD:Evaluation and ultra low resource implementation”, IEEE proceeding, pp.585-587, 2003.

    [59].P.A.Barrette,”Information tone handling in the half rate GSM voice activity detector” , IEEE proceeding, pp.72-76, 1995.

    [60].A.Benyassine, E.Shlomot, H.Yusu, ”ITU-T recommendation G.729 Annex B:A silence compression scheme for use with G.729 optimized for V.70 digital simultaneous voice and data application”, IEEE procedding, pp.64-73, 1997.

    [61].J.Shaojun, G.Hitato, Y.Fuliang, ” Anew algorithm for voice activity detection based on wavelet transform”, proc.of int.symposium of intelligent multimedia, video and speech processing, pp.222-225, 2004.

    [62].L.Rabiner, B.H.Juang,”Fundamentals of Speech Recognition” Prentice Hall, 1993.

    [63].J.R.Deller, J.G.Proakis, J.H.L.Hansen, “Discrete-Time Processing of Speech Signals”, Macmillan Publishing Company, 1993.

    [64].T.Kemp, M.Schmidt, M.Westphal, A.Waibel, ”Strategies for automatic segmentation of audio data”, Proc.ICASSP, Istanbul. Turkey, Vol.3, 1423-1426, 2000.

     [65].S.Kwon, Sh.N, ”Unsupervised Speaker Indexing Using Generic Models”, IEEE Transactions on Speech and Audio Processing, Vol. 13, no.5, pp. 1004-1013, 2005.

    [66].H.Gish, M.H.Siu, R.Rohlicek, “ Segregation of Speakers for Speech Recognition and Speaker Identification”, Proc. ICASSP, Toronto, Canada, Vol.2, pp.873-876, 1991.

    [67].L.Lu, H.J.Zhang, “Content Analysis for Audio Classification and Segmentation “, IEEE Transaction on Speech and Audio Processing, Vol. 10, NO. 7, pp. 504-516, 2002.

    [68].B.Zhou, J.H.L.Hansen, “Efficient Audio Stream Segmentation via the Combined T2-Statistic and Bayesian Information Criterion”, IEEE Transsactions on speech and audio processing, Vol. 13, No.4, pp. 467-474, 2005.

    [69].G.Schwarz, “Estimating the Dimension of a Model”, The Annals of statistics, Vol. 6, No. 2, pp.462-464, 1978.

    [70].J.Ajmera, H.Bourlard, I.Lapidot, I.Mccowan,”Unknown-Multiple speaker clustering using HHM”, Proc.ICSLP,Denver, USA, PP.573-576, 2002.

     [71].Laura Docio-Fernandez, Carmen Garcia-Mateo, “ Speaker Segmentation , Detection and Tracking in Multi Speaker Long Audio Recordings”, Third COST275 Workshop “Biometrics on the Internet”, University of Hertfordshire, Hatfield, UK, 2004.

    [72].W.H.Tsai, S.S.Cheng, and H.M.Wang, “Speaker Clustering of Speech Utterancves using a voice characteristic reference space”, Proc. ICSLP, Jeju Island, Korea, pp.1237-1241, 2004.

    [73].S.E.Tranter, M.J.F.Gales, R.Sinha, S.Umesh, P.C.Woodland, “ The Development of The Cambridge University RT-04 Diarisation System”, RT-04F Workshop, pp.1557-1565, 2004.

    [74].C.Barras, X.Zhu, S.Meignier, J.-L.Gauvain, “Improving Speaker Diarization”, proc.RT-04F Workshop (Fall 2004 Rich Transcription Workshop), pp.1498-1503, 2004.

    [75].Daniel.Moraru, Mathieu.Ben, Guillaume Gravier, “Experiments on Speaker tracking and segmentation in radio broadcast news”, INTERSPEECH, Lisbon, Portugal, pp.3049-3052, 2005.

    [76].A.K.Jain, M.N.Murty and P.J.Flynn,” Data  Clustering: A review”, ACM Computing Surveys, Vol. 31, No.pp.264-323, 1999.

    [77].Kh.Aghajani, M.S Thesis, “Voice Activity Detection in the Speech Signal With Stationary Noise Based By Wavelet Transform”, sharifuniversity of technology, computer engineering department, 2006.

    [78].H.Veisi,M.SThesis,”Model-based methods for noise robust speech recognitionsystems”, sharifuniversity of technology, computer engineering department, 2005.

    [79].Y.Seyyedin, M.S Thesis, “Acoustic segmentation”, sharif university of technology, computer engineering department , 2009.

    [80].L.Ardakanian, M.S Thesis, “ Speaker Clustering and Segmentation in a Multi-Speaker Environment”, amirkabiruniversity of technology electrical engineering department, 2006.

    [81].B.Ahmed,W.Harvey,”A voice activity detector using Chi-Square test” IEEE proceeding, pp.625-628, 2004.

    [82].S.Zhang, S.Zhang, B.Xu,”A Two-Level Method for Unsupervised Speaker-based Audio Segmentation”, IEEE, 18th international conference on pattern recognition, pp.1536-1540, 2006.

     


موضوع پایان نامه تشخیص گوینده در محیط شامل چند گوینده با استفاده از ماشین بردار پشتیبان, نمونه پایان نامه تشخیص گوینده در محیط شامل چند گوینده با استفاده از ماشین بردار پشتیبان, جستجوی پایان نامه تشخیص گوینده در محیط شامل چند گوینده با استفاده از ماشین بردار پشتیبان, فایل Word پایان نامه تشخیص گوینده در محیط شامل چند گوینده با استفاده از ماشین بردار پشتیبان, دانلود پایان نامه تشخیص گوینده در محیط شامل چند گوینده با استفاده از ماشین بردار پشتیبان, فایل PDF پایان نامه تشخیص گوینده در محیط شامل چند گوینده با استفاده از ماشین بردار پشتیبان, تحقیق در مورد پایان نامه تشخیص گوینده در محیط شامل چند گوینده با استفاده از ماشین بردار پشتیبان, مقاله در مورد پایان نامه تشخیص گوینده در محیط شامل چند گوینده با استفاده از ماشین بردار پشتیبان, پروژه در مورد پایان نامه تشخیص گوینده در محیط شامل چند گوینده با استفاده از ماشین بردار پشتیبان, پروپوزال در مورد پایان نامه تشخیص گوینده در محیط شامل چند گوینده با استفاده از ماشین بردار پشتیبان, تز دکترا در مورد پایان نامه تشخیص گوینده در محیط شامل چند گوینده با استفاده از ماشین بردار پشتیبان, تحقیقات دانشجویی درباره پایان نامه تشخیص گوینده در محیط شامل چند گوینده با استفاده از ماشین بردار پشتیبان, مقالات دانشجویی درباره پایان نامه تشخیص گوینده در محیط شامل چند گوینده با استفاده از ماشین بردار پشتیبان, پروژه درباره پایان نامه تشخیص گوینده در محیط شامل چند گوینده با استفاده از ماشین بردار پشتیبان, گزارش سمینار در مورد پایان نامه تشخیص گوینده در محیط شامل چند گوینده با استفاده از ماشین بردار پشتیبان, پروژه دانشجویی در مورد پایان نامه تشخیص گوینده در محیط شامل چند گوینده با استفاده از ماشین بردار پشتیبان, تحقیق دانش آموزی در مورد پایان نامه تشخیص گوینده در محیط شامل چند گوینده با استفاده از ماشین بردار پشتیبان, مقاله دانش آموزی در مورد پایان نامه تشخیص گوینده در محیط شامل چند گوینده با استفاده از ماشین بردار پشتیبان, رساله دکترا در مورد پایان نامه تشخیص گوینده در محیط شامل چند گوینده با استفاده از ماشین بردار پشتیبان

الکترونیک گروه پایان نامه کارشناسی ارشد چکیده: شناسایی گوینده یکی از مباحث مطرح در بحث پردازش گفتار می باشد. شناسایی گوینده عبارت است از فرآیندی که طی آن با استفاده از سیگنال صحبت تشخیص دهیم چه کسی چه موقع واقعا صحبت می کند. هدف طراحی سیستمی است که بتواند تغییر در گوینده را مشخص نماید و گفتار هرگوینده را برای سیستم برچسب گذاری نماید. یعنی مشخص نماید که کدام گوینده، در چه بازه ...

پایان نامه کارشناسی ارشد مهندسی برق گرایش الکترونیک چکیده در این پایان­نامه روشی برای شناسایی مصوت­های فارسی در کلمات تک سیلابی ارائه می­شود. برای این منظور پس از جداسازی فریم­های تصویر و انتخاب فریم­هایی که مربوط به تلفظ مصوت موجود در کلمه تک سیلابی بودند و نیز استخراج ناحیه­ای پیرامون لب­ها، ویژگی­های مختلفی همچون ضرایب کسینوسی و ضرایب موجک و ضرایب MFCC برای تشخیص مصوت­ها در ...

پایان نامه کارشناسی ارشد در رشته مهندسی اتوماسیون و ابزار دقیق چکیده ارائه روشی جدید در خوشه­بندی اطلاعات با استفاده ازترکیب الگوریتم خفاش و Fuzzy c-means خوشه­بندی قرار دادن داده­ها در گروه­هایی است که اعضای هر گروه از زاویه خاصی به هم شباهت دارند . شباهت بین داده­های درون هر خوشه حداکثر و شباهت بین داده­­های درون خوشه­های متفاوت حداقل می­باشد. Fuzzy c-means نیز یک تکنیک ...

پایان نامه کارشناسی ارشد در رشته مهندسی اتوماسیون و ابزار دقیق چکیده ارائه روشی جدید در خوشه­بندی اطلاعات با استفاده ازترکیب الگوریتم خفاش و Fuzzy c-means خوشه­بندی قرار دادن داده ­ها در گروه­هایی است که اعضای هر گروه از زاویه خاصی به هم شباهت دارند . شباهت بین داده­های درون هر خوشه حداکثر و شباهت بین داده­­های درون خوشه­های متفاوت حداقل می­باشد. Fuzzy c-means نیز یک تکنیک خوشه­ ...

پایان­نامه برای دریافت درجه کارشناسی ارشد رشته مهندسی کامپیوتر – هوش مصنوعی چکیده بخش­بندی تصویر یک فرآیند اساسی در بسیاری از کاربردهای پردازش­ تصویر و بینایی ماشین است که می­تواند به عنوان اولین مرحله پردازش سطح پایین در پردازش تصاویر دیجیتالی در نظر گرفته شود. بخش­بندی تصویر کاربردهای گوناگونی مانند پردازش تصاویر پزشکی، شناسایی چهره، سیستم­های کنترل ترافیک و غیره دارد. با توجه ...

پایان نامه برای دریافت درجه کارشناسی ارشد رشته هوش مصنوعی چکیده یکی از پیچیده‌ترین کار‌ها در پردازش تصاویر دیجیتال، بخش‌ بندی تصاویر است. به‌دلیل افزایش توجه به این تکنیک توسط محققان و تبدیل آن به یک نقش حیاتی در بسیاری از زمینه‌های کاربردی مثل کاربرد‌های پزشکی مورد استفاده قرار می‌گیرد. امروزه در دندان‌پزشکی مدرن، تکنیک‌های مبتنی بر استفاده از کامپیوتر مانند طرح‌ریزی و ...

پایان نامه کارشناسی ارشد مهندسی برق گرایش الکترونیک چکیده در این پایان­نامه روشی برای شناسایی مصوت­های فارسی در کلمات تک سیلابی ارائه می­شود. برای این منظور پس از جداسازی فریم­های تصویر و انتخاب فریم­هایی که مربوط به تلفظ مصوت موجود در کلمه تک سیلابی بودند و نیز استخراج ناحیه­ای پیرامون لب­ها، ویژگی­های مختلفی همچون ضرایب کسینوسی و ضرایب موجک و ضرایب MFCC برای تشخیص مصوت­ها در ...

پايان نامه جهت اخذ درجه کارشناسي ارشد رشته مهندسي صنايع مهر 1391 شناسايي ارزش[1] مشتريان، از مولفه‌هاي اصلي موفقيت در فروشگاه‌ هاي مختلف مي‌باشد که امروزه مورد توجه بيش از پيش قر

پایان نامه برای دریافت درجه کارشناسی ارشد (( M.A گرایش مدیریت بازرگانی چکیده تحقیق حاضر با هدف بررسی بررسی میزان رتبه بندی عوامل موثر بر اثربخشی پیام های بازرگانی در جذب مخاطب در استان تهران نگارش یافته است. به منظور دستیابی به هدف فوق از چهار سوال استفاده شده است. چهارچوب نظری تحقیق مبتنی بر مدل AIDA بوده است. روش تحقیق انتخاب شده از نوع پیمایشی و موردی بوده که در زمره روش‏های ...

پايان نامه براي دريافت درجه کارشناسي ارشد ( A..M) گرايش:  منابع انساني زمستان 1390 چکيده با پيشرفت تکنولوژي و پيچيده شدن فعاليتهاي سازماني،به جرات مي توان ادعا کرد که دوران کار فر

ثبت سفارش