Forwarded from عصر گویش | هوش مصنوعی
⬅️"مدل AV-HuBERT، یک گام جلوتر برای درک محتوای صوتی با استفاده از دادههای بصری"
🔊🔎امروزه مسئله "تشخیص خودکار گفتار"، یکی از اساسیترین مباحث به شمار میاد که روشهایی که تا به امروز در این حوزه به کار گرفته شدهاند هم به نسبت خوب عمل کردهاند.
‼اما...
تمامی این روشها در شرایطی که ورودی واضح باشد، نتیجه مطلوبی دارند و چنانچه نویزی وجود داشتهباشد، افت عملکرد بسیار شدیدی خواهند داشت.
💡برای رفع این مشکل، راهحلهای متنوعی ارائه شده که یکی از جالبترین روشهای پیشنهادی، روشی کاملا مشابه عملکرد طبیعی #تشخیص_گفتار در ما انسانهاست!
🖼یعنی استفاده از دادههای بصری در کنار استفاده از سیستم شنیداری!!!
در این روش با نگاه کردن به حرکت لبهای گوینده میتوان برای درک قسمتی از گفتار استفاده کرد.
📃در این مقاله در سایت عصر گویش پرداز، ما به تفصیل به این موضوع پرداختهایم.
#مقاله_علمی_عصر_گویش_پرداز
✅➡️ https://b2n.ir/a70013
🔊🔎امروزه مسئله "تشخیص خودکار گفتار"، یکی از اساسیترین مباحث به شمار میاد که روشهایی که تا به امروز در این حوزه به کار گرفته شدهاند هم به نسبت خوب عمل کردهاند.
‼اما...
تمامی این روشها در شرایطی که ورودی واضح باشد، نتیجه مطلوبی دارند و چنانچه نویزی وجود داشتهباشد، افت عملکرد بسیار شدیدی خواهند داشت.
💡برای رفع این مشکل، راهحلهای متنوعی ارائه شده که یکی از جالبترین روشهای پیشنهادی، روشی کاملا مشابه عملکرد طبیعی #تشخیص_گفتار در ما انسانهاست!
🖼یعنی استفاده از دادههای بصری در کنار استفاده از سیستم شنیداری!!!
در این روش با نگاه کردن به حرکت لبهای گوینده میتوان برای درک قسمتی از گفتار استفاده کرد.
📃در این مقاله در سایت عصر گویش پرداز، ما به تفصیل به این موضوع پرداختهایم.
#مقاله_علمی_عصر_گویش_پرداز
✅➡️ https://b2n.ir/a70013
Forwarded from عصر گویش | هوش مصنوعی
⬅️"تشخيص گفتار خودكار برای كنترل ترافيك هوايی"
🛩🛬كنترلرهای ترافیك هوایی نقش مهمی در جداسازی هواپیماها در حریم هوایی و سطح فرودگاه دارند و مقدار قابل توجهی از مكالمات بین كنترلرها و خلبانان از طریق كانالهای رادیویی است.
📝پس بازشناسی خودكار این مكالمات، باعث:
✅"بهبود امنیت سیستم"
✅"پیشرفت عملكردهای عملیاتی"
✅"نظارت بر انطباق اطلاعات"
میشود.
‼️اما سیستمهای بازشناسی گفتار خودكاری كه تا به امروز پیشنهاد شده اند دقت لازم برای استفادههای عملی رو دارا نبوده اند.
⁉️چرا؟
✅كانالهای رادیویی نویز دار
✅سرعت تكلم بالا
✅لهجههای متنوع
📑🛫در روندی که ما در این مقاله میخوانیم، مدل تشخیص گفتار خودكاری را توسعه میدهیم كه: مكالمات خلبان با برج مراقبت را به صورت متن بازشناسی میكند. مدل پیشنهاد شده براساس ساختار سر به سر تشخیص گفتار به همراه یك شبكه عصبی عمیق است.
📃در این مقاله در سایت عصر گویش پرداز، ما به تفصیل به این موضوع پرداختهایم.
#مقاله_علمی_عصر_گویش_پرداز
⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️
https://b2n.ir/u35309
🛩🛬كنترلرهای ترافیك هوایی نقش مهمی در جداسازی هواپیماها در حریم هوایی و سطح فرودگاه دارند و مقدار قابل توجهی از مكالمات بین كنترلرها و خلبانان از طریق كانالهای رادیویی است.
📝پس بازشناسی خودكار این مكالمات، باعث:
✅"بهبود امنیت سیستم"
✅"پیشرفت عملكردهای عملیاتی"
✅"نظارت بر انطباق اطلاعات"
میشود.
‼️اما سیستمهای بازشناسی گفتار خودكاری كه تا به امروز پیشنهاد شده اند دقت لازم برای استفادههای عملی رو دارا نبوده اند.
⁉️چرا؟
✅كانالهای رادیویی نویز دار
✅سرعت تكلم بالا
✅لهجههای متنوع
📑🛫در روندی که ما در این مقاله میخوانیم، مدل تشخیص گفتار خودكاری را توسعه میدهیم كه: مكالمات خلبان با برج مراقبت را به صورت متن بازشناسی میكند. مدل پیشنهاد شده براساس ساختار سر به سر تشخیص گفتار به همراه یك شبكه عصبی عمیق است.
📃در این مقاله در سایت عصر گویش پرداز، ما به تفصیل به این موضوع پرداختهایم.
#مقاله_علمی_عصر_گویش_پرداز
⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️
https://b2n.ir/u35309
Forwarded from عصر گویش | هوش مصنوعی
⬅️"روشی كارآمد برای جداسازی منابع صوتی با استفاده از تركيب شبكه عصبی كانولوشنال و بازگشتی"
🔉جداسازی منابع صوتی (مانند زمانی كه چند شخص همزمان صحبت می كنند) یكی از مباحثی است كه پژوهشهای زیادی در زمینه آن انجام شده است.
🗂روشهای متعددی برای این كار وجود دارد.
📍💡یكی از بهترین روشهایی كه تاكنون ارائه شده است، استفاده از شبكه عصبی عمیق است. LSTM یك نوع شبكه عصبی بازگشتی است كه برای سیگنالهای طولانی بهكار میرود. در این روش به دلیل ارتباط كامل میان لایه ها، آموزش شبكه كند است و اندازه مدل بزرگ خواهد شد.
📍💡یك روش دیگر استفاده از شبكه عصبی كانولوشنال است. این روش برای سیگنالهای طولانی منجر به عمق بیشتر شده و فرآیند آموزش را سخت تر می كند.
📃در مقاله مطالعه شده دنبال روشی جدید هستیم كه با تركیب این دو شبكه عصبی بتوانیم مدل كارآمدتری بسازیم. ابتدا ساختار هر یك از شبكه ها را بررسی كرده، سپس درباره انواع شیوه اتصالات آنها بحث میكنیم و بهترین روش را برای ساختار جدید ارائه میكنیم. سپس این شبكه را برای جداسازی صدای خواننده در موسیقی بهكار میبریم.
#مقاله_علمی_عصر_گویش_پرداز
⬇️⬇️⬇️
https://b2n.ir/u58091
🔉جداسازی منابع صوتی (مانند زمانی كه چند شخص همزمان صحبت می كنند) یكی از مباحثی است كه پژوهشهای زیادی در زمینه آن انجام شده است.
🗂روشهای متعددی برای این كار وجود دارد.
📍💡یكی از بهترین روشهایی كه تاكنون ارائه شده است، استفاده از شبكه عصبی عمیق است. LSTM یك نوع شبكه عصبی بازگشتی است كه برای سیگنالهای طولانی بهكار میرود. در این روش به دلیل ارتباط كامل میان لایه ها، آموزش شبكه كند است و اندازه مدل بزرگ خواهد شد.
📍💡یك روش دیگر استفاده از شبكه عصبی كانولوشنال است. این روش برای سیگنالهای طولانی منجر به عمق بیشتر شده و فرآیند آموزش را سخت تر می كند.
📃در مقاله مطالعه شده دنبال روشی جدید هستیم كه با تركیب این دو شبكه عصبی بتوانیم مدل كارآمدتری بسازیم. ابتدا ساختار هر یك از شبكه ها را بررسی كرده، سپس درباره انواع شیوه اتصالات آنها بحث میكنیم و بهترین روش را برای ساختار جدید ارائه میكنیم. سپس این شبكه را برای جداسازی صدای خواننده در موسیقی بهكار میبریم.
#مقاله_علمی_عصر_گویش_پرداز
⬇️⬇️⬇️
https://b2n.ir/u58091