Romand

⬅️"مدل AV-HuBERT، یک گام جلوتر برای درک محتوای صوتی با استفاده از داده‌های بصری"

🔊🔎امروزه مسئله "تشخیص خودکار گفتار"، یکی از اساسی‌ترین مباحث به شمار میاد که روش‌هایی که تا به امروز در این حوزه به کار گرفته شده‌اند هم به نسبت خوب عمل کرده‌اند.

‼اما...
تمامی این روش‌ها در شرایطی که ورودی واضح باشد، نتیجه مطلوبی دارند و چنان‌چه نویزی وجود داشته‌باشد، افت عملکرد بسیار شدیدی خواهند‌ داشت.

💡برای رفع این مشکل، راه‌حل‌های متنوعی ارائه شده که یکی از جالب‌ترین روش‌های پیشنهادی، روشی کاملا مشابه عملکرد طبیعی #تشخیص_گفتار در ما انسان‌هاست!

🖼یعنی استفاده از داده‌های بصری در کنار استفاده از سیستم شنیداری!!!
در این روش با نگاه کردن به حرکت لب‌های گوینده می‌توان برای درک قسمتی از گفتار استفاده کرد.

📃در این مقاله در سایت عصر گویش پرداز، ما به تفصیل به این موضوع پرداخته‌ایم.

#مقاله_علمی_عصر_گویش_پرداز

✅➡️ https://b2n.ir/a70013

10 views08:55

Romand

Forwarded from عصر گویش | هوش مصنوعی

⬅️"تشخيص گفتار خودكار برای كنترل ترافيك هوايی"

🛩🛬كنترلرهای ترافیك هوایی نقش مهمی در جداسازی هواپیماها در حریم هوایی و سطح فرودگاه دارند و مقدار قابل توجهی از مكالمات بین كنترلرها و خلبانان از طریق كانال‌های رادیویی است.

📝پس بازشناسی خودكار این مكالمات، باعث:
✅"بهبود امنیت سیستم"
✅"پیشرفت عملكردهای عملیاتی"
✅"نظارت بر انطباق اطلاعات"
می‌شود.

‼️اما سیستم‌های بازشناسی گفتار خودكاری كه تا به امروز پیشنهاد شده اند دقت لازم برای استفاده‌های عملی رو دارا نبوده اند.

⁉️چرا؟
✅كانال‌های رادیویی نویز دار
✅سرعت تكلم بالا
✅لهجه‌های متنوع

📑🛫در روندی که ما در این مقاله می‌خوانیم، مدل تشخیص گفتار خودكاری را توسعه می‌دهیم كه: مكالمات خلبان با برج مراقبت را به صورت متن بازشناسی می‌كند. مدل پیشنهاد شده براساس ساختار سر به سر تشخیص گفتار به همراه یك شبكه عصبی عمیق است.

📃در این مقاله در سایت عصر گویش پرداز، ما به تفصیل به این موضوع پرداخته‌ایم.

#مقاله_علمی_عصر_گویش_پرداز
⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️
https://b2n.ir/u35309

9 views07:00

Romand

Forwarded from عصر گویش | هوش مصنوعی

⬅️"روشی كارآمد برای جداسازی منابع صوتی با استفاده از تركيب شبكه عصبی كانولوشنال و بازگشتی"

🔉جداسازی منابع صوتی (مانند زمانی كه چند شخص همزمان صحبت می كنند) یكی از مباحثی است كه پژوهش‌های زیادی در زمینه آن انجام شده است.

🗂روش‌های متعددی برای این كار وجود دارد.

📍💡یكی از بهترین روش‌هایی كه تاكنون ارائه شده است، استفاده از شبكه عصبی عمیق است. LSTM یك نوع شبكه عصبی بازگشتی است كه برای سیگنال‌های طولانی به‌كار می‌رود. در این روش به دلیل ارتباط كامل میان لایه ها، آموزش شبكه كند است و اندازه مدل بزرگ خواهد شد.

📍💡یك روش دیگر استفاده از شبكه عصبی كانولوشنال است. این روش برای سیگنال‌های طولانی منجر به عمق بیشتر شده و فرآیند آموزش را سخت تر می كند.

📃در مقاله مطالعه شده دنبال روشی جدید هستیم كه با تركیب این دو شبكه عصبی بتوانیم مدل كارآمدتری بسازیم. ابتدا ساختار هر یك از شبكه ها را بررسی كرده، سپس درباره انواع شیوه اتصالات آن‌ها بحث می‌كنیم و بهترین روش را برای ساختار جدید ارائه می‌كنیم. سپس این شبكه را برای جداسازی صدای خواننده در موسیقی به‌كار می‌بریم.

#مقاله_علمی_عصر_گویش_پرداز
⬇️⬇️⬇️
https://b2n.ir/u58091

14 views07:30

About

Blog

Apps

Platform