فناوری هوش مصنوعی به رشد و توسعه خود ادامه می دهد و به نظر می رسد حد و مرزی برای آن وجود ندارد. در حالیکه بسیاری از دانش آموزان و دانشجویان از هوش مصنوعی برای انجام دادن تکالیف خود استفاده می کنند، اما توانایی های این تکنولوژی فراتر از این حرف ها است! گوگل چندین سال است که در حال کار کردن بر روی هوش مصنوعی و آشکار کردن پتانسیل های مختلف آن است. این غول دنیای تکنولوژی در یکی از جدیدترین دستاوردهای خود در این حوزه، از مدل زبانی AudioPaLM رونمایی کرده است. این مدل زبانی جدید می تواند بشنود، حرف بزند و ترجمه کند و دقت فوق العاده بالایی دارد! در ادامه با جزئیات این خبر همراه شما هستیم.
کاربردهای بالقوه Google AudioPaLM
محققان گوگل به تازگی از AudioPaLM رونمایی کرده اند. همان طور که اشاره شد این مدل زبانی از توانایی های پیشرفته ای برخوردار است و دقت فوق العاده ای در تشخیص گفتار انسانی دارد! در توسعه این فناوری از معماری مالتی مدل استفاده شده و در آن قدرت دو مدل زبانی PaLM-2 و AudioLM تلفیق شده است.
مدل PaLM-2 یک مدل زبانی مبتنی بر متن است که از دانش زبانشناسی خوبی برخوردار بوده و توانایی درک و تحلیل متون را دارد. مدل AudioLM نیز در واقع یک مدل فرازبانی است و در تشخیص صحبت و لحن گفتار فوق العاده عمل می کند. با تلفیق این دو مدل، AudioPaLM خلق شده است؛ یک مدل پیشرفته که توانایی های زبان شناسی PaLM-2 و عملکرد عالی AudioLM در تشخیص گفتار را به صورت یک جا در خود جای داده است و دریچه های جدیدی را به روی آینده ابزارهای هوش مصنوعی می گشاید!
مدل زبانی AudioPaLM در واقع متن و گفتار را با استفاده از یک سری واژگان مشترک به بخش های مجزا تقسیم بندی می کند و از آنها برای آنالیز محتوا بهره می برد. این استراتژی باعث می شود تا وظایفی مانند تشخیص گفتار، تبدیل متن به گفتار و ترجمه گفتار به گفتار در قالب یک مدل زبانی واحد امکان پذیر شود. لازم به ذکر است که این مدل زبانی از همین روش برای تمرین دادن و آموزش خود استفاده می کند.
این طور که مشخص است، مدل زبانی AudioPaLM می تواند در سیستم های ترجمه گفتاری تحولی بزرگ ایجاد کند! به عنوان مثال یک فرد ژاپنی می تواند جملات خود را به این مدل بگوید و سپس این مدل آنها را به زبان انگلیسی ترجمه کرده و به صورت گفتاری پخش نماید! به عبارت دیگر، AudioPaLM می تواند به عنوان یک مترجم گویا همیشه همراه افراد باشد و حتی به عنوان مترجم همزمان در کنفرانس های خبری یا همایش های بین المللی ایفای نقش کند!
این فناوری پتانسیل های بالقوه متعددی دارد و حتی می تواند زبان های مختلف را با هم ترکیب کرده و یک زبان جدیدی که تا به حال مشابه آن وجود نداشته خلق کند! مطمئناً در آینده از این مدل زبانی در ابزارهای متعددی استفاده خواهد شد و در مورد آن بیشتر خواهیم شنید!
منبع: gizmochina