2024香港資訊及通訊科技獎設有八個類別的獎項。每個類別均設有一個大獎,而最終評審委員會會再從八個大獎中甄選出「全年大獎」。為了激發更多人工智能的創新應用,每個獎項類別都會增設一個嶄新獎項:「最佳人工智能應用」獎,以彰顯並表揚那些在相關範疇應用人工智能方面取得傑出成就的參賽作品。
教城獲政府資訊科技總監辦公室正式委任為 2 0 2 4香港資訊及通訊科技獎:學生創新獎的籌辦機構。學生創新獎涵蓋小學、初中、高中、大專及高等教育四個組別。通過採用創新策略和最佳作業方式,教城期望推動獎項的創新,營造一個鼓勵學生突破界限、跳出框架的環境,最終推進ICT行業的發展。
作品一:以聲知形-基於人工智能的口述影像生產輔助工具
學生創新(大專及高等教育)金獎
香港資訊科技學院(曾順天 / 何樂言 / 何卓軒 / 陳嘉穎)
以聲知形是一款基於人工智能的口述影像生產輔助工具,旨在簡化口述影像的製作過程。以聲知形基於人工智能的影片分析、腳本創作輔助和文本轉語音轉換功能,利用在多樣化數據集上訓練的機器學習模型,保證高質量的口述影像描述。此外,以聲知形集成了雲端基礎設施,以實現可擴展和高效的處理,並提供用戶友好的移動和網絡應用界面,支持無縫的影片上傳和腳本編輯。項目還融合了無障礙功能,包括語音控制並與iOS設備上的Siri兼容,提高了包容性和易用性。
以聲知形的主要功能包括:
- AI 視訊無障礙評估:可評估視訊內容的無障礙程度,並檢查是否有暴力或露骨內容等敏感資訊。
- AI 電影場景分析:自動分解和組織場景訊息(空間佈景、人物表情、動作等),確保快速準確地提供結果。
- AI 腳本撰寫輔助:協助口述者生成精確有效的語音說明腳本,加快脚步編寫過程以提升效率。
- AI語音影片生成:結合語音和圖像技術,支援多種語言和語音風格,確保旁白清晰自然。此外,該平台還包括語音重疊檢查,以確保背景聲音和語音描述不會相互干擾。
全球有2.85億失明或視障人士,單在香港就有20萬視障人士,對口述影像服務有龐大需求。以聲知形令使用者能輕鬆上傳、播放及編輯影片與腳本,提升視障人士的觀賞體驗,讓視障人士也能存取和欣賞視覺內容,促進社會包容性和資訊的平等存取,讓每個人,不論其視覺能力如何,都能享受並參與豐富的視覺媒體世界。
作品二:基於人工智能的即時手語翻譯應用程式 -手語通
學生創新(大專及高等教育)銀獎
香港科技大學(李焯森 / 蘇顥萌 / 黃皓亮)
世界衛生組織確認全球超過5%的人口需要聽力障礙復健。在香港,每 3,000 名聾啞人士才有一名手語翻譯員,對即時手語翻譯服務的需求相當殷切。
HandsTalk是一個透過AI驅動的即時手語翻譯的手機通訊應用程式,旨在消除手語使用人士的溝通障礙,讓手語使用者無需使用任何特殊裝置,也可以在沒有中介的情況下直接溝通。這個應用程式利用先進的AI模型、電腦視覺技術和生成式AI,無縫地將手語翻譯成英語。用戶可以在即時場景、視頻通話等情境下使用。
針對手語翻譯,HandsTalk設計了一個新穎的句子完成功能,涉及精確的單字選擇,以協助編寫單字和短語清單。此應用也能辨認不同的指示手勢,例如「問號」、「空格」和「刪除」,增強生成句子的靈活性。之後,生成式AI會從翻譯的單字和短語創造出連貫的句子。這個過程通常不超過 2 秒鐘,相當於傳送文字訊息或說話。此方法可有效解決即時手語翻譯中的各種挑戰,例如句子翻譯錯誤和無法預測的使用者動作,準確傳達出用戶預期的含義,讓用戶能夠自信地溝通,彌合手語和口語之間的鴻溝。
HandsTalk的手語翻譯可面對面即時使用,也可在視訊通話時使用。
- 即時翻譯:使用即時翻譯時,將攝影機面向手語使用者以進行翻譯。
- 視訊通話翻譯:視訊通話時,手語會翻譯成文字,語音也會轉換成文字。這可讓手語使用者和非手語使用者在同一頻道中無縫溝通,沒有任何障礙。
未來,只要有高品質的資料集,此方法可擴展至任何類型和語言的手語。除此之外,使用者也可以在應用程式中存取手語影片和圖片,以進行示範和學習,並使用手語翻譯功能評估自己的進度。

