半監(jiān)督學(xué)習(xí)
半監(jiān)督學(xué)習(xí)(SSL)是機(jī)器學(xué)習(xí)中的一種基本學(xué)習(xí)任務(wù)類型,介于監(jiān)督學(xué)習(xí)(SL)和無(wú)監(jiān)督學(xué)習(xí)(UL)之間。它結(jié)合了兩者的優(yōu)點(diǎn),在訓(xùn)練過(guò)程中同時(shí)使用有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù),以較低的訓(xùn)練成本實(shí)現(xiàn)目標(biāo)任務(wù)。SSL誕生于20世紀(jì)90年代,當(dāng)時(shí)它主要專注于圖論和概率模型。進(jìn)入21世紀(jì),隨著大數(shù)據(jù)和深度學(xué)習(xí)的興起,SSL在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域獲得了更多關(guān)注并取得了顯著進(jìn)展,尤其是在使用未標(biāo)記數(shù)據(jù)進(jìn)行模型訓(xùn)練方面。自2013年以來(lái),SSL的研究重點(diǎn)轉(zhuǎn)向提高模型的泛化能力和穩(wěn)定性,并開(kāi)始與深度學(xué)習(xí)相結(jié)合。2023年,基于半監(jiān)督學(xué)習(xí)算法的半監(jiān)督學(xué)習(xí)-多通道卷積神經(jīng)網(wǎng)絡(luò)(SSL-MCCNN)已應(yīng)用于煤油-柴油加氫裂化等復(fù)雜過(guò)程。
半監(jiān)督學(xué)習(xí)的目標(biāo)是使用有限的已標(biāo)記數(shù)據(jù)來(lái)提高模型的性能,并從未標(biāo)記數(shù)據(jù)中分類或提取特征。根據(jù)不同的使用場(chǎng)景,半監(jiān)督學(xué)習(xí)可以分為分類、回歸、聚類和降維四個(gè)任務(wù)。每個(gè)任務(wù)包括不同的算法模型,如模型生成、半監(jiān)督支持向量機(jī)、熵正則化和自訓(xùn)練。隨著時(shí)代的發(fā)展,SSL已應(yīng)用于計(jì)算機(jī)視覺(jué)、生物化學(xué)、醫(yī)療診斷、經(jīng)濟(jì)等復(fù)雜領(lǐng)域。
概述定義
半監(jiān)督學(xué)習(xí)通過(guò)使用少量的標(biāo)記數(shù)據(jù)來(lái)訓(xùn)練模型,在監(jiān)督學(xué)習(xí)的預(yù)測(cè)能力和無(wú)監(jiān)督學(xué)習(xí)的數(shù)據(jù)結(jié)構(gòu)探索能力之間架起了橋梁。它使用無(wú)監(jiān)督學(xué)習(xí)技術(shù)從無(wú)標(biāo)簽數(shù)據(jù)中提取有用信息,并將這些信息集成到有監(jiān)督學(xué)習(xí)模型中以增強(qiáng)模型性能。它不僅使用無(wú)監(jiān)督特征學(xué)習(xí)算法從所有樣本(包括已標(biāo)記樣本和未標(biāo)記樣本)中學(xué)習(xí)樣本的隱藏特征或隱藏變量表示,還使用有監(jiān)督分類器對(duì)未標(biāo)記樣本對(duì)應(yīng)的隱藏特征進(jìn)行分類,從而間接實(shí)現(xiàn)目標(biāo)任務(wù);在橋接過(guò)程中,半監(jiān)督學(xué)習(xí)被迭代優(yōu)化,并通過(guò)假設(shè)檢驗(yàn)和約束來(lái)保證學(xué)習(xí)過(guò)程的穩(wěn)定性。最后,半監(jiān)督學(xué)習(xí)實(shí)現(xiàn)了在標(biāo)記數(shù)據(jù)稀缺時(shí)提高學(xué)習(xí)效率和預(yù)測(cè)精度的目標(biāo)。
與之相比,監(jiān)督學(xué)習(xí)可以在大量標(biāo)注數(shù)據(jù)的情況下實(shí)現(xiàn)較高的準(zhǔn)確率,但成本較高;無(wú)監(jiān)督學(xué)習(xí)不依賴于標(biāo)記數(shù)據(jù),適用于數(shù)據(jù)探索和模式發(fā)現(xiàn),但在特定任務(wù)中的性能可能不如監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。
發(fā)展歷史
傳統(tǒng)算法出現(xiàn)
20世紀(jì)90年代,一些學(xué)者開(kāi)始嘗試使用未標(biāo)記樣本來(lái)提高分類器的性能。早期的半監(jiān)督學(xué)習(xí)是在傳統(tǒng)的監(jiān)督學(xué)習(xí)模型中探索未標(biāo)記樣本的價(jià)值。大多數(shù)學(xué)習(xí)算法是對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)算法的改進(jìn),并通過(guò)在監(jiān)督學(xué)習(xí)中添加未標(biāo)記樣本來(lái)實(shí)現(xiàn)。
從20世紀(jì)90年代到21世紀(jì)初,直接支持向量機(jī)(直推式SVM)和S3VM相繼誕生。S3VM的目標(biāo)函數(shù)在傳統(tǒng)支持向量機(jī)的基礎(chǔ)上增加了未標(biāo)記樣本的約束項(xiàng),以防止分類超平面穿過(guò)樣本密集區(qū)。直接求解非常困難,并且計(jì)算量隨著數(shù)據(jù)集的增加而急劇增加,這使得早期的算法很難在實(shí)際中應(yīng)用。與此同時(shí),最大似然分類器、貝葉斯分類器、多層感知器和支持向量機(jī)也相繼出現(xiàn),但半監(jiān)督支持向量機(jī)和協(xié)同訓(xùn)練仍有較大影響力。
多樣化成熟算法
由于SVM是一個(gè)非凸的離散組合優(yōu)化問(wèn)題,很難求解并獲得全局最優(yōu)解,并且對(duì)協(xié)同訓(xùn)練的假設(shè)苛刻,人們開(kāi)始嘗試其他方法進(jìn)行半監(jiān)督學(xué)習(xí)。在2000年之后的十年里,大量的半監(jiān)督學(xué)習(xí)算法開(kāi)始出現(xiàn)。這一時(shí)期的標(biāo)志是明確提出了“半監(jiān)督學(xué)習(xí)”的概念并形成了全新的算法體系,使半監(jiān)督學(xué)習(xí)逐漸形成了一種不同于傳統(tǒng)監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的相對(duì)獨(dú)立的學(xué)習(xí)方法。這一時(shí)期的半監(jiān)督學(xué)習(xí)主要包括混合模型、偽標(biāo)簽(自訓(xùn)練)、圖論半監(jiān)督學(xué)習(xí)、流形半監(jiān)督學(xué)習(xí)等。
現(xiàn)代半監(jiān)督算法研究
偽標(biāo)簽法是2013年前后提出的一種簡(jiǎn)單有效的方法。通過(guò)為未標(biāo)記數(shù)據(jù)生成偽標(biāo)簽并將其納入訓(xùn)練過(guò)程,利用未標(biāo)記數(shù)據(jù)提高了模型的性能。該方法為后續(xù)半監(jiān)督學(xué)習(xí)研究提供了新思路。隨后,梯形網(wǎng)絡(luò)的推出標(biāo)志著深度學(xué)習(xí)技術(shù)與半監(jiān)督學(xué)習(xí)相結(jié)合的趨勢(shì)。梯形網(wǎng)絡(luò)不僅可以學(xué)習(xí)數(shù)據(jù)的表面特征,還可以通過(guò)結(jié)合生成模型和判別模型來(lái)捕獲數(shù)據(jù)的深層結(jié)構(gòu),這使得模型即使在有限的標(biāo)記數(shù)據(jù)下也表現(xiàn)出良好的泛化能力。
2016年,時(shí)態(tài)集成方法通過(guò)在訓(xùn)練過(guò)程中引入時(shí)態(tài)一致性約束來(lái)增強(qiáng)模型的泛化能力。該方法通過(guò)計(jì)算模型參數(shù)的指數(shù)移動(dòng)平均值并鼓勵(lì)當(dāng)前模型輸出與該平均值一致來(lái)減少訓(xùn)練過(guò)程中的噪聲。同時(shí),Mean Teacher方法進(jìn)一步促進(jìn)了SSL技術(shù)的發(fā)展。該方法結(jié)合了偽標(biāo)簽和臨時(shí)集成的優(yōu)點(diǎn),通過(guò)使用模型參數(shù)的指數(shù)移動(dòng)平均值作為目標(biāo)網(wǎng)絡(luò)來(lái)提高半監(jiān)督學(xué)習(xí)的穩(wěn)定性和性能。
半監(jiān)督深度學(xué)習(xí)
半監(jiān)督深度學(xué)習(xí)的發(fā)展是對(duì)深度學(xué)習(xí)領(lǐng)域中標(biāo)記數(shù)據(jù)依賴性的回應(yīng)。隨著深度學(xué)習(xí)在圖像識(shí)別、自然語(yǔ)言處理和語(yǔ)音識(shí)別等領(lǐng)域取得的顯著成就,研究人員開(kāi)始探索如何利用大量未標(biāo)記數(shù)據(jù)來(lái)輔助訓(xùn)練深度模型。Weston等人首次嘗試將圖論中的拉普拉斯正則化項(xiàng)引入神經(jīng)網(wǎng)絡(luò),為多層神經(jīng)網(wǎng)絡(luò)的半監(jiān)督訓(xùn)練奠定了基礎(chǔ)。隨后,研究人員提出了多種半監(jiān)督深度學(xué)習(xí)算法,包括無(wú)監(jiān)督特征學(xué)習(xí)、正則化約束和生成對(duì)抗網(wǎng)絡(luò)(GAN)。這些方法的發(fā)展不僅提高了未標(biāo)記數(shù)據(jù)的利用效率,而且增強(qiáng)了模型的泛化能力。
半監(jiān)督深度學(xué)習(xí)的研究進(jìn)展,特別是在處理標(biāo)記數(shù)據(jù)稀缺的實(shí)際問(wèn)題時(shí),顯示出巨大的潛力和應(yīng)用價(jià)值。隨著深度學(xué)習(xí)技術(shù)的不斷進(jìn)步,預(yù)計(jì)未來(lái)半監(jiān)督深度學(xué)習(xí)方法將在理論和應(yīng)用兩方面取得更多突破。2023年,中海油惠州石化有限公司利用半監(jiān)督學(xué)習(xí)算法生成虛擬數(shù)據(jù)樣本集,通過(guò)數(shù)據(jù)增強(qiáng)提升模型提取豐富的特征信息。提出的半監(jiān)督學(xué)習(xí)-多通道卷積神經(jīng)網(wǎng)絡(luò)(SSL-MCCNN)還用于加氫裂化等復(fù)雜工藝過(guò)程,可以有效提取過(guò)程中的時(shí)間和空間特征,提高模型的預(yù)測(cè)性能。
作用意義
認(rèn)知心理學(xué)的啟示:半監(jiān)督學(xué)習(xí)為理解人類學(xué)習(xí)過(guò)程提供了見(jiàn)解。在學(xué)習(xí)過(guò)程中,人類經(jīng)常使用無(wú)標(biāo)記信息來(lái)提高學(xué)習(xí)效率。半監(jiān)督學(xué)習(xí)模型可以模擬這一過(guò)程,從而更好地理解人類認(rèn)知機(jī)器。
減少對(duì)標(biāo)簽數(shù)據(jù)的依賴:在某些情況下,可能很難獲得高質(zhì)量的標(biāo)簽數(shù)據(jù),例如在醫(yī)學(xué)圖像分析或文本分類中。半監(jiān)督學(xué)習(xí)可以減少對(duì)大量標(biāo)記數(shù)據(jù)的需求,從而減少數(shù)據(jù)準(zhǔn)備的成本和時(shí)間。
理論價(jià)值:半監(jiān)督學(xué)習(xí)的研究推動(dòng)了機(jī)器學(xué)習(xí)理論的發(fā)展,特別是在探索如何從有限的已標(biāo)記數(shù)據(jù)中進(jìn)行有效學(xué)習(xí)以及如何利用未標(biāo)記數(shù)據(jù)的結(jié)構(gòu)信息方面。這為開(kāi)發(fā)新的學(xué)習(xí)算法和理論框架提供了動(dòng)力。
學(xué)習(xí)策略
協(xié)作培訓(xùn):在實(shí)際應(yīng)用中,獲取大量的標(biāo)注數(shù)據(jù)往往是昂貴或不可行的。協(xié)同訓(xùn)練利用有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù)的互補(bǔ)優(yōu)勢(shì),通過(guò)迭代過(guò)程來(lái)提高模型的預(yù)測(cè)能力:首先,用有標(biāo)簽數(shù)據(jù)訓(xùn)練一個(gè)初始模型,并由該模型為無(wú)標(biāo)簽數(shù)據(jù)分配標(biāo)簽,從而創(chuàng)建一個(gè)偽標(biāo)簽數(shù)據(jù)集,然后將該偽標(biāo)簽數(shù)據(jù)集與原始有標(biāo)簽數(shù)據(jù)集合并以訓(xùn)練新模型并進(jìn)行迭代,每次迭代都可能產(chǎn)生更準(zhǔn)確的偽標(biāo)簽數(shù)據(jù),從而逐步提高模型的性能。
自我訓(xùn)練:自訓(xùn)練是半監(jiān)督學(xué)習(xí)中的一種迭代方法。在開(kāi)始時(shí),它使用少量的標(biāo)記數(shù)據(jù)來(lái)訓(xùn)練一個(gè)初始分類器。然后,使用該分類器預(yù)測(cè)未標(biāo)記數(shù)據(jù)的標(biāo)簽,這些預(yù)測(cè)稱為偽標(biāo)簽。在隨后的迭代中,這些偽標(biāo)簽被包含在訓(xùn)練集中以更新和改進(jìn)分類器。重復(fù)該過(guò)程,直到滿足某個(gè)停止標(biāo)準(zhǔn),例如性能不再提高或達(dá)到預(yù)定的迭代次數(shù)。
多視角學(xué)習(xí):半監(jiān)督多視圖深度區(qū)分表示學(xué)習(xí)(SMDDRL)旨在學(xué)習(xí)多視圖數(shù)據(jù)中的表達(dá)性特征表示。核心原理是使用兩個(gè)網(wǎng)絡(luò)來(lái)投影每個(gè)視圖的數(shù)據(jù),一個(gè)用于提取共享信息,另一個(gè)用于提取特定信息。然后,將所有視圖的共享信息和特定信息組合起來(lái)表示樣本,以同時(shí)學(xué)習(xí)多視圖數(shù)據(jù)的共享信息和特定信息。該方法可以充分利用多視圖數(shù)據(jù)的一致性和互補(bǔ)性,減少學(xué)習(xí)表示中的冗余。
主要應(yīng)用
半監(jiān)督學(xué)習(xí)已經(jīng)廣泛應(yīng)用于各個(gè)行業(yè),以解決現(xiàn)實(shí)生活中遇到的各種問(wèn)題。主要應(yīng)用領(lǐng)域有:圖像識(shí)別、圖像分類、信息檢索、生物信息學(xué)、經(jīng)濟(jì)金融等。
生物學(xué)、化學(xué)信息學(xué):在化學(xué)和生物學(xué)領(lǐng)域的應(yīng)用減少了相關(guān)科研團(tuán)體投入的時(shí)間和資金。在生物信息學(xué)中,半監(jiān)督學(xué)習(xí)可用于構(gòu)建軟傳感器以監(jiān)測(cè)乙醇生產(chǎn)過(guò)程中乙醇濃度的變化,如病毒毒性預(yù)測(cè)和DNA結(jié)構(gòu)重建。在化學(xué)信息學(xué)中,它不僅僅限于預(yù)測(cè)化學(xué)藥物的毒性,還可以預(yù)測(cè)藥物對(duì)某些疾病癥狀的治療效果,同時(shí)可以根據(jù)半監(jiān)督學(xué)習(xí)分析藥物結(jié)構(gòu)的圖像。
圖像和語(yǔ)音分析:圖像和音頻文件通常沒(méi)有標(biāo)簽,給它們加標(biāo)簽是一項(xiàng)昂貴而艱巨的任務(wù)。在人類專業(yè)知識(shí)的幫助下標(biāo)記一個(gè)小數(shù)據(jù)集。一旦訓(xùn)練了數(shù)據(jù),就實(shí)施SSL來(lái)標(biāo)記剩余的音頻和圖像文件,從而改進(jìn)圖像和語(yǔ)音分析模型。
網(wǎng)絡(luò)內(nèi)容分類:互聯(lián)網(wǎng)上有數(shù)十億個(gè)網(wǎng)站,它們有不同的分類內(nèi)容。為了使網(wǎng)絡(luò)用戶能夠獲得這些信息,需要一個(gè)龐大的人力資源團(tuán)隊(duì)來(lái)組織和分類網(wǎng)頁(yè)上的內(nèi)容。半監(jiān)督學(xué)習(xí)可以通過(guò)標(biāo)記內(nèi)容并對(duì)其進(jìn)行分類來(lái)提供幫助,從而改善用戶體驗(yàn)。包括百度和谷歌在內(nèi)的許多搜索引擎在其搜索結(jié)果中使用半監(jiān)督學(xué)習(xí)模型對(duì)網(wǎng)頁(yè)進(jìn)行標(biāo)記和排名。
經(jīng)濟(jì)和金融:SSL在經(jīng)濟(jì)和金融領(lǐng)域的應(yīng)用主要體現(xiàn)在信用評(píng)估、欺詐檢測(cè)、市場(chǎng)預(yù)測(cè)和風(fēng)險(xiǎn)管理等方面。它可以結(jié)合借款人有限的標(biāo)記數(shù)據(jù)和大量未標(biāo)記的交易記錄來(lái)提高信用風(fēng)險(xiǎn)預(yù)測(cè)的準(zhǔn)確性。而且,SSL可以識(shí)別異常交易模式,幫助金融機(jī)構(gòu)及時(shí)發(fā)現(xiàn)并防止?jié)撛诘钠墼p行為。此外,通過(guò)分析股價(jià)和成交量等未標(biāo)記數(shù)據(jù),半監(jiān)督學(xué)習(xí)有助于提高對(duì)市場(chǎng)趨勢(shì)的預(yù)測(cè)能力。半監(jiān)督學(xué)習(xí)通過(guò)有效利用未標(biāo)記數(shù)據(jù)增強(qiáng)了模型的泛化能力,對(duì)于提高經(jīng)濟(jì)和金融行業(yè)的質(zhì)量和效率具有重要意義。