信息來源:企業(yè)網(wǎng)
美國國務(wù)院每年對20億封電子郵件進(jìn)行分類是一項(xiàng)艱巨的任務(wù)。目前,其已經(jīng)看到了機(jī)器學(xué)習(xí)和自動化的好處。
美國安全部門的協(xié)調(diào)失敗已經(jīng)在諸如9/11襲擊事件之后被廣泛報(bào)道。美國安全部門工作人員可能會獲得防止攻擊所需的知識,但是缺乏協(xié)調(diào),導(dǎo)致這種情況沒有應(yīng)該擁有的人才。結(jié)果,發(fā)生了本可預(yù)防的暴行。
最近一篇文章探討了如何使用人工智能來改善美國國務(wù)院的內(nèi)部流程。該部門這項(xiàng)工作特別感興趣的是,如何更好地正確分類每年在內(nèi)部生成的大量電子郵件。
進(jìn)行分類
該部門被認(rèn)為每年產(chǎn)生約20億封電子郵件,其中許多包含分類信息。然而,了解(并因此正確地標(biāo)記)秘需要分類的內(nèi)容是一項(xiàng)艱巨的工作。
研究人員使用機(jī)器學(xué)習(xí)來改善這一點(diǎn)。他們開始通過訓(xùn)練他們的算法從上世紀(jì)70年代美國國務(wù)院和海外外交官之間的通訊的大約一百萬封郵件分類。每封郵件以前都標(biāo)記為秘密,機(jī)密,有限的官方使用或未分類。
在訓(xùn)練了系統(tǒng)之后,他們設(shè)置這個(gè)系統(tǒng)工作,以查看它是否可以正確地分類文檔,特別是它是否可以正確地標(biāo)記內(nèi)容應(yīng)該是分類狀態(tài)。
該算法在這樣做時(shí)證明是特別有效的,其在分類內(nèi)容的成功率為90%,錯(cuò)誤率僅為11%。更重要的是,團(tuán)隊(duì)認(rèn)為他們可以用更好的數(shù)據(jù)做更好的工作。
什么使這些內(nèi)容進(jìn)行分類?
除了對內(nèi)容進(jìn)行分類的能力之外,這項(xiàng)工作還揭示了一個(gè)有助于其安全狀態(tài)的信息方面的新亮點(diǎn)。例如,出現(xiàn)了某些單詞的頻率是整個(gè)消息的安全狀態(tài)的最佳指示符,而發(fā)送者和接收者更不可靠。
有趣的是,機(jī)器分配的一些錯(cuò)誤標(biāo)簽實(shí)際上被證明是人為的錯(cuò)誤。換句話說,他們應(yīng)該被分類,但人類卻標(biāo)記了它們。
這表明,機(jī)器可以在確保內(nèi)容被正確分類方面發(fā)揮越來越重要的作用,但是為了使其有效,人們需要有良好的質(zhì)量數(shù)據(jù)來訓(xùn)練機(jī)器。
此外,該工作還具有揭示數(shù)據(jù)共享中的模式的潛力,以及實(shí)際上在人們的安全服務(wù)中的數(shù)據(jù)移除,其本身可能具有安全影響。畢竟,分類內(nèi)容有丟失的習(xí)慣。
雖然這無疑是有趣的,但也很清楚,這樣的過程是一個(gè)非常早期的階段。然而,鑒于美國國務(wù)院每年花費(fèi)數(shù)十億美元對文件進(jìn)行分類,這項(xiàng)工作有希望值得進(jìn)一步發(fā)展。