AI不但可以在圍棋盤上打敗人類,還可以……智能識別小黃文。
5 月 23 日到 5 月 26 日,在中國棋手們努力迎戰阿爾法狗的同時,日本也舉辦了第 31 屆全國人工智能大會。在這次大會上,立命館大學情報理工學科的三名研究人員發布了一篇關于AI識別小黃文的論文。
論文的主要內容是,如何利用AI來識別那些“使用隱喻手法”來表示“少兒不宜”的文章。也就是說,即使作者只是在小說里遮遮掩掩地進行了某些暗示,也會被AI給揪出來。
研究人員為什么要做這種奇怪的研究我們不得而知,但使用的研究樣本對同人文化、腐文化非常不友好,在日本國內也引發了激烈的爭論。

論文截圖
爭論的原因之一是,這篇對全年齡段讀者公開頒發的論文,引用了網站分級為R18 的小說內容,并且還沒有提前取得網站和小說作者的同意。
論文使用了pixiv網站上, 2016 年十月R18 分類下人氣最高的 10 篇BL同人小說。論文將這些小說作為研究樣本,在“小說里有不健康內容”的前提下,來說明“AI如何識別出通過隱喻手段表達的不健康內容”。
為了說明AI的識別方法,,論文里引用了不少“少兒不宜”的內容。論文作者在引用前沒有取得作者或pixiv網站的授權,還私自公布了小說的標題問題、作者和URL地址。
pixiv是一家日本同人插畫和小說網站,對內容有嚴格的分級制度,它有一個中文名字“插畫交流網站”(并且還支持新浪微博登陸)。pixiv上分類為R18 的內容只有年齡設置在 18 歲以上的注冊用戶才能查看。

這篇論文公開頒發后,所有年齡段的人都可以看到被引用的少兒不宜內容,也都可以通過論文中的URL地址找到被引用的R18 小說。一些小說作者只能將被引用的小說刪除或設成不公開狀態。

論文中給出的小說作者和URL地址
除了會被小伴侶看見,在未經網站和作者允許的情況下,使用這些小說作為研究對象在日本還存在版權問題。
被引用的小說在pixiv網站上只有注冊用戶能夠查看,而且分歧錯誤 18 歲以下用戶公開。這樣的內容是否可以被判定為“網絡公開內容”加以引用和公開頒發,在日本法律界還沒有定論。
日本網友們的另一個爭論點是,把這些有分級的小說劃為不健康內容真的合適嗎?
被引用的小說在pixiv網站已經被分級在R18 類型下,未成年人不能閱讀。研究中依然將這些小說歸為“內容不健康文章”,還公布了小說作者和URL地址,一些日本網友認為這是對小說作者的誹謗,有違研究倫理。
這篇論文 5 月 24 日在大會上頒發, 5 月 25 日,pixiv就公開體現:
我們已經要求頒發論文者所在學校對這件事加以調查和解決,也希望大家以后能夠繼續放心使用P站。

機器的日文翻譯大家隨便看看就好
學校方面則體現正在著手調查這件事。這篇論文在此之前已經在日本人工智能學會的網站上發布,不過目前已經被隱藏。論文作者之一、立命館大學助理教授山西良典在接受日本媒體采訪時體現,論文確實存在一些問題,之后是否會繼續頒發還有待研究。
雖然這項利用AI判斷隱晦小黃文的研究存在問題,但用AI來識別網絡內容的研究標的目的實在讓人小心翼翼。如果將來AI真的開始監督網上發布的內容,我們在網上說話的時候是不是要更小聲了呢?

感到背后的寒意了嗎?Big AI is watching you.