2
技術(shù)人士:網(wǎng)絡(luò)爬蟲抓取評(píng)論很簡(jiǎn)單
一位互聯(lián)網(wǎng)從業(yè)者向《國(guó)際金融報(bào)》記者表示,簡(jiǎn)單來(lái)講,此次事件,就是利用一些技術(shù)手段,用機(jī)器代替人,進(jìn)行重復(fù)性勞動(dòng),類似新聞聚合類的網(wǎng)站、搜索引擎、論壇廣告等都會(huì)使用爬蟲技術(shù)。
他表示,項(xiàng)目在冷啟動(dòng)的時(shí)候會(huì)用爬蟲數(shù)據(jù),自己網(wǎng)站活躍度不高,UGC不夠,只能每天去爬點(diǎn)數(shù)據(jù)過來(lái)。
一位后端程序員在瀏覽了大眾點(diǎn)評(píng)和攜程之后稱,網(wǎng)絡(luò)爬蟲想要獲取評(píng)論數(shù)據(jù)很簡(jiǎn)單,這兩個(gè)網(wǎng)站本身的爬取難度不高,很多開源框架在網(wǎng)上有很清楚的教程,成本很低,甚至不需要學(xué)會(huì)爬蟲的開發(fā)過程。
該技術(shù)人員向《國(guó)際金融報(bào)》記者介紹了具體的爬取過程——網(wǎng)絡(luò)爬蟲先設(shè)置好目標(biāo)網(wǎng)站的url,這些頁(yè)面的布局都是有固定格式的,爬蟲工作時(shí),按照事先設(shè)置好的爬取規(guī)則,抓取網(wǎng)頁(yè)上的特定元素,元素內(nèi)就包含著目標(biāo)數(shù)據(jù)。
關(guān)于馬蜂窩用戶評(píng)論中出現(xiàn)的亂碼、廣告等內(nèi)容,該技術(shù)人士稱,這是因?yàn)榫W(wǎng)站識(shí)別出來(lái)是爬蟲了,就返回一些設(shè)置好的信息給爬蟲,爬蟲誤以為是真實(shí)內(nèi)容。
他還表示,爬蟲和反爬蟲永遠(yuǎn)在更新,但是爬蟲還是會(huì)更先進(jìn)一些,更快地產(chǎn)生應(yīng)對(duì)策略,有些爬蟲還能把自己偽裝成百度,對(duì)其他網(wǎng)站進(jìn)行訪問,這樣能更安全地避開反爬蟲策略。
3
內(nèi)容搬運(yùn)工層出不窮
從上個(gè)世紀(jì)90年代起,互聯(lián)網(wǎng)就面臨著信息爆炸的問題,從這個(gè)角度看,在互聯(lián)網(wǎng)時(shí)代,最不缺的就是內(nèi)容,但是正因?yàn)樾畔⒎簽E,原創(chuàng)內(nèi)容、優(yōu)質(zhì)內(nèi)容才是這個(gè)時(shí)代所稀缺的,原創(chuàng)內(nèi)容生產(chǎn)者也成為各大內(nèi)容平臺(tái)所爭(zhēng)搶的資源。
今年7月,小紅書接到大量用戶反映稱,大眾點(diǎn)評(píng)疑冒用小紅書用戶名稱賬號(hào),批量建立虛假賬號(hào),抄襲及搬運(yùn)用戶在小紅書發(fā)布的原創(chuàng)筆記。大眾點(diǎn)評(píng)隨后稱是新上線試運(yùn)營(yíng)的推薦欄目在未經(jīng)授權(quán)的情況下對(duì)相關(guān)內(nèi)容進(jìn)行了違規(guī)轉(zhuǎn)載。
不僅是文字和圖片內(nèi)容,視頻內(nèi)容也逃不過被抄襲和搬運(yùn)。
今年5月,抖音海外版Tik Tok第一季度登頂蘋果商店下載全球第一,引發(fā)張一鳴和馬化騰在朋友圈掐架,張一鳴在評(píng)論區(qū)中的一句“微信的借口封殺,微視的抄襲搬運(yùn)擋不住抖音的步伐”似乎在暗指微視搬運(yùn)抖音內(nèi)容。
隨著短視頻行業(yè)的火爆,記者在網(wǎng)上搜索“搬運(yùn)短視頻”時(shí)發(fā)現(xiàn)了大量關(guān)于如何搬運(yùn)視頻、如何去水印的教程。
抄襲、搬運(yùn)內(nèi)容事件頻發(fā),平臺(tái)、用戶維權(quán)也有一定的難度。關(guān)于此次馬蜂窩評(píng)論內(nèi)容疑似搬運(yùn)事件,北京康達(dá)律師事務(wù)所韓驍律師向記者表示,根據(jù)《著作權(quán)法》,合理使用必須具有一定的正當(dāng)目的或特殊的情形,如果馬蜂窩涉嫌抄襲用戶評(píng)論,其具有一定的營(yíng)利目的,一般不應(yīng)被認(rèn)為是合理使用。
但是從事件本身來(lái)看,馬蜂窩是否構(gòu)成侵犯著作權(quán)的行為,還需要充足的證據(jù)證明。韓驍律師稱,目前國(guó)際上普遍認(rèn)可的判斷原則是實(shí)質(zhì)性相似+接觸原則,即如果被控侵權(quán)作品的作者曾接觸過原告受著作權(quán)保護(hù)的作品,同時(shí)該被控侵權(quán)作品又與原告的作品存在內(nèi)容上的實(shí)質(zhì)性相似,除非有合理使用等法定抗辯理由,否則即可認(rèn)定其為侵權(quán)作品。因此不論是判斷馬蜂窩是否構(gòu)成侵權(quán),還是類似內(nèi)容平臺(tái)的抄襲,都需要對(duì)侵權(quán)行為進(jìn)行舉證,從而判斷是否構(gòu)成侵權(quán)。
來(lái)源:《國(guó)際金融報(bào)》 共2頁(yè) 上一頁(yè) [1] [2] 搜索更多: 馬蜂窩 |