日本一级不卡一二三区,日本一区二区三区视频,日本一道本一二三区视频

  1. <th id="bkwdt"><legend id="bkwdt"></legend></th>
    <th id="bkwdt"><strike id="bkwdt"></strike></th>

    <dl id="bkwdt"></dl>
    <button id="bkwdt"></button>
    帝國網絡服務有限公司專注中小企業全網營銷、SEO推廣需求,解決品牌曝光產品推廣難題,
    終會贏得SEM&SEO外包企業選擇與信任。
    當前位置:首頁 > 谷歌優化 > 谷歌SEO>Google是怎么判定原創文章與偽原創

    Google是怎么判定原創文章與偽原創

    來源:SEO官網發表時間:2013-07-03瀏覽:10
    下一篇:Google Analytics常用過濾器與正則表達式

      我們在做站群的時候,避免不了要大規模的生成大量的內容,一般都是靠采集+偽原創,Google對于偽原創的判別要比百度來的準的多,根據我掌握的數據,我們來看下Google是怎么判定原創與偽原創的。

      首先我們要先掌握幾個概念:

      1.相似度

      相似度是搜索引擎去重用的最多的算法,用的比較多的一種是TF/IDF算法,這個也是計算相關性的算法,TF-IDF的主要意思是說:如果某個詞或短語在一篇文章中出現的頻率高,并且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來分類。

      TF詞頻(Term Frequency)指的是某一個給定的詞語在該文件中出現的次數。

      IDF反文檔頻率(Inverse Document Frequency)指的是:如果包含詞條的文檔越少,IDF越大,則說明詞條具有很好的類別區分能力。

      當一篇文章根據TF/IDF進行計算后,形成了一個多維的向量,這個向量就是這篇文章的內容特征向量,當兩篇文章的特征向量趨于一致的時候,我們認為這兩篇文章的內容接近,如果一致則說明是重復的。

      關于TF/IDF與向量算法的詳細請參看Google黑板報的數學之美12-余弦定理與新聞分類

      2.數據指紋

      當搜索引擎通過相似度把文章收集起來后,要判別一下是否是重復文章,經常用的就是數據指紋,數據指紋有很多種算法,常見的比如講文章的標點符號提出,進行對比,你很難想象有兩篇不同的文章,標點符合是一致的。還有對向量進行對比,也就是TF詞頻(關鍵詞密度)等等來判斷。

      這時候你可以想象出,現在很多偽原創工具,只是把關鍵詞進行了替換,你想關鍵詞替換后,標點符號指紋是不變的,甚至連TF詞頻都不變。還有對文章進行段落的重拍,這個的確是打亂了標點符號,但是向量和詞頻問題依然存在。那么這樣的偽原創工具有沒有價值你就可想而知了。(可能對于百度還是有作用的)

      3.代碼噪音

      前面說的這些,都是基于一個條件的,就是搜索引擎要知道文章是什么,因為每個網站的模板都不同,代碼也不同,各種信息混合在一起,如果能找到正文就是搜索引擎第一要處理的。

      一般Google都會通過對代碼的布局和噪音比例進行區分,哪些是導航,哪些是正文,并可以對一些典型的代碼進行忽略。那么我們在做模板的時候,就要注意了。這里有個糾結點,就是整頁面降噪,方便搜索引擎進行正文的確認,但是正文區要適當的加燥,增加搜索引擎識別重復性的難度。
     

    日本一级不卡一二三区,日本一区二区三区视频,日本一道本一二三区视频