如何避免被搜索引擎误会“复制网页”-成都火狐狸科技有限公司

据新竞争力观察，百度、雅虎等搜索引擎均对复制网页的情况严肃打击，搜索引擎在判定原始网页与复制网页上也有不少漏洞。搜索引擎专家建议，为了避免被搜索引擎以为复制网页，假如一个html网页同时拥有一个 PDF版本或设置了打印友好页，最好用robots.txt文件阻止搜索引擎索引重复内容文件；假如你重新设计了网站，文件结构发生了改变，则通过301 重定向将旧网页指向新的网页。同样，假如网站换了新的域名，要把旧域名下的网页文件删除，也使用301重定向把旧域名指向新的域名。

尽管yahoo和google都表示他们能够对原始网页和复制页面进行明确判定，但专家们以为现实情况是假如某个内容率先泛起在一个普通网站上，随后被“权势巨子网站”所转载，Google往往认定权势巨子网站的内容是原始内容站，而真正的原始站点被以为复制网页。不外Google通常情况下不会惩罚复制网页，除非这个网站太过极端，好比做了N多的镜像网站。

Yahoo的代表Rajat Mukherjee说yahoo不会等闲对复制网页降级，而是尽力判定谁是原始内容的网页。Google代表Matt Cutts说，老实的网站治理员经常担心他们是否不小心触犯了复制网页的禁忌，但他们大可不必担心。Google也是尽力发现复制网页中最原始的那个版本。Google不会对网页的“打印友好”版进行惩罚，同时他还说也不必担心统一顶级域名下不同后缀的网站拥有同样内容，如123.com或 123.net。

在这次搜索引擎战略大会上，两大搜索引擎的代表也就复制网页题目发表了他们的看法。

解决复制网页的办法除了简朴地不要复制相同内容，还可以在不得已需要复制的网页上通过robots.txt文件让搜索引擎不要索引该页面，或使用301重定向将复制的网页转化成“真实”的网页。

Jake Baillie：良多网站为了利便用户对每篇文章都有一个“打印友好页”的相同内容页面，还有良多产品先容页面只有产品图片没有文字先容的内容，都有可能被搜索引擎视为复制网页。

Shari Thurow：搜索引擎对于复制网页的识别和判定也做了大量努力，如搜索引擎在比较两个网页时会排除一些干扰因素如导航区域，headers等，直接分析正文内容部门，其次搜索引擎还会通过分析网页内部和外部链接以判定是否每个站点的链接都不同。

Anne Kennedy：复制网页的情况包括不同URL下拥有同样的网站内容，或统一首页下有同样的内容，如index.htm, index.html等后缀下都是同样的内容。

在本次纽约举行的搜索引擎战略大会SES上，良多与会者就复制网页的题目进行了讨论。以下是各位搜索引擎专家的见解：

那么，除了部门作弊者为了欺骗搜索引擎而故意复制网页的情况之外，还有哪些情况是网站在无知的情况下被搜索引擎认定为复制网页？

Google：请不要创建包含大量重复内容的多个网页、子域或域……不要采用如联属计划（affliate programs) 这类原创内容很少或几乎没有原创内容的"饼干模子 (cookie cutter)"方式。

百度：假如你的站点上的网页，大量都是复制自互联网上的高度重复性的内容，那么，你的站点也有可能被百度丢弃。

“复制网页”是被搜索引擎极其反感的搜索引擎作弊手段之一。百度和google均对复制网页的做法有明确的说明：

提醒：如果文章内容有侵权或涉及您的隐私，请来信告知，我们在确认后会纠正或者删除。

N

N

E

E

W

W

S

S