防止别人在 WordPress 中抓取博客内容的初学者指南
您是否正在寻找一种方法来防止垃圾邮件发送者和诈骗者使用内容抓取工具窃取您的 WordPress 博客文章?
作为网站所有者,看到有人在未经许可的情况下窃取您的内容,将其货币化,在 Google 中的排名超过您,并窃取您的观众,这是非常令人沮丧的。
在本文中,我们将介绍什么是博客内容抓取,如何减少和防止内容抓取,甚至如何利用内容抓取来为自己谋取利益。
什么是 WordPress 中的博客内容抓取?
博客内容抓取是指从多个来源获取内容并在另一个站点上重新发布。通常,这是通过您博客的 RSS 提要自动完成的。
不幸的是,以这种方式窃取您的WordPress 博客内容非常容易且非常普遍。如果它发生在你身上,那么你就会明白它会带来多大的压力和沮丧。
有时,您的内容将被简单地复制并直接粘贴到另一个网站,包括您的格式、图像、视频等。
其他时候,您的内容将在未经您许可的情况下重新发布,并附上署名和返回您网站的链接。虽然这可以帮助您的 SEO,但您可能希望仅将原始内容托管在您的网站上。
为什么内容抓取器会窃取内容?
我们的一些用户问我们为什么爬虫正在窃取内容。通常,内容盗窃的主要动机是从您的辛勤工作中获利:
- 联盟佣金:不诚实的联盟营销商可能会使用您的内容通过搜索引擎为他们的网站带来流量,以推广他们的利基产品。
- 潜在客户生成:律师和房地产经纪人可能会花钱请人添加内容并在他们的社区中获得权威,却没有意识到它正在从其他来源中获取。
- 广告收入:博客所有者可能会抓取内容以“为了社区的利益”在特定的利基市场创建知识中心,然后在网站上贴上广告。
是否有可能完全防止内容抓取?
在本文中,我们将向您展示一些可以用来减少和防止内容抓取的步骤。但不幸的是,没有办法完全阻止一个坚定的小偷。
这就是为什么我们在本文的最后一节介绍了如何利用内容抓取工具。虽然您不能总是阻止小偷,但您可以通过他们从您那里偷走的内容获得一些流量和收入。
当您发现有人抓取了您的内容时,您应该怎么做?
由于不可能完全阻止爬虫,您可能有一天会发现有人正在使用他们从您的博客中窃取的内容。您可能想知道发生这种情况时该怎么办。
以下是人们在处理内容抓取工具时采用的一些方法:
- 什么都不做:你可能会花很多时间与爬虫作斗争,所以一些受欢迎的博主决定什么都不做。谷歌已经将知名网站视为权威,但较小的网站并非如此。所以我们认为这种方法并不总是最好的。
- 撤下:在这里您可以联系刮板并要求他们撤下内容。如果他们拒绝,则您提交删除通知。您可以在我们的指南中了解如何轻松查找和删除 WordPress 中被盗的内容。
- 利用优势:虽然我们积极致力于删除内容,但我们也使用一些技术来获取流量并从爬虫中赚钱。您可以在下面的“利用内容抓取工具”部分了解如何操作。
话虽如此,让我们来看看如何防止 WordPress 中的博客抓取。由于这是一份综合指南,我们提供了一个目录以便于导航。
- 版权或商标您博客的名称和徽标
- 让你的 RSS 提要更难抓取
- 禁用引用通告和 Pingback
- 阻止 Scraper 访问您的 WordPress 网站
- 防止 WordPress 中的图像盗用
- 不鼓励手动复制您的内容
- 利用内容抓取工具
1.版权或商标您的博客名称和徽标
商标和版权法保护您的知识产权、品牌和业务免受许多法律挑战。这包括非法使用您的受版权保护的材料或您的品牌名称和徽标。
您应该在您的网站上清楚地显示版权声明。虽然您的内容自动受版权法保护,但显示通知会让您知道您的内容受版权保护,他们不能将您受保护的财产用于商业用途。
例如,您可以在 WordPress 页脚中添加带有动态日期的版权声明。这将使您的版权声明保持最新。
这可能会阻止一些用户窃取它。如果您确实需要发送停止和终止信函或提交 DCMA 投诉以删除您被盗的内容,它也会有所帮助。
您也可以在线申请版权登记。这个过程可能很复杂,但幸运的是有低成本的法律服务可以帮助小企业和个人。
在我们的指南中了解如何为您的博客名称和徽标注册商标和版权。
2. 让你的 RSS 提要更难抓取
由于博客内容抓取通常是通过您博客的 RSS 提要自动完成的,让我们看看您可以对您的提要进行一些有用的更改。
不要在您的 WordPress RSS 提要中包含完整的帖子内容
您可以在 RSS 提要中只包含每篇文章的摘要,而不是完整内容。这包括摘录以及帖子元数据,例如日期、作者和类别。
博客社区中肯定存在关于是否拥有完整 RSS 提要或摘要提要的争论。我们现在不谈这个,只是说只有摘要的优点之一是它有助于防止内容被抓取。
您可以通过在 WordPress 管理面板中转到设置 » 阅读来更改设置 。您需要选择“摘录”选项,然后单击“保存更改”按钮。
现在 RSS 提要将只显示您文章的摘录。如果有人通过您的 RSS 提要窃取您的内容,那么他们只会得到摘要,而不是完整的帖子。
如果您想调整摘要,那么您可以查看我们关于如何自定义 WordPress 摘录的指南。
优化您的 RSS 提要以防止刮擦
还有其他方法可以优化您的 WordPress RSS 提要以保护您的内容、获得更多反向链接、增加您的网络流量等等。最好的方法之一是延迟帖子出现在 RSS 提要中。
好处是,当您延迟帖子出现在您的 RSS 提要中时,您可以让搜索引擎有时间在您的内容出现在其他地方(例如 scraper 的网站)之前对其进行抓取和索引。然后搜索引擎会将您的网站视为权威。
最安全和最简单的方法是使用WPCode ,因为它有一个自动将正确的自定义代码添加到 WordPress 的 方法。
有关详细说明,请参阅我们关于如何延迟帖子出现在您的 WordPress RSS 提要中的指南。
3. 禁用 Trackbacks、Pingbacks 和 REST API
在博客的早期, 引入了trackbacks 和 pingbacks 作为博客相互通知链接的一种方式。当有人链接到您博客上的帖子时,他们的网站会自动向您的网站发送 ping。
然后,此 pingback 将出现在您博客的 评论审核 队列中,并带有指向其网站的链接。如果您批准,他们就会从您的网站获得反向链接和提及。
这使垃圾邮件发送者有动力抓取您的网站并发送引用通告。幸运的是,您可以禁用 trackbacks 和 pingbacks 以减少爬虫窃取您内容的理由。
有关更多信息,请查看我们关于在所有未来帖子上禁用引用的指南。您可能还想了解如何禁用现有 WordPress 帖子的引用和 ping。
禁用 WordPress REST API
除了 trackbacks 和 pingbacks,我们还建议禁用 WordPress REST API,因为它可以让垃圾邮件发送者更容易抓取您的内容。
我们有一份关于如何禁用 WordPress REST API 的详细指南。
您需要做的就是安装并激活免费的 WPCode 插件,并使用其预制代码片段来禁用 REST API。
4. 阻止爬虫访问您的 WordPress 网站
阻止爬虫窃取您的内容的一种方法是取消他们对您网站的访问权限。您可以通过阻止他们的 IP 地址来手动执行此操作,但大多数用户会发现使用安全插件(例如 Web 应用程序防火墙)更容易。
使用安全插件阻止爬虫(推荐)
手动阻止抓取器很棘手并且需要大量工作。特别是因为许多黑客尝试和攻击都是使用来自世界各地的各种随机 IP 地址进行的。跟上所有这些随机 IP 地址几乎是不可能的。
这就是为什么您需要Web 应用程序防火墙(WAF),例如WordFence 或 Securi。它们通过监控您的网站流量并在常见安全威胁到达您的 WordPress 网站之前阻止它们,充当您的网站和所有传入流量之间的屏障。
基本上,您所有的网站流量都经过安全服务的服务器,在那里检查是否存在可疑活动。它们会自动阻止可疑的 IP 地址访问您的网站。了解 Sucuri 如何 帮助我们 在 3 个月内阻止 450,000 次 WordPress 攻击。
手动阻止或重定向 Scraper 的 IP 地址
高级用户可能还希望手动阻止爬虫的 IP 地址。这是更多的工作,但是一旦你了解了它,你就可以专门针对爬虫的地址。Web 开发人员Jeff Star在撰写有关他如何处理内容抓取工具的文章时建议采用这种方法。
注意: 向网站文件添加代码可能很危险。即使是一个小错误也可能导致您的网站出现重大错误。这就是为什么我们只向高级用户推荐此方法。
您可以通过访问WordPress 托管帐户的 cPanel 仪表板中的“原始访问日志”来找到抓取工具的 IP 地址 。您需要查找请求数量异常高的 IP 地址并记录下来,例如将它们复制到单独的文本文件中。
提示:您需要确保最终不会阻止您自己、合法用户或搜索引擎访问您的网站。复制一个看起来可疑的 IP 地址并使用在线 IP 查找工具 来查找更多相关信息。
一旦您确信该 IP 地址属于某个爬虫,您可以使用 cPanel 的“IP Blocker”工具或通过在您的根.htaccess文件中添加如下代码来阻止它:
Deny from 123.456.789
确保将代码中的 IP 地址替换为要阻止的 IP 地址。您可以通过在同一行中输入以空格分隔的多个 IP 地址来阻止它们。
有关详细说明,请参阅我们关于如何在 WordPress 中阻止 IP 地址的指南。
Jeff 建议您可以向他们发送虚拟 RSS 提要,而不是简单地阻止爬虫。您可以创建充满 Lorem Ipsum 和烦人图像的提要,甚至可以将它们直接发送回他们自己的网站,从而导致无限循环并使他们的服务器崩溃。
要将它们重定向到虚拟提要,您需要将这样的代码添加到您的 .htaccess 文件中:
RewriteCond %{REMOTE_ADDR} 123\.456\.789\.
RewriteRule .* http://dummyfeed.com/feed [R,L]
5. 防止 WordPress 中的图像盗用
您需要保护的不仅仅是您的书面内容。您还应该防止 WordPress 中的图像盗用。
与文本一样,没有办法完全阻止人们窃取您的图像,但是有很多方法可以阻止 WordPress 网站上的图像盗窃。
例如,您可以禁用 WordPress 图像的热链接。这意味着如果有人抓取您的内容,他们的图片将不会加载到他们的网站上。
它还将减少您的服务器负载和带宽使用,提高您的 WordPress 速度和性能。
或者,您可以为您的图片添加水印以表明您的信誉。这将清楚地表明爬虫窃取了您的内容。
您可以在我们的4 种防止 WordPress 图像盗窃的方法指南中学习这两种技术以及其他保护图像的方法。
6. 不鼓励手动复制您的内容
虽然大多数爬虫使用自动工具,但一些内容窃贼可能会尝试手动复制您的全部或部分内容。
使这更困难的一种方法是防止他们复制和粘贴您的文本。您可以通过让他们更难选择您网站上的文本来做到这一点。
要了解如何停止手动复制您的内容,请参阅我们关于如何在 WordPress 中防止文本选择和复制/粘贴的分步指南。
但是,这并不能完全保护您的内容。请记住,精通技术的用户仍然可以查看源代码或使用 检查工具 来复制他们想要的任何内容。此外,此方法不适用于所有网络浏览器。
另外,请记住,并非每个复制您的文本的人都是内容窃贼。例如,有些人可能想复制标题以 在社交媒体上分享您的帖子。
这就是为什么我们建议您仅在您认为您的网站真正需要时才使用此方法。
7. 利用内容抓取工具
随着您的博客变得越来越大,几乎不可能停止或跟踪所有内容抓取工具。我们仍然会发送 DMCA 投诉。但是,我们知道还有大量其他网站正在窃取我们无法跟上的内容。
相反,我们的方法是尝试利用内容 scaper。当您发现自己正在从被盗内容中赚钱,或者从爬虫网站获得大量流量时,情况并没有那么糟糕。
使内部链接成为一种习惯,以从爬虫中获得流量和反向链接
在我们的SEO 终极指南中,我们建议您养成内部链接的习惯。通过在您的博客文章中放置指向您其他内容的链接,您可以增加综合浏览量并降低您自己网站的跳出率。
但是在抓取方面还有第二个好处。内部链接将从窃取您内容的人那里获得有价值的反向链接。像谷歌这样的搜索引擎使用反向链接作为排名信号,因此额外的反向链接有利于您的 SEO。
最后,这些内部链接可以让您窃取爬虫的受众。才华横溢的博主将链接放在有趣的关键字上,诱使用户点击。爬虫网站的访问者也将单击链接,这将引导他们直接返回您自己的网站。
自动链接关键字与附属链接以从刮板中赚钱
如果您通过联盟营销在您的网站上赚钱,那么我们建议在您的 RSS 提要中启用自动链接。这将帮助您最大限度地从仅通过 RSS 阅读器阅读您网站的读者那里获得收益。
更好的是,它将帮助您从窃取您内容的网站上赚钱。
只需使用像ThirstyAffiliates这样的插件 ,它会自动用附属链接替换指定的关键字。我们在我们的指南中向您展示了如何将关键字与 WordPress 中的附属链接自动链接起来。
在 RSS 页脚中宣传您的网站
您可以使用 All in One SEO 插件将自定义项目添加到您的 RSS 页脚。例如,您可以添加一个横幅来宣传您自己的产品、服务或内容。
最好的部分是这些横幅也会出现在抓取工具的网站上。
在我们的案例中,我们总是在 RSS 提要中的帖子底部添加一点免责声明。通过这样做,我们从爬虫站点获得了指向原始文章的反向链接。
这让谷歌和其他搜索引擎知道我们是权威。它还让他们的用户知道该网站正在窃取我们的内容。