SharePoint 如何搜索爬网第三方网站配置

SharePoint 2023-01-12

SharePoint的搜索着实强大，而且最近用到SharePoint搜索第三方爬网，感觉收获挺大，而且网上资料没找到太多类似的，就小记录一下，分享给大家。

首先，我自己写了一个net页面，里面读取所有我需要内容，充当SharePoint爬网的数据源，对这个页面进行爬网，页面如下图：

然后，打开SharePoint管理中心，搜索设置，新建内容源Crawl，爬网http://moss:9000，如下图。爬网设置可以按照自己的需要进行设置，比如想要爬网页面深度，可以进行设置，我的爬网，只是爬网页面下面的链接，所以深度设置为1；设置完成，先不要爬网，还需要设置爬网规则。

设置爬网规则：

打开爬网规则，设置路径，我的路径是9000端口下的所有页面，所以设置为http://moss:9000/*，当然，你的规则应该按照需要进行设置，可以排除这些路径，也可以包含这些路径，同时，如果有爬网到的任何结果，都可以在这里进行排除。

特别的是，我的页面上的链接，包含“?”问号，所以勾选了对复杂的URL进行爬网，下面的指定认证，可以选择认证的账号，如果需要Form认证的网页，可以设置指定其他内容访问账户【特别：如果登录需要验证码的，SharePoint是无法爬网的】。设置完爬网规则，点击确定保存，然后可以对Crawl内容源进行完全爬网了。

对Crawl内容源进行完全爬网，查看爬网日志，如下图：

在SharePoint搜索页面上，试试搜索刚配置的内容源，如下图：

搜索结果：

注意事项：

1、如果，服务器处于代理访问网站的情况，需要配置管理中心的代理，位置在搜索管理 - 代理服务器和超时 - 管理中心URL/_admin/searchfarmsettings.aspx

2、搜索爬网内容，可能会出现异常情况，可以尝试重置搜索内容，位置在搜索管理 - 重置所有已爬网内容，重置一下搜索结果。

3、爬网结果，搜索出来的结果，标题为搜索页面的Html的页面Title，内容为页面上的Body内容，链接为URL。

4、同样的搜索配置，可以搜索新浪，搜狐等网站。

上一篇：SharePoint 开发TimerJob 介绍下一篇：Sharepoint 如何自定义WebService 找不到网站应用程序

SharePoint 如何搜索爬网第三方网站配置

热门文章

最新文章

标签列表