Knowledge change life 不断学习09.11.11-11.11.11-12.12.21

2010-07-02黑帽

没有评论
587 views

scrapebox技巧:让你的scrapebox突破单次Harvesting 100W限制

SB在收割List的时候,如果你的关键字过多,最后就会提醒你超过限制,最终列表里只有100W条.一直以为能用的就只有这100W.
昨天在群里聊,经某兄弟指点才意识到…原来每次可以收割更多.超过100W的list不是丢掉了,而是静静的躺在你的SB的目录里.

list

没错,就是他了,在主界面导入试试吧,哈哈.
keyword扫多了,这种文件也会很多,每次自己清空用过的或者记着编号吧.还有,如果你一次导入几百万上千万,你要确保你有一颗强劲的CPU,否则…

2010-07-02黑帽

没有评论
807 views

scrapebox技巧:让你的scrapebox Slow commenter更稳定

实在忍受不了SB的slow commenter的频繁死机,到BHW去搜了下,总结了几个老外的讨论,特此和大家分享

1,安装最新的adobe flash player for ie
http://www.adobe.com/products/flashplayer/

2,增加IE缓存.增加到2047或更多
打开IE,Tools-internet options-generel里的temporay internet files的Settings-Amount of disk space to use

3,定期用ccleaner等软件清空缓存和cookie

2010-07-02黑帽

没有评论
565 views

scrapebox进阶教程

代理网站:

http://www.proxy-list.net/

http://www.samair.ru/proxy/fresh-proxy-list.htm 实时代理
http://proxybonanza.com/ 付费代理 (已经不允许Scrapebox和Xrumer)
http://www.yourprivateproxy.com/services/ 可以选择你所需的各种软件价格,包括
Craigslist
eBay
ScrapeBox
BookmarkWiz
For Mailing
x-Rumer
免费代理可以搜索关键字:free proxy

中国的几个免费代理网站:
www.proxycn.com
www.cnproxy.com

Adjust Maximum Connections:线程设置,SB各项功能的线程设置均在这个选项里
Adjust Timeout Settings:超时设置.SB各项功能的超时时间设置
Adjust RND Delay Range:这个压根没用过…SB的延时时间大小设置
Set country or …:BlogEngine的评论需要选择国家,可以在这里设置
Post only using slow commenter:仅用慢发模式发送评论
Use slow commenter accurate Mode:使用慢发精确模式
Skip slow commenter for …:对WP和MT的评论跳过慢发模式
Start slow commenter…:在快发结束后自动启用慢发模式
Enable Learning…:在慢发模式中启用学习模式数据库
Use nulti-threaded harvester:使用多线程收割.有很多人说怎么线程改不了,因为你没勾选这个了
Adjust multi-threaded…:设置收割代理的重试次数

Name your instance of scrabox:给你的SB起一个单独的名字.如果你同时开几个SB就很容易分清楚.比如S1,S2,SB-POST,SB-PING等
RSS XML Export Settings:不详.没用过
Use Custom User Agents:使用自定义user agents.
Edit User Agents:编辑user agents.这个可以去百度或者google,很多列表
Confirm Delete:当你进行删除操作时会提示你是否删除.
Creat Desktop Shortcut:创建桌面快捷方式
Automatically Remove Dulicate Domains:自动删除重复域名.如果你想按照重复url来筛选列表,别选此项
Auto Recovey:针对SB的慢发模式,可以选择软件死机后自动重新继续
Check for addon Updates…:程序启动时检查插件是否有更新

Setup automatic Captcha Solving:设置自动识别认证码的账号密码
Enabled Automatic …:慢发模式下启用认证码自动识别
enable Automatic …(unblocking):在代理服务器管理中开启认证码自动识别

以上引用:http://www.chengbingkai.com/tag/scrapebox/

scrapebox语法
123 Have a {great|good|excellent|fantastic} day! <a href=”http://www.warriorforum.com”>{Warriors|Warrior Forum|WSO Forum}</a>

如果用过 thebestspinner 上面的格式是不是很熟悉?你可以用TBS把你搜集的评论重写,没错,就是上面的那样,很明显{|}符号里面内容是可以随机显示!感觉scrapebox和senuke一样聪明
再高级点

1 <a href=”{http://www.yoursite.com|http://www.yourblog.com}”>{Click Here|Visit This}</a>

1.45 版本以上新功能(链接锁),只要name TXT文本条目对应 websites TXT条目,会自动设置瞄链接 !

注意:v1.9.52以上版本又取消了链接锁,只能把websites.txt 变成这个格式

12 http://www.catsite.com {cats|cat food|cat health|cat diets}http://www.dogsite.com {Dogs|dog diets|dog food}

scrapebox 插件:
rapid indexer插件 类似于PRstorm ,统计网站链接(我不知道怎么表达!),虽然设置复杂点,但是感觉比PRstorm好用,建议线程开小点!格式:http://websites.com/search/www.{website} 其中{website}代表你的网址!需要发的列表,网上有很多,我下载了一个7W个链接,此类插件,建议放在服务器或者VPS上,24小时运行,有没有效果?有多大效果?现在还未知!但是有一点可以肯定,可以加速搜索引擎索引!

2010-07-02黑帽

没有评论
377 views

scrapebox教程:关键字制作技巧

Here’s a tip: The keywords section of scrapebox accepts more than just keywords ;-) You can put in any google search function. So, you could put it inurl:hello for instance. You can put that in either the footprint section or the keyword section. Same goes for: site:.com, etc.

so, when i’m scraping, I use TLDs to get the biggest scrape that I can. The fastest way for me is to simply list them on separate lines in the keywords field. there are tons and tons of TLDs, but this is my “short” list that I use:

site:.com
site:.net
site:.org
site:.edu
site:.gov
site:.biz
site:.info
site:.tv
site:.uk
site:.ca
site:.au
site:.ie
site:.cc
site:.ae
site:.al
site:.am
site:.at
site:.au
site:.be
site:.br
site:.ch
site:.cn
site:.jp
site:.de
site:.es
site:.eu
site:.fi
site:.hk
site:.il
site:.it
site:.in
site:.kr
site:.mx
site:.nl
site:.nz
site:.ph
site:.tw
site:.us
site:.vn
site:.za

It depends on what footprint you are searching, how many search results there are, and how many search results there is for each TLD. What I do is I initially paste all of the TLDs into the keyword section with no other keywords. If a TLD only gets 35 results, there is no point in adding in a keyword, as you won’t get any more results. But, if that TLD is getting close to 1000 results in Google, then adding in keywords can help you get a broader scrape.

So, for instance, lets say you see that .com and .net have around 1000 search results.

Then, I would:

(1) add .com to the footprint field, and then blast the keyword field with as many varied words as you can. The more the merrier.

(2) add .net to the footprint field and then blast the keyword field with as many varied words as you can. The more the merrier.

Also, as already mentioned, you should do 1 run with no TLDs, but just blast the keyword field. :-)

If i’m scraping a big platform, say vbulletin, there might end up being around 10-15 TLDs that look like they need further “treatment”, by singling them out and searching with them + keywords. With smaller platforms, there might only be a couple of TLDs.

Tips 2:
I have found over 25k different domains in one session. There are no shortage of Blog Engine blogs out there. A few tips;

Firstly, use the keyword scraper to generate keywords. Here is an example, started with 5 keywords and I now have 172.

Secondly, make use of different domain extensions. Here is a list of every countries domain extentsion.

You can use the domain extensions two ways. The first, is to simply add a domain extension in the top part like this;

The second method is much more efficient. In the above image do you see the “M” next to the “site:.edu”? What this does is merge a .txt file of keywords with the keywords you already have. (That “M” feature came in a upgrade of ScrapeBox after ScrapeBox Domination was made. I’m pretty sure I did mention the keyword “scraper” throughout the guide or videos somewhere.)

So, you can save a list of all the TLD’s you want to use into a .txt file and then after you have keywords in the keyword box click the “M” and locate the .txt file. Doing this will merge all of the keywords together with the TLD’s automatically as below;

As you’ll see from that image there is now 8600 keywords in there all generated from 5 keywords initially.

2010-07-02黑帽

没有评论
785 views

ScrapeBox入门系列之二: scrapebox主界面功能中文介绍

今天说说SB的主界面的功能介绍打开SB的主界面,我把他分成四个部分来逐一介绍,按顺序:左上,左下,右上,右下

一,Harvester

harvester

这一块主要是SB搜刮list的设置区.SB搜刮搜索引擎的列表使用的是FootPrint+关键字的模式.Footprint就是上头的四个选项,关键字就是下面的列表.具体功能如下

1,Custom Footprint: 这里就是自定义搜索方式在搜索引擎查询你想要找的东西.比如你要搜刮VBB论坛的列表,就可以在选了此项后,在上面的空白栏输入”Powered by vBulletin”这里要补充说下的就是,使用自定义Footprint,你要首先熟悉Google的高级搜索的用法,入site: ,inurl:等等,如果不熟的自行百度google解决
2,Wordpress Blogs;BlogEngine Blogs;Movable Type Blos,是SB已经集成设置好FootPrint的三个最流行的blog程序的Footprint.根据你自己的的需要进行选取.
3,Keywords: 这里就是输入关键字的地方.直接输入你整理好的关键字列表,或者使用SB的关键字抓取功能,见下面的Scrape
import: 从文档中导入你的关键字列表
Scrape: 使用SB的关键字抓取,进入后在左边输入你的关键字,按Scrape即可获得更多的相关关键字.
Save: 保存你的关键字列表到文档
Clear: 清楚上面的关键字列表

二,Select Engines & Proxies

 SE_proxy

这一块主要是搜索引擎相关设置和代理设置
1,Google,Yahoo,Bing,Aol 是可以搜刮列表的四个搜索引擎.你可以选择单个或多个进行搜刮.在GOOGLE旁边有个按钮,还可以自定义设置GOOGLE的不同国家的搜索,比如google.de等,按你自己的需求进行设置
2,Use Proxies: 选择是否使用代理.需要说明一点,这个选项是个全局的选项,不光是搜刮列表,也包括发送评论等主界面的任何功能.
3,Results: 这个是设置每个关键字你所要抓取的列表数量.如果你需要大量的列表,可以设置大一点,500甚至1000
4,Time. 这个按钮也算是搜索引擎高级搜索的一部分,可以选择在某段时间内的搜索结果.具体设置也是按个人需求.
5,下面四个按钮是管理代理服务器的.
      Manage Proxies可以进入管理代理服务器设置,抓取,验证,整理代理服务器列表.
      Load:从文档载入代理服务器列表
      Save:将代理服务器列表保存到文档
      Clear:清楚当前代理服务器列表

三,URL’s Harvested

lists

 

这一块主要是控制列表的搜刮活动对搜刮到的列表的操作,包括整理,导入导出等

1,先说下面的四个按钮
Start Harvesting:开始搜刮列表
Stop Harvesting:停止搜刮列表
List:这个按钮主要是对搜刮到的列表进行转移操作.对象都是下面Comment Poster左侧的两个列表.具体如下
      Transfer URL’s to blogs list for Commenter:把搜刮到的列表转移到下面comment Poster的”Blog Lists”
      Add URL’s to Existing blogs list for commenter:转移的位置同上,区别是这个选项适用于你已经在下面选择了你的blog列表,并讲现在搜刮到的列表增加到你已经选择的blog列表里
      Transfer URL’s websites list for commenter,Add URL’s:这两个选项是对下面的Comment Poster中”Websites”这一栏的数据进行操作,Transfer/Add的功能同上

2,Manage Lists(这一块右侧那一排)

Remove Duplicates:删除搜刮到的列表中的重复地址的选项.点击此按钮,从上到下三行,分别为:
(1).按照url删除重复.也就是说整个列表中,每一样的url地址都是唯一的,
(2).按照域名删除重复.也就是说,整个列表中,所有包含同一个域名的地址最终只剩下一个,
(3).分割重复域名列表地址.这一项的主要目的,就是在你一个列表的域名保持唯一的同时,不浪费这个列表中同域名的其他url,把其他的url保存到另外的文件里以便你以后使用.比如一个列表中包含www.111.com/123.htmwww.111.com/456.htm,如果你只用第二项按域名重复,就只剩下www.111.com/123.htm,当你选择这个第三行时,你的当前列表中就会只剩www.111.com/123.htm,但是www.111.com/456.htm并没有被删除,而是保存在你按了split这个选项以后,让你保存到的那个文件里.说的有点绕口了,哎.

Trim to Root:整理列表中的url为root格式,也就是说,www.111.com/123.htm会被整理成www.111.com的格式.

Check Pagerank:查询PR.里头两个选项,从上到下为按URL查询PR,按域名查询PR

Check indexed:查询url是否被收录.从上到下为GOOGLE,YAHOO,BING是否被收录

Grab Emails:提取email列表.从上到下为从搜刮列表中提取,从本地文件中提取

Import URL List:导入url列表功能.从上到下分别为
(1).导入并代替当前列表
(2).导入并增加到当前列表
(3).选择列表进行比较,并删除当前列表中与你选择的列表文件有重复的list
(4).同上,只不过删除重复的方式不是按url而是按domain
(5).从粘贴板复制列表url并且代替当前列表
(6).从粘贴板复制列表url并增加到当前列表

Export URL List:导出搜刮列表的操作.从上到下为:
(1).将搜刮到的列表保存到txt文件
(2).将搜刮到的列表保存到txt文件并进行按行数分割成多个txt文件
(3).保存到HTML文件
(4).保存到xls文件
(5).保存到rss xml列表
(6).添加到已存在的文件中
(7).复制列表url到粘贴板
(8).导出所有indexed的url.此项功能当你在使用了”check indexed”功能后使用
(9).导出所有not indexed的url,使用同上

import/Export URL’s &PR:对已经查询过PR的list的导入导出.从上到下:
(1).导出为txt格式
(2).导出为CSV格式
(3).导出为HTML格式
(4).导出为EXCEL格式
(5).从txt文件导入带PR的list
(6).从txt文件增加

四,Comment Poster

poster

这一块主要是发送评论的相关操作选项和设置
Wordpress;Movable Type;BlogEngine;Manual:几个blog的评论发送模式.你的list是WP的就选WP模式.Manual是手动模式,这个就先不说了

Ping Mode;RSS;TrackBacks;Check Links:这几个是出了发送评论外SB的其他操作模式
(1).Ping Mode:SB里的PING不是平时说的blog里的那个PING.是类似PRSTORM的模式.简单说就是模拟从你的站到目标站的访问.效果演示:http://maddox.xmission.com/statistics/statistics.html
(2).RSS:这个是在blog中说的PING服务
(3).TrackBacks:模拟发送trackback.这个百度下吧.
(4).Check links:检查你的外联是不是在列表中.也就是检查你发送的评论最终有多少被通过

Names;Emails;Websites;Comments;Blog Lists:姓名;邮件地址,你的网站;评论内容,要发送评论的列表,这个就不用多说了吧.

返回顶部