长期生活不规律在女朋友生日那天残暴的“报复”了我,8瓶啤酒和半个冰激凌蛋糕让我差点和“胆囊炎”来了一次亲密接触,正好全国地学哲学研究会第八届理事会暨第十二届学术会议在中国地质大学(北京)召开,而我这个对电脑略懂一二的本科生还是可以帮助老教授们做一些事情的,所以我就得起早贪黑的去学校帮忙。一连串的事情,导致这几天博客和网站都没有更新,也很少去看朋友们的博客。
之前找到了一款开源的PHP+MySQL搜索引擎源代码,程序简洁,功能强大,在本机试着对飞晏博客做了一次蜘蛛抓取的工作,一共抓取到了340个页面和2069个关键词,其他的详细信息就不列举了。测试了三个网站,发现这款程序确实蛮厉害的,我一直很想做一个不带有推介的购物搜索引擎,但是以我现在的技术这不现实,借助这款开源的程序倒是没问题,就是需要大量的时间。而蜘蛛对服务器和带宽的要求比较大,所以在他人的基础上修改成为独立博客的搜索引擎还是一个不错的练手机会。
还是以我的博客为例(本机测试:集成LAMP环境,2GB内存,酷睿T2300E,ADSL上网2MB带宽),目前为止加起来一共有100个左右的静态页面,因为有些文章刻意的小小SEO了一下,所以关键词还是比较多的,在完全抓取了一次之后一共花费了大概2分钟的时间,占用了2mb的数据库并且产了大概3000行的数据记录,而越夜那样文章多达2000的博客,一般需要超出20分钟的时间,这基本和早期的搜索引擎一样比较简单,学习的意义远大于实际的应用。
因此,我觉得把这款搜索引擎程序修改为一款中文独立博客搜索引擎会比较合适,我拥有的Linux主机基本可以满足1000个独立博客的需求,所有未来若干个月除了上课我的时间将会主要集中在修改和二次开发程序上,这款程序是欧洲的某位高人所做,但是很多地方并不符合中国人的使用习惯。
这款搜索引擎不会像百度和Google那样主动的抓取网站的更细,很多操作都是人工的,但是目前主要的问题还是新建博客网站的问题,所以我会像有道博客搜索那样,除了名博,只收录提交的博客,这样会是一个很好的解决办法,在没钱没好技术的时候只能这样做了。
人一缺钱就急,急有所想,想有所思,思有所获,呵呵!
在
在