Jun 22, 2008

毕业设计

一个月前离职返校,折腾了这么些日子,总算把毕业设计给鼓捣出来了。题目是《主题爬虫在WEB新闻聚合中的运用》,导师是沃焱老师。谢谢老师的信任,让我能结束了上海的实习再回广州完成毕设,不然两头奔波的日子是难以想象的。

整个一个月,我都窝在宿舍,除去做毕设,就是闲极无聊地打游戏。大学的最后一个月,过得着实不咋样。说是做毕业设计,其实和文科写论文没啥两样,由于时间有些紧,基本是边写论文边做毕设,说个好听点是文档先行,说个不好听点就是能不能鼓捣出这软件心里还没啥底。

论文排版话了一半的时间,用Latex,在清华的学位论文模板上进行了些修改,然后用了listing、beamer之类的宏包;总得来看效果还是可以的。只是写论文的过程中没有找到得心应手的工具,先是用CTEX集成的写作环境,之后又换了叫SciTE的编辑器,最后使用了Eclipse+Texlipse,用得还算顺手。之后还尝试了下在Linux下用Emacs写latex。只是原来写好的论文编译时出现了乱码,只得作罢。

总得来讲,一旦熟悉了几个基本的宏包,使用latex排论文、简历之类的东西能大大提高生产率。并能轻易获得专业的外观。后来估计也是因为这个原因,鼓捣出来的80p的论文评了优,还是有些得意的。

下面摘抄了些开题报告的内容:
当今网络信息资源急剧增长,面对这个海量、异构、半结构化的信息库时,人们常常会面临“信息过载、知识匮乏”的困窘,为了避免这种情况,我们需要以合适的方式对Web资源进行检索和呈现。Web知识发现是是几年内兴起的一个被广泛关注的研究课题。它是从Web数据中发现有用的知识和模式的过程,而如何高效地获取相应主题的信息也就成了Web知识发现至关重要的一步。

在寻找相关主题的页面时使用主题网络爬虫可以根据一定的网页分析算法过滤与主题无关的链接,可以提高抓取的准确性并减少计算资源的浪费。同样,随着网络信息的增长,人们为了及时方便地得到所关心的信息,希望从被动的上网查看新闻更新转变为主动地接收新闻信息。新闻聚合应运而生,而Atom和RSS是新闻聚合最流行的实现方式。

鉴于以上原因,我打算结合网络爬虫的主动搜索和新闻聚合的推送模式开发X-Info软件,首先利用主题爬虫定期从网络上收集新出现的相关主题的新闻网页,将其内容经过分析整理,构成按时间及主题相关度组织的新闻序列。同时对页面信息进行分析整理,得出可供统计的有用数据,并且提取出其中的部分信息生成符合RSS规范的聚合文件,让相关主题最新信息可以在普通的RSS阅读器中使用。

0 comments: