Dec 17, 2008

讲座_信息检索_统计学习

今天下午在经院楼听了马志明院士的讲座:《数学在信息检索中的作用》。介绍了PageRank和他们团队最新的研究成果BrowersRank。这种算法使用用户的浏览行为作为网页评级的依据。采用的数据有用户在一个页面的停留时间和页面之间的跳转动作。使用这种算法可以有效地防止一些网站对搜索引擎的欺骗,得出较为客观的结果。

这的确是一个很有创意而且有实际运用价值的想法。可问题是用户不一定只用IE,而且有些网站也许要很久也许永远都不能被用户所访问。这有个时效性的问题。我认为评级应该结合网络结构、页面内容和用户的浏览行为,这些方法是互为补充的,仅仅说哪种方法更好显然是没有意义的。

另外讲到的就是二重统计学习,是马院士的团队在研究“搜索学习?”时发现简单的统计学习不能满足实际的需要,进行的开创性的研究。这部分我也没听明白,该是数据挖掘方面的内容吧。马院士也提到了现在统计正为搜索引擎提供了新的创意,而搜索的实际也促进的统计理论的进一步发展。可要真正将工程方面的东西和数学融会贯通又谈何容易。

0 comments: