Black Sky: 订阅信息的信息有效过滤

我用google reader订阅了很多我感兴趣的网站。你知道现在是个信息爆炸的时代，各个网站的信息必然有些是重复的。要是有一个插件或者选项能自动过滤掉一些可能重复的信息那就更好了。要知道RSS已经为我们的阅读大大提高了效率，但每个人感兴趣的事物必然存在交集，所以重复是再所难免的。
其实原来在大学里面和老师做的那个《一种基于CHI值特征选取的粗糙集文本分类规则抽取方法》的论文，就是想通过建立一个文本的分类的数学模型，然后通过这个来对文本进行分类。我想要是能过计算没个文本之间的差异的话就能解决上面我所遇到的问题。如果文本完全一样，那么我们可以认为这个信息是重复的就可以自己过滤掉。不过现在仔细想来实现来还是很困难的。呵呵，纯属胡思乱想。