Mahout的相关度度量

2012年5月19日
分类: 机器学习 标签:    没有评论

CooccurrenceCountSimilarity
LoglikelihoodSimilarity
TanimotoCoefficientSimilarity
CityBlockSimilarity
CosineSimilarity
PearsonCorrelationSimilarity
EuclideanDistanceSimilarity

Hdfs RPC协议

2012年4月17日
分类: 高性能计算 标签:    没有评论

RPC协议的组成

几乎所有的RPC协议都会由三部分组成:
1,网络传输协议。
2,RPC接口定义。
3,数据格式转换协议。

网络传输协议可以理解为,Tcp、Udp、Http。这个是一种广义的与传输的内容无关的方式。虽然Http并不是一个标准的网络传输协议。数据格式转换协议是用于序列化反、序列化的。RPC接口定义主要用于定义主要的接口。

用白话模拟打电话,怎么打(用手机还是座机)、传什么内容(表达什么内容)、用哪国语言传(说中文还是English)。

PS:通常Java的RMI并不是一个很好的网络传输协议。
阅读全文…

《浪潮之巅》 AT&T

2012年4月16日
分类: 读书 标签:    没有评论

经典摘录:
1,没有人能活两百岁,没有一家公司能辉煌两百年,这就是规律,很难超越。
2,AT&T的短视、逐利害死了它。
3,大家普遍认为AT&T的每一个大的决定,在当时的情况下都很难避免,即使知道它是错的。
4,在工业史上,新技术代替旧的技术是不以人的意志为转移的。人生最幸运之事就是发现和顺应这个潮流。

感想:
1,垄断都是暂时的。
2,上市意味着慢慢失去控制权。

回想现在的环境,何尝不是这种状态。

hive 入门 – 翻译

2012年4月7日
分类: 机器学习 标签:    没有评论

未完全翻译完,采用意译

概念

什么是Hive

Hive是一个基于Hadoop的数据仓库构件。Hadoop提供了在普通硬件上进行数据存储和处理时大规模横向扩展和数据存储的容错能力(使用了map-reduce编程模型)

Hive被设计成可以很简单的对大容量数据进行数据统计、即时查询和分析。它提供了一个简单的查询语言叫做Hive QL。Hive QL基于SQL,可以使熟悉SQL查询的用户很简单地上手。

阅读全文…

RMSE 均方根误差

2012年3月6日
分类: 机器学习 标签:    没有评论

RMSE又称为 均方根误差 。 英文全称为 : root-mean-square error, RMS error

随机变量x的所有可能取值x1,x2,…,xn与其平均值x之差的平方和的平均值叫方差,记为D(x),方差的正平方根叫均方差,RMSE=√D(x),它可作为衡量测量精度的一种数值指标。

RMSE是一个简单却鲁棒的用于评估推荐精度的技术。

这个指标有两个主要特点:

1,它反映的是误差总体累加效应;

2,通过对误差计算平方,大的误差值(>1)会被放大。不管是正的还是负的;

RMSE可以说明样本的离散程度。

阅读全文…

朴素贝叶斯分类

2011年7月4日
分类: 机器学习 标签:    没有评论

未完成,还在补。。。
1.1  贝叶斯定理

贝叶斯定理是关于随机事件A和B的条件概率边缘概率的一则定理。

P(A|B) = \frac{P(B | A)\, P(A)}{P(B)}

其中P(A|B)是在B发生的情况下A发生的可能性。

在贝叶斯定理中,每个名词都有约定俗成的名称:

按这些术语,Bayes定理可表述为:

后验概率 = (相似度*先验概率)/标准化常量

也就是说,后验概率与先验概率和相似度的乘积成正比。

另外,比例P(B|A)/P(B)也有时被称作标准相似度(standardised likelihood),Bayes定理可表述为:

后验概率 = 标准相似度*先验概率

阅读全文…

相关度度量

2011年4月28日
分类: NLP, 机器学习 标签:    没有评论

英文术语 : The similarity metric

定义

定义 已知数据库D中的两个元组t i 和t j ,它们的相似性sim( t i ,t j )是D×D到区间[ 0 , 1 ]的一个映射。因此sim( t i , t j ) ∈ [ 0 , 1 ]。

这样做的目的是定义相似性映射,从而使越相像的文档相似值越高。因此一个好的相似性度量应具备下面的特征:

  • ∀t i ∈ D,sim( t i , t j ) = 1
  • ∀t i , t j ∈ D,如果 t i 和 t j 完全不同,则 sim( t i ,t j ) = 0
  • ∀t i ,t j ,t k ∈ D,如果t k 比 t j 更像t i ,则sim( t i ,t j )< sim( t i ,t k

阅读全文…

Lucene Similarity 相关度评分

2011年2月28日
分类: NLP 标签:    没有评论

很早之前翻译的一篇文章,保存一下。从Confluence转过来的,格式都毁了。

变量表

变量 含义
d document
q query
t term
tf ( t , x ) 代表document或者query中含有多少term t
idf ( t ) 代表文档中有多少term t
V ( q ) q的VSM评分 = tf/idf
V ( d ) d的VSM评分 = tf/idf
norm 范数

阅读全文…

字符串匹配:不仅仅是想想的那么简单

2010年6月7日
分类: NLP 标签:    没有评论

字符串匹配不仅仅是使用正则表达式,正则表达式的效率是很难得到保障的。

StringMatch  这个PPT提供给入门级参考。这个领域极其的深,还是慎言一点好。

具体可以阅读《Jewels of stringology》这边书。

国内还有一本《柔性字符串匹配》也是非常推荐的,不过已经停版的。找到是件不容易的事情。

之前也写了很多其他的算法。但是因为AC非常高效,多串匹配上推荐使用AC。

分布式中间层: Java为分布而生

2010年2月7日
分类: 高性能计算 标签:    没有评论

通读Java的历史,我们发现Java从很早很早就已经将分布式开发作为一个目标。

解决异构系统、分布计算算是整个Java的核心。

无论是RPC,还是RMI,还是Corba,还是Ice,还是WebService,都是在解决分布的问题。

IcePPT  这个ppt简要描述了分布式计算的主流中间件。