原文地址:
Mahout支持许多格式的文件以便实现各种工作。
文件格式可导入的文件格式 1. 文本文件 (1)满足以下格式的文本可以转化为流数据文件导入: (行号,行文本) (文件名,文件的全部内容) (行号,行份的用正则表达式模式) (2)可以解析为Lucene索引的文本: 精确的索引设计???(此处不明白为什么会有三个问号,可能有部分文本会失败吧) 2. ARFF文件 WEKA()项目文本数据格式 可以<Int,Vector>格式生成流文件的数据 3. 邮箱文件 满足以下格式的邮件可以转化为流数据文件导入: (邮件ID,电子邮件消息的文本正文) 没有HTML或附件支持 4.CSV文件 不导入行头和列头 没有“多个值,每列”选项 5. Hadoop的流文件 规范的,没有变化。目前没有使用的元数据。 6.Lucene索引 转换为流文件 精确的索引设计?可导出的格式 hadoop的流文件 文本行,可以使用toString()函数的类型 MatrixWritable ConfusionMatrix 可供MatrixWritable使用的CSV 一个特殊的CSV格式集群 GraphML XML集群 流文件中存储的内容的格式“简化的”文本vectors 文档以简单文本vectors的形式存储。整个文档集的大小由vector的总量决定。每个文档vector存储一个数字,它包含了每一项的索引位置数值。这个数字是通过对集合的统计获得的。编码的文本载体
文档以vectors的形式存储。然而,过大的文档集会有随机崩溃的危险,所以文档的索引是由多个小的索引集合构成的。字典
每一行以<Integer,Text>格式存储,其中文本键可以存储像电影的名字,文件的文件名等短小文本内容,并且以RowIdJob作为键。矩阵
矩阵以LongWritable / VectorWritable对的形式存储,并且VectorWritable可以疏或密。集群
复杂的数据结构被存储在集群。FPGrowth集群
这些都存储在一个自定义的数据结构。生命周期
所有mahout作业一般假设所生成的文件没有寿命。所有可写格式可能会改变,有些抛弃。没有文件兼容性强制要求。