mahout的数据文件格式-白红宇

mahout的数据文件格式

阅读量：5925 次

发布时间：2019-06-19

本文共 981 字，大约阅读时间需要 3 分钟。

原文地址：

Mahout支持许多格式的文件以便实现各种工作。

文件格式

可导入的文件格式

1. 文本文件

（1）满足以下格式的文本可以转化为流数据文件导入：

（行号，行文本）

（文件名，文件的全部内容）

（行号，行份的用正则表达式模式）

（2）可以解析为Lucene索引的文本：

精确的索引设计？??(此处不明白为什么会有三个问号，可能有部分文本会失败吧)

2. ARFF文件

WEKA（）项目文本数据格式

可以<Int,Vector>格式生成流文件的数据

3. 邮箱文件

满足以下格式的邮件可以转化为流数据文件导入：

（邮件ID，电子邮件消息的文本正文）

没有HTML或附件支持

4.CSV文件

不导入行头和列头

没有“多个值，每列”选项

5. Hadoop的流文件

规范的，没有变化。目前没有使用的元数据。

6.Lucene索引

转换为流文件

精确的索引设计？

可导出的格式

hadoop的流文件

文本行，可以使用toString（）函数的类型

MatrixWritable ConfusionMatrix

可供MatrixWritable使用的CSV

一个特殊的CSV格式集群

GraphML XML集群

流文件中存储的内容的格式

“简化的”文本vectors

文档以简单文本vectors的形式存储。整个文档集的大小由vector的总量决定。每个文档vector存储一个数字，它包含了每一项的索引位置数值。这个数字是通过对集合的统计获得的。

编码的文本载体

文档以vectors的形式存储。然而，过大的文档集会有随机崩溃的危险，所以文档的索引是由多个小的索引集合构成的。

字典

每一行以<Integer,Text>格式存储，其中文本键可以存储像电影的名字，文件的文件名等短小文本内容，并且以RowIdJob作为键。

矩阵

矩阵以LongWritable / VectorWritable对的形式存储，并且VectorWritable可以疏或密。

集群

复杂的数据结构被存储在集群。

FPGrowth集群

这些都存储在一个自定义的数据结构。

生命周期

所有mahout作业一般假设所生成的文件没有寿命。所有可写格式可能会改变，有些抛弃。没有文件兼容性强制要求。

转载于:https://my.oschina.net/airship/blog/3015084

你可能感兴趣的文章