博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
mahout的数据文件格式
阅读量:5925 次
发布时间:2019-06-19

本文共 981 字,大约阅读时间需要 3 分钟。

hot3.png

原文地址:

Mahout支持许多格式的文件以便实现各种工作。

文件格式
可导入的文件格式
1. 文本文件
        (1)满足以下格式的文本可以转化为流数据文件导入:
            (行号,行文本)
            (文件名,文件的全部内容)
            (行号,行份的用正则表达式模式)
        (2)可以解析为Lucene索引的文本:
                精确的索引设计???(此处不明白为什么会有三个问号,可能有部分文本会失败吧)
2. ARFF文件
        WEKA()项目文本数据格式
        可以<Int,Vector>格式生成流文件的数据
3. 邮箱文件
           满足以下格式的邮件可以转化为流数据文件导入:
            (邮件ID,电子邮件消息的文本正文)
            没有HTML或附件支持
4.CSV文件
        不导入行头和列头
        没有“多个值,每列”选项
5. Hadoop的流文件
        规范的,没有变化。目前没有使用的元数据。
6.Lucene索引
        转换为流文件
            精确的索引设计?
可导出的格式
    hadoop的流文件
    文本行,可以使用toString()函数的类型
    MatrixWritable ConfusionMatrix
    可供MatrixWritable使用的CSV
    一个特殊的CSV格式集群
    GraphML XML集群
流文件中存储的内容的格式
“简化的”文本vectors
文档以简单文本vectors的形式存储。整个文档集的大小由vector的总量决定。每个文档vector存储一个数字,它包含了每一项的索引位置数值。这个数字是通过对集合的统计获得的。

编码的文本载体

文档以vectors的形式存储。然而,过大的文档集会有随机崩溃的危险,所以文档的索引是由多个小的索引集合构成的。

字典

每一行以<Integer,Text>格式存储,其中文本键可以存储像电影的名字,文件的文件名等短小文本内容,并且以RowIdJob作为键。

矩阵

矩阵以LongWritable / VectorWritable对的形式存储,并且VectorWritable可以疏或密。

集群

复杂的数据结构被存储在集群。

FPGrowth集群

这些都存储在一个自定义的数据结构。

生命周期

所有mahout作业一般假设所生成的文件没有寿命。所有可写格式可能会改变,有些抛弃。没有文件兼容性强制要求。

转载于:https://my.oschina.net/airship/blog/3015084

你可能感兴趣的文章
Java泛型总结
查看>>
如何用CSS让一个容器水平垂直居中?
查看>>
react学习系列之states与props
查看>>
postgresql 查看page, index, tuple 详细信息
查看>>
DOM 事件深入浅出(二)
查看>>
Elixir Ecto: 范围数据类型
查看>>
document.elementFromPoint
查看>>
切图崽的自我修养-规范CSS元素命名
查看>>
使用Vue构建中(大)型应用
查看>>
堆和堆排序
查看>>
利用Guava的Suppliers.memoize实现单例
查看>>
在Android NDK中使用OpenSSL
查看>>
最全前端开发面试问题及答案整理
查看>>
学习xss的一些记录(一)
查看>>
SegmentFault 创始人祁宁对话 C# 之父 Anders Hejlsberg
查看>>
深入理解javascript函数
查看>>
使用 PHP 7 给 Web 应用加速
查看>>
微软宣布 Win10 设备数突破8亿,距离10亿还远吗?
查看>>
monogdb操作system.*权限
查看>>
个人总结的一个中高级Java开发工程师或架构师需要掌握的一些技能 ...
查看>>