Matplotlib可视化库的使用

内容已删除!

查看更多

评论

kNN算法原理与实战

kNN简单数据分类实践

<比如:计算地理位置的相似度>
……

有以下先验数据,使用knn算法对未知类别数据分类

属性1 属性2 类别
1.0 1.0 A
0.1 0.2 B
0.0 0.1 B

查看更多

评论

HBase学习笔记


查看更多

评论

Hive学习笔记

Hive基本操作

1、DDL操作

1.1、创建表

查看更多

评论

MapReduce原理篇

简介

Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;
Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上;

查看更多

评论

MapReduce编程中需要注意的问题

hashmap的两种排序方式

1
2
3
4
5
6
7
8
9
10
List<Map.Entry<String, Integer>> list
= new ArrayList<Map.Entry<String, Integer>>(map.entrySet());
Collections.sort(list, new Comparator<Map.Entry<String, Integer>>() {
@Override
public int compare(Entry<String, Integer> o1, Entry<String, Integer> o2) {
return o2.getValue() - o1.getValue(); //根据value排序
//return (o1.getKey()).toString().compareTo(o2.getKey());
}
});

查看更多

评论

Flume安装及简单部署

1 Flume简介

Flume是Cloudera提供的一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统。Flume支持在日志系统中定制各类数据发送方用于收集数据,同时Flume提供对数据的简单处理,并将数据处理结果写入各种数据接收方的能力。

查看更多

评论

用MR实现Join逻辑的两种方法

需求

订单数据表 order.txt

id date pid amount
1001 20150710 P0001 2
1002 20150710 P0001 3
1002 20150710 P0001 3

查看更多

评论

Windows下运行MapReduce程序所踩到的坑

前言

遇到了很多坑,一步一步百度和谷歌解决了。其实还是对原理不太了解导致的。

步骤

步骤网上有很多,例如
https://my.oschina.net/u/999578/blog/180343

查看更多

评论

HDFS定时上传日志的Shell案列

uploadFile2HDFS.sh

查看更多

评论