Bugs

构建Apache airflow开发环境

发表于 2018-08-05 | 分类于大数据

字数统计: 698 字 | 阅读时长 ≈ 3 分钟

构建基于Apache airflow调度开发环境下载python 本文基于ubuntu 18的版本搭建，虽然自带python考虑从新安装python到3.6.6的版本安装pyenv,使用git安装 1git clone git://github.com/yyuu/pyenv.git ~/.pyenv 配置pyenv 12345vim ~/.bashrcexport PYENV_ROOT="$HOME/.pyenv"export PATH="$PYENV_ROOT/bin:$PATH"eval "$(pyenv init -)" 启用配置 1source ~/.bashrc 安装python 12pyenv install 3.6.6pyenv global 3.6.6 因各种原因, 下载速度可能只有几KB, 甚至超时, 可将下载地址替换成国内镜像后在下载.cd ~/.pyenv/plugins/python-build/share/python-build/vim 3.6.6 ...

阅读全文 »

Hadoop with hive in docker

发表于 2018-07-31 | 分类于大数据

字数统计: 464 字 | 阅读时长 ≈ 2 分钟

基于Docker的Hadoop集群环境搭建hive环境本文基于Hadoop in docker的文章后构建的，具体base的docker镜像都为hadoop3构建构建镜像文件Dockerfile 1234567891011121314FROM dean1943/hadoop3ENV HIVE_HOME /opt/hiveRUN mkdir -p $HIVE_HOME && mkdir -p $HIVE_HOME/tmpCOPY hive.tar.gz /opt/hive/installer.tgzRUN cd /opt/hive && tar --strip-components=1 -xzf installer.tgz && rm installer.tgzCOPY hive-default.xml /opt/hive/conf/hive-site.xmlCOPY hive-env.sh /opt/hive/conf/hive-en ...

阅读全文 »

Java高并发

发表于 2018-07-29 | 分类于 java

字数统计: 877 字 | 阅读时长 ≈ 3 分钟

高并发主要组件：synchronizer / 同步容器 / ThreadPool、executorvolatilevolatile，一个可以使变量在多个线程中是可见的，当一个volatile修饰的值改变了，则会通知其他线程修改为最新的值，从而使多个线程之间一个变量的保持可见行，是一种无锁同步，但是只有可见性，没有原子性 synchronized锁synchronized是如果是同一个锁对象，则是可以重入的锁，如：同一个类的不同方法，可以持有同一把锁父类的锁和子类的锁可以为持有同一把锁因为锁定的为同一个对象子类的synchronized可以调用父类的synchronized方法，所以持有相同的锁在线程中如果异常出现，则会自动释放锁，导致线程余下程序不是线程安全，需要慎重处理异常 synchronized可以保持原子性和可见性作为锁的对象，属性可以变化，如果锁的对象发生变化，则也会变化，锁的是new的栈的对象，而不是引用，所以new新的对象，则会影响前一个对象的变化不以 ...

阅读全文 »

Hadoop in docker

发表于 2018-07-26 | 分类于大数据

字数统计: 933 字 | 阅读时长 ≈ 5 分钟

基于Docker的Hadoop集群环境搭建准备基础环境首先在系统中安装docker的相关软件，本文基于系统ubuntu 18.04版本构建，docker version 17.12 安装docker，网上很多文章不载赘述编写基础镜像文件基于ubuntu 18.04的官方镜像 base/Dockerfile base/jdk.tar.gz base/hadoop.tar.gz base/workers base/init.sh base/Dockerfile 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859FROM ubuntu:18.04MAINTAINER dean<wangjingxin1986@gmail.com>ENV TZ "Asia/Shanghai"RUN apt-get ...

阅读全文 »

Spark in docker

发表于 2018-07-24 | 分类于大数据

字数统计: 1.4k 字 | 阅读时长 ≈ 8 分钟

基于Docker的Spark集群环境搭建准备基础环境首先在系统中安装docker的相关软件，本文基于系统ubuntu 18.04版本构建，docker version 17.12 安装docker，网上很多文章不载赘述编写基础镜像文件基于ubuntu 18.04的官方镜像 base/Dockerfile base/jdk.tar.gz base/spark.tgz base/spark-env.sh base/slaves base/Dockerfile 12345678910111213141516171819202122232425262728293031323334353637383940414243444546FROM ubuntu:18.04MAINTAINER deanwang<wangjingxin1986@gmail.com>ENV TZ "Asia/Shanghai"RUN apt-get updateRUN apt-get inst ...

阅读全文 »

Spark基础

发表于 2018-07-24 | 分类于大数据

字数统计: 858 字 | 阅读时长 ≈ 3 分钟

数据倾斜数据倾斜就是我们在计算数据的时候，数据的分散度不够，导致大量的数据集中到了一台或者几台机器上计算，这些数据的计算速度远远低于平均计算速度，导致整个计算过程过慢。 Hadoop: Hadoop中的数据倾斜主要表现在、ruduce阶段卡在99.99%，一直99.99%不能结束。这里如果详细的看日志或者和监控界面的话会发现：有一个多几个reduce卡住各种container报错OOM 读写的数据量极大，至少远远超过其它正常的reduce 伴随着数据倾斜，会出现任务被kill等各种诡异的表现。经验：Hive的数据倾斜，一般都发生在Sql中Group和On上，而且和数据逻辑绑定比较深。 Spark: Spark中的数据倾斜也很常见，这里包括Spark Streaming和Spark Sql，表现主要有下面几种： Executor lost，OOM，Shuffle过程出错 Driver OOM 单个Executor执行时间特别久，整体任务卡在某个阶段不 ...

阅读全文 »

Spark解析(一)

发表于 2018-07-13 | 分类于大数据

字数统计: 21 字 | 阅读时长 ≈ 1 分钟

简介Spark是基于内存的高效运行计算框架。核心：RDD和DataFrameSql

阅读全文 »

Hadoop全排序中的Sampler采样器

发表于 2018-07-11 | 分类于大数据

字数统计: 2.7k 字 | 阅读时长 ≈ 11 分钟

Hadoop全排序中的Sampler采样器我们已经了解过Partitioner组件的其中一个和全排序相关的实现类—-TotalOrderPartitioner。我们知道，在Hadoop中，最终的处理结果集中的数据，除非就由一个Reduce Task处理，否则结果数据集只是局部有序而非全排序。这节我们来学习在Hadoop中进行全排序操作中除了TotalOrderPartitioner之外的另一个组件—-采样器Sampler。在新版本的Hadoop中，内置了三个采样器： SplitSampler，RandomSampler和IntervalSampler。这三个采样器都是InputSampler类的静态内部类，并且都实现了InputSampler类的内部接口Sampler，涉及的相关代码如下： 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849/** * Ut ...

阅读全文 »

HDFS操作

发表于 2018-07-11 | 分类于大数据

字数统计: 238 字 | 阅读时长 ≈ 1 分钟

HDFS操作 Java中配置hdfs常见项目中可以使用hdfs://IP:port/path的方式访问，但是如果是集群环境下，会配置多个namenode或者second namenode，那么如何来访问hdfs的文件呢？ hadoop中一般会配置多个配置文件： 1234core-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xml 默认会加载core-site.xml和yarn-site.xml, core-site.xml，当然里面所有属性也会被加载，那么hdfs中文件我们在没有配置ip和端口的情况下是无法访问的，需要手动的加载 123Configuration conf = new Configuration();// 不需要在程序中指定hdfs的url，可以通过hdfs-site.xml中配置的df的域名conf.addResource(new Path("hdfs-site.xml")); 配置文件hdfs-site.xml在cl ...

阅读全文 »

搭建Hadoop之一

发表于 2018-07-11 | 分类于大数据

字数统计: 111 字 | 阅读时长 ≈ 1 分钟

设置相互访问的使用名称代替ip的配置编辑/etc/hostname 1master 编辑/etc/hosts 1172.17.0.2 master 多服务器之间ssh免密登录配置启动ssh服务/etc/init.d/ssh start 设置ssh登录配置编辑 /etc/ssh/sshd_config 添加 1PermitRootLogin yes 运行生成密码命令： ssh-keygen -t rsa 回车完成密码创建 12cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keysssh-copy-id root@slave1 使用passwd来重新设置密码

阅读全文 »