Bugs

微笑的周末


  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

  • github

构建Apache airflow开发环境

发表于 2018-08-05 | 分类于 大数据
字数统计: 698 字 | 阅读时长 ≈ 3 分钟
构建基于Apache airflow调度开发环境下载python 本文基于ubuntu 18的版本搭建,虽然自带python考虑从新安装python到3.6.6的版本 安装pyenv,使用git安装 1git clone git://github.com/yyuu/pyenv.git ~/.pyenv 配置pyenv 12345vim ~/.bashrcexport PYENV_ROOT="$HOME/.pyenv"export PATH="$PYENV_ROOT/bin:$PATH"eval "$(pyenv init -)" 启用配置 1source ~/.bashrc 安装python 12pyenv install 3.6.6pyenv global 3.6.6 因各种原因, 下载速度可能只有几KB, 甚至超时, 可将下载地址替换成国内镜像后在下载.cd ~/.pyenv/plugins/python-build/share/python-build/vim 3.6.6 ...
阅读全文 »

Hadoop with hive in docker

发表于 2018-07-31 | 分类于 大数据
字数统计: 464 字 | 阅读时长 ≈ 2 分钟
基于Docker的Hadoop集群环境搭建hive环境 本文基于Hadoop in docker的文章后构建的,具体base的docker镜像都为hadoop3构建 构建镜像文件Dockerfile 1234567891011121314FROM dean1943/hadoop3ENV HIVE_HOME /opt/hiveRUN mkdir -p $HIVE_HOME && mkdir -p $HIVE_HOME/tmpCOPY hive.tar.gz /opt/hive/installer.tgzRUN cd /opt/hive && tar --strip-components=1 -xzf installer.tgz && rm installer.tgzCOPY hive-default.xml /opt/hive/conf/hive-site.xmlCOPY hive-env.sh /opt/hive/conf/hive-en ...
阅读全文 »

Java高并发

发表于 2018-07-29 | 分类于 java
字数统计: 877 字 | 阅读时长 ≈ 3 分钟
高并发主要组件:synchronizer / 同步容器 / ThreadPool、executorvolatilevolatile,一个可以使变量在多个线程中是可见的,当一个volatile修饰的值改变了,则会通知其他线程修改为最新的值,从而使多个线程之间一个变量的保持可见行,是一种无锁同步,但是只有可见性,没有原子性 synchronized锁synchronized是如果是同一个锁对象,则是可以重入的锁,如: 同一个类的不同方法,可以持有同一把锁 父类的锁和子类的锁可以为持有同一把锁 因为锁定的为同一个对象子类的synchronized可以调用父类的synchronized方法,所以持有相同的锁 在线程中如果异常出现,则会自动释放锁,导致线程余下程序不是线程安全,需要慎重处理异常 synchronized可以保持原子性和可见性 作为锁的对象,属性可以变化,如果锁的对象发生变化,则也会变化,锁的是new的栈的对象,而不是引用,所以new新的对象,则会影响前一个对象的变化 不以 ...
阅读全文 »

Hadoop in docker

发表于 2018-07-26 | 分类于 大数据
字数统计: 933 字 | 阅读时长 ≈ 5 分钟
基于Docker的Hadoop集群环境搭建准备基础环境 首先在系统中安装docker的相关软件,本文基于系统ubuntu 18.04版本构建,docker version 17.12 安装docker,网上很多文章不载赘述 编写基础镜像文件 基于ubuntu 18.04的官方镜像 base/Dockerfile base/jdk.tar.gz base/hadoop.tar.gz base/workers base/init.sh base/Dockerfile 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859FROM ubuntu:18.04MAINTAINER dean<wangjingxin1986@gmail.com>ENV TZ "Asia/Shanghai"RUN apt-get ...
阅读全文 »

Spark in docker

发表于 2018-07-24 | 分类于 大数据
字数统计: 1.4k 字 | 阅读时长 ≈ 8 分钟
基于Docker的Spark集群环境搭建准备基础环境 首先在系统中安装docker的相关软件,本文基于系统ubuntu 18.04版本构建,docker version 17.12 安装docker,网上很多文章不载赘述 编写基础镜像文件 基于ubuntu 18.04的官方镜像 base/Dockerfile base/jdk.tar.gz base/spark.tgz base/spark-env.sh base/slaves base/Dockerfile 12345678910111213141516171819202122232425262728293031323334353637383940414243444546FROM ubuntu:18.04MAINTAINER deanwang<wangjingxin1986@gmail.com>ENV TZ "Asia/Shanghai"RUN apt-get updateRUN apt-get inst ...
阅读全文 »

Spark基础

发表于 2018-07-24 | 分类于 大数据
字数统计: 858 字 | 阅读时长 ≈ 3 分钟
数据倾斜 数据倾斜就是我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到了一台或者几台机器上计算,这些数据的计算速度远远低于平均计算速度,导致整个计算过程过慢。 Hadoop: Hadoop中的数据倾斜主要表现在、ruduce阶段卡在99.99%,一直99.99%不能结束。 这里如果详细的看日志或者和监控界面的话会发现: 有一个多几个reduce卡住 各种container报错OOM 读写的数据量极大,至少远远超过其它正常的reduce 伴随着数据倾斜,会出现任务被kill等各种诡异的表现。 经验:Hive的数据倾斜,一般都发生在Sql中Group和On上,而且和数据逻辑绑定比较深。 Spark: Spark中的数据倾斜也很常见,这里包括Spark Streaming和Spark Sql,表现主要有下面几种: Executor lost,OOM,Shuffle过程出错 Driver OOM 单个Executor执行时间特别久,整体任务卡在某个阶段不 ...
阅读全文 »

Spark解析(一)

发表于 2018-07-13 | 分类于 大数据
字数统计: 21 字 | 阅读时长 ≈ 1 分钟
简介Spark是基于内存的高效运行计算框架。 核心:RDD和DataFrameSql
阅读全文 »

Hadoop全排序中的Sampler采样器

发表于 2018-07-11 | 分类于 大数据
字数统计: 2.7k 字 | 阅读时长 ≈ 11 分钟
Hadoop全排序中的Sampler采样器我们已经了解过Partitioner组件的其中一个和全排序相关的实现类—-TotalOrderPartitioner。 我们知道,在Hadoop中,最终的处理结果集中的数据,除非就由一个Reduce Task处理,否则结果数据集只是局部有序而非全排序。 这节我们来学习在Hadoop中进行全排序操作中除了TotalOrderPartitioner之外的另一个组件—-采样器Sampler。 在新版本的Hadoop中,内置了三个采样器: SplitSampler,RandomSampler和IntervalSampler。这三个采样器都是InputSampler类的静态内部类,并且都实现了InputSampler类的内部接口Sampler,涉及的相关代码如下: 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849/** * Ut ...
阅读全文 »

HDFS操作

发表于 2018-07-11 | 分类于 大数据
字数统计: 238 字 | 阅读时长 ≈ 1 分钟
HDFS操作 Java中配置hdfs常见项目中可以使用hdfs://IP:port/path的方式访问,但是如果是集群环境下,会配置多个namenode或者second namenode,那么如何来访问hdfs的文件呢? hadoop中一般会配置多个配置文件: 1234core-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xml 默认会加载core-site.xml和yarn-site.xml, core-site.xml,当然里面所有属性也会被加载,那么hdfs中文件我们在没有配置ip和端口的情况下是无法访问的,需要手动的加载 123Configuration conf = new Configuration();// 不需要在程序中指定hdfs的url,可以通过hdfs-site.xml中配置的df的域名conf.addResource(new Path("hdfs-site.xml")); 配置文件hdfs-site.xml在cl ...
阅读全文 »

搭建Hadoop之一

发表于 2018-07-11 | 分类于 大数据
字数统计: 111 字 | 阅读时长 ≈ 1 分钟
设置相互访问的使用名称代替ip的配置编辑/etc/hostname 1master 编辑/etc/hosts 1172.17.0.2 master 多服务器之间ssh免密登录配置启动ssh服务/etc/init.d/ssh start 设置ssh登录配置 编辑 /etc/ssh/sshd_config 添加 1PermitRootLogin yes 运行生成密码命令: ssh-keygen -t rsa 回车完成密码创建 12cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keysssh-copy-id root@slave1 使用passwd来重新设置密码
阅读全文 »
1…8910

Dean Wang

92 日志
20 分类
36 标签
GitHub E-Mail
© 2018 Dean Wang | Site words total count: 292.5k
由 Hexo 强力驱动
|
主题 — NexT.Mist v5.1.4