EnterpriseApps/Hadoop: различия между версиями

Материал из ALT Linux Wiki
Нет описания правки
Строка 22: Строка 22:
=Установка=
=Установка=
{{Note|Необходимые версии Java [https://cwiki.apache.org/confluence/display/HADOOP/Hadoop+Java+Versions указаны здесь]}}
{{Note|Необходимые версии Java [https://cwiki.apache.org/confluence/display/HADOOP/Hadoop+Java+Versions указаны здесь]}}
==Настройка Java==
==Установка Java==
#Установите Java 1.8  
#Установите Java 1.8  
#:<pre># apt-get install java-1.8.0-openjdk</pre>
#:<pre># apt-get install java-1.8.0-openjdk</pre>
#Настройте alternatives
#:<pre># alternatives-manual /usr/bin/java /usr/lib/jvm/java-1.8.0-openjdk-1.8.0.382.b05-0.x86_64/jre/bin/java</pre>
#:<pre># alternatives-update</pre>
#Перезагрузите систему
==Установка программы==
==Установка программы==
#Скачайте архив с программой (bin)
#Скачайте архив с программой (bin)
Строка 38: Строка 34:
#Сделайте файлы исполняемыми
#Сделайте файлы исполняемыми
#:<pre># chmod +x -R /opt/hadoop</pre>
#:<pre># chmod +x -R /opt/hadoop</pre>
==Создание файла профиля==
Создаем файл с профилем:
# mcedit /etc/profile.d/hadoop.sh
Со следующим содержимым:
<pre>
export HADOOP_HOME=/opt/hadoop
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="$HADOOP_OPTS -Djava.library.path=$HADOOP_HOME/lib/native"
export YARN_HOME=$HADOOP_HOME
export PATH="$PATH:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin"
</pre>
в данном примере мы задаем системные переменные, требующиеся для работы hadoop:
*{{path|HADOOP_HOME}} — путь, где находятся файлы hadoop.
*{{path|HADOOP_HDFS_HOME}} — директория распределенной файловой системы HDFS.
*{{path|HADOOP_MAPRED_HOME}} — необходима для возможности отправки задания MapReduce с помощью MapReduce v2 в YARN.
*{{path|HADOOP_COMMON_HOME}} — путь хранения файлов для модуля common.
*{{path|HADOOP_COMMON_LIB_NATIVE_DIR}} — место размещения библиотеки native-hadoop.
*{{path|HADOOP_OPTS}} — дополнительные опции запуска.
*{{path|YARN_HOME}} — путь размещения файлов модуля YARN.
*{{path|PATH}} — дополняет общую переменную PATH, где хранятся пути хранения бинарников для запуска приложений.
==Настройка окружения Hadoop==
Открываеем от рута {{path|/opt/hadoop/etc/hadoop/hadoop-env.sh}}
Находим:
# export JAVA_HOME=
Меняем на:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.382.b05-0.x86_64/jre
(без /bin/java)
{{Note|Мы прописали актуальный путь до файлов openjdk}}
==Создание сертификатов==
Для работы Hadoop нужен сертификат, так как внутренние обращения выполняются с помощью запросов ssh. Нам нужно сгенерировать его.
$ ssh-keygen
{{Note|на все вопросы можно ответить по умолчанию, нажав Enter.}}
Копируем публичный ключ на локальный компьютер:
$ ssh-copy-id localhost
При первом обращении по SSH будет запрос на принятие сертификата:
Are you sure you want to continue connecting (yes/no/[fingerprint])? yes
Система запросит ввести пароль для нашего пользователя hadoop. После успешного ввода, мы должны увидеть:
Number of key(s) added: 1
Now try logging into the machine, with:  "ssh 'localhost'"
and check to make sure that only the key(s) you wanted were added.
Проверим вход в систему по ssh на все серверы — мы должны подключиться без запроса пароля:
$ ssh localhost
После отключаемся:
$ exit
Установка и настройка Hadoop завершена. Возвращаемся в консоль первичного пользователя:
$ exit
==Настройка Hadoop==
Правим файл /opt/hadoop/etc/hadoop/core-site.xml
Приведем его к виду:
<pre>
...
<!-- Put site-specific property overrides in this file. -->
<configuration>
  <property>
      <name>fs.default.name</name>
      <value>hdfs://hadoop1:9000</value> //? localhost
  </property>
</configuration>
</pre>
<nowiki>*</nowiki> где fs.default.name указывает на узел и порт обращения к внутренней файловой системе. В нашем примере на мастер-сервер (localhost) порту 9000. Данная настройка должна быть такой на всех нодах.
Редактируем файл с настройками файловой системы HDFS:
# mcedit /opt/hadoop/etc/hadoop/hdfs-site.xml
В итоге должно получиться:
<pre>
...
<!-- Put site-specific property overrides in this file. -->
<configuration>
  <property>
      <name>dfs.replication</name>
      <value>1</value>
  </property>
  <property>
      <name>dfs.name.dir</name>
      <value>file:///hadoop/hdfs/namenode</value>
  </property>
  <property>
      <name>dfs.data.dir</name>
      <value>file:///hadoop/hdfs/datanode</value>
  </property>
</configuration>
</pre>
* где:
<pre>
    dfs.replication — количество реплик. Не может быть больше узлов кластера.
    dfs.name.dir — путь хранения таблицы имен fsimage. Можно перечи
    dfs.data.dir — каталог для хранения блоков файловой системой HDFS.
</pre>
Открываем для редактирования файл для настройки MapReduce:
# mcedit /opt/hadoop/etc/hadoop/mapred-site.xml
Задаем следующие параметры:
<pre>
...
<!-- Put site-specific property overrides in this file. -->
<configuration>
  <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
  </property>
</configuration>
</pre>
* где mapreduce.framework.name — фреймворк для управления кластером.
Открываем файл для настройки YARN:
# mcedit /opt/hadoop/etc/hadoop/yarn-site.xml
Приводим его к виду:
<pre>
...
<configuration>
<!-- Site specific YARN configuration properties -->
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
</configuration>
</pre>
* где yarn.nodemanager.aux-services перечисляет вспомогательные классы обслуживания. По документации рекомендуют использовать mapreduce_shuffle.
==Создание служебных каталогов==
Создаем каталоги, которые мы указали для использования HDFS:
# mkdir -p /hadoop/hdfs/{namenode,datanode}
Для каталога /hadoop выставим в качестве владельца созданного пользователя hadoop:
# chown -R hadoop:hadoop /hadoop
Наши серверы настроены.
==Запуск кластера==
На мастер-сервере заходим под пользователем hadoop:
$ su - hadoop
Создаем файловую систему:
$ /opt/hadoop/bin/hdfs namenode -format
Для запуска кластера выполняем следующие команды:
$ /opt/hadoop/sbin/start-dfs.sh
$ /opt/hadoop/sbin/start-yarn.sh
Ждем еще немного (около 10 секунд) для окончательной загрузки java-приложения. После открываем в браузере адрес {{path|http://<IP-адрес мастер-сервера>:8088}}.
Кластер работает.
==Создание службы==
==Создание службы==
#Создаем системного пользователя для службы:
Создаем системного пользователя для службы:
#:<pre># adduser hadoop -m</pre>
<pre># adduser hadoop -m</pre>
#Назначаем права на нового системного пользователя
 
#:<pre># chown hadoop:hadoop -R /opt/hadoop</pre>
Назначаем права на нового системного пользователя
<!-- #Разрешим системному пользователю (от которого будет выполняться служба) запись в каталог с логами: -->
<pre># chown hadoop:hadoop -R /opt/hadoop</pre>
<!-- #:<pre># chmod -R 600 /opt/cassandra/logs</pre> -->
 
<!-- #Создаем служебный каталог для службы: NOT!!! -->
Настраиваем запуск hadoop в качестве сервиса.
<!-- #:<pre># mkdir -p /run/cassandra/</pre> NOT!!! -->
 
<!-- #:<pre># chown cassandra:cassandra /run/cassandra</pre> NOT!!! -->
Создаем файл:
#Идем в каталог со службами
 
#:<pre># cd /etc/systemd/system</pre>
# mcedit /etc/systemd/system/hadoop.service
#Создаем файл "hadoop.service" со следующим содержимым
Со следующим содержимым:
#:
<pre>
<pre>
[Unit]
[Unit]
Description=Hadoop Service
Description=Hdfs service
After=network.target
After=network.target
 
[Service]
[Service]
User=hadoop
Type=forking
Restart=on-failure
User=hadoop
ExecStart=/opt/hadoop/bin/hadoop
Group=hadoop
<!--  -f -R -p /run/cassandra/cassandra.pid -->
ExecStart=/opt/hadoop/sbin/start-all.sh
<!--  PIDFile=/run/cassandra/cassandra.pid  -->
ExecStop=/opt/hadoop/sbin/stop-all.sh
ExecReload=/bin/kill -HUP $MAINPID
Restart=on-failure
 
[Install]
[Install]
WantedBy=default.target
WantedBy=multi-user.target
</pre>
</pre>
#Перезагружаем список служб:
 
#:<pre># systemctl daemon-reload</pre>
Перечитываем конфигурацию systemd:
#Включаем и запускаем службу Cassandra
 
#:<pre># systemctl enable --now hadoop.service</pre>
# systemctl daemon-reload
 
Разрешаем автозапуск:
 
# systemctl enable --now hadoop
 
Для проверки можно перезагрузить сервер.

Версия от 12:14, 27 ноября 2023

Stub.png
Данная страница находится в разработке.
Эта страница ещё не закончена. Информация, представленная здесь, может оказаться неполной или неверной.
Apache Hadoop
Altenter-menu-Hadoop.png
Появился в: 2006
Оф. сайт: hadoop.apache.org
Репозиторий ALT Linux нет
Лицензия: Apache Licesne 2.0
и GNU GPL

Hadoop — проект фонда Apache Software Foundation, свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов.

Установка

Примечание: Необходимые версии Java указаны здесь

Установка Java

  1. Установите Java 1.8
    # apt-get install java-1.8.0-openjdk

Установка программы

  1. Скачайте архив с программой (bin)
    https://hbase.apache.org/downloads.html
  2. Распакуйте архив
    # tar xzvf hadoop*.tar.gz
  3. Скопируйте каталог в /opt
    # mv hadoop*/ /opt/hadoop
  4. Сделайте файлы исполняемыми
    # chmod +x -R /opt/hadoop

Создание файла профиля

Создаем файл с профилем:

# mcedit /etc/profile.d/hadoop.sh

Со следующим содержимым:

export HADOOP_HOME=/opt/hadoop
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="$HADOOP_OPTS -Djava.library.path=$HADOOP_HOME/lib/native"
export YARN_HOME=$HADOOP_HOME
export PATH="$PATH:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin"

в данном примере мы задаем системные переменные, требующиеся для работы hadoop:

  • HADOOP_HOME — путь, где находятся файлы hadoop.
  • HADOOP_HDFS_HOME — директория распределенной файловой системы HDFS.
  • HADOOP_MAPRED_HOME — необходима для возможности отправки задания MapReduce с помощью MapReduce v2 в YARN.
  • HADOOP_COMMON_HOME — путь хранения файлов для модуля common.
  • HADOOP_COMMON_LIB_NATIVE_DIR — место размещения библиотеки native-hadoop.
  • HADOOP_OPTS — дополнительные опции запуска.
  • YARN_HOME — путь размещения файлов модуля YARN.
  • PATH — дополняет общую переменную PATH, где хранятся пути хранения бинарников для запуска приложений.

Настройка окружения Hadoop

Открываеем от рута /opt/hadoop/etc/hadoop/hadoop-env.sh

Находим:

# export JAVA_HOME=

Меняем на:

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.382.b05-0.x86_64/jre

(без /bin/java)

Примечание: Мы прописали актуальный путь до файлов openjdk

Создание сертификатов

Для работы Hadoop нужен сертификат, так как внутренние обращения выполняются с помощью запросов ssh. Нам нужно сгенерировать его.

$ ssh-keygen
Примечание: на все вопросы можно ответить по умолчанию, нажав Enter.


Копируем публичный ключ на локальный компьютер:

$ ssh-copy-id localhost

При первом обращении по SSH будет запрос на принятие сертификата:

Are you sure you want to continue connecting (yes/no/[fingerprint])? yes

Система запросит ввести пароль для нашего пользователя hadoop. После успешного ввода, мы должны увидеть:

Number of key(s) added: 1

Now try logging into the machine, with:   "ssh 'localhost'"
and check to make sure that only the key(s) you wanted were added.

Проверим вход в систему по ssh на все серверы — мы должны подключиться без запроса пароля:

$ ssh localhost

После отключаемся:

$ exit

Установка и настройка Hadoop завершена. Возвращаемся в консоль первичного пользователя:

$ exit

Настройка Hadoop

Правим файл /opt/hadoop/etc/hadoop/core-site.xml

Приведем его к виду:

...
<!-- Put site-specific property overrides in this file. -->

<configuration>
   <property>
      <name>fs.default.name</name>
      <value>hdfs://hadoop1:9000</value> //? localhost
   </property>
</configuration>

* где fs.default.name указывает на узел и порт обращения к внутренней файловой системе. В нашем примере на мастер-сервер (localhost) порту 9000. Данная настройка должна быть такой на всех нодах.

Редактируем файл с настройками файловой системы HDFS:

# mcedit /opt/hadoop/etc/hadoop/hdfs-site.xml

В итоге должно получиться:

...
<!-- Put site-specific property overrides in this file. -->

<configuration>
   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>
   <property>
      <name>dfs.name.dir</name>
      <value>file:///hadoop/hdfs/namenode</value>
   </property>
   <property>
      <name>dfs.data.dir</name>
      <value>file:///hadoop/hdfs/datanode</value>
   </property>
</configuration>
  • где:
    dfs.replication — количество реплик. Не может быть больше узлов кластера.
    dfs.name.dir — путь хранения таблицы имен fsimage. Можно перечи
    dfs.data.dir — каталог для хранения блоков файловой системой HDFS.

Открываем для редактирования файл для настройки MapReduce:

# mcedit /opt/hadoop/etc/hadoop/mapred-site.xml

Задаем следующие параметры:

...
<!-- Put site-specific property overrides in this file. -->

<configuration>
   <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
   </property>
</configuration>
  • где mapreduce.framework.name — фреймворк для управления кластером.

Открываем файл для настройки YARN:

# mcedit /opt/hadoop/etc/hadoop/yarn-site.xml

Приводим его к виду:

...
<configuration>

<!-- Site specific YARN configuration properties -->
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
</configuration>
  • где yarn.nodemanager.aux-services перечисляет вспомогательные классы обслуживания. По документации рекомендуют использовать mapreduce_shuffle.

Создание служебных каталогов

Создаем каталоги, которые мы указали для использования HDFS:

# mkdir -p /hadoop/hdfs/{namenode,datanode}

Для каталога /hadoop выставим в качестве владельца созданного пользователя hadoop:

# chown -R hadoop:hadoop /hadoop

Наши серверы настроены.

Запуск кластера

На мастер-сервере заходим под пользователем hadoop:

$ su - hadoop

Создаем файловую систему:

$ /opt/hadoop/bin/hdfs namenode -format

Для запуска кластера выполняем следующие команды:

$ /opt/hadoop/sbin/start-dfs.sh
$ /opt/hadoop/sbin/start-yarn.sh

Ждем еще немного (около 10 секунд) для окончательной загрузки java-приложения. После открываем в браузере адрес http://<IP-адрес мастер-сервера>:8088.

Кластер работает.

Создание службы

Создаем системного пользователя для службы:

# adduser hadoop -m

Назначаем права на нового системного пользователя

# chown hadoop:hadoop -R /opt/hadoop

Настраиваем запуск hadoop в качестве сервиса.

Создаем файл:

# mcedit /etc/systemd/system/hadoop.service

Со следующим содержимым:

[Unit]
Description=Hdfs service
After=network.target

[Service]
Type=forking
User=hadoop
Group=hadoop
ExecStart=/opt/hadoop/sbin/start-all.sh
ExecStop=/opt/hadoop/sbin/stop-all.sh
ExecReload=/bin/kill -HUP $MAINPID
Restart=on-failure

[Install]
WantedBy=multi-user.target

Перечитываем конфигурацию systemd:

# systemctl daemon-reload

Разрешаем автозапуск:

# systemctl enable --now hadoop

Для проверки можно перезагрузить сервер.