Saltar al contenido principal
InicioTutorialesPython

Instalación de PySpark (Todos los sistemas operativos)

Este tutorial mostrará la instalación de PySpark y cómo gestionar las variables de entorno en los sistemas operativos Windows, Linux y Mac.
may 2024  · 8 min leer

banner

Pyspark = Python + Apache Spark

Apache Spark es un marco de trabajo nuevo y de código abierto utilizado en el sector de los macrodatos para el procesamiento en tiempo real y por lotes. Es compatible con diferentes lenguajes, como Python, Scala, Java y R.

Apache Spark está escrito inicialmente en un lenguaje de máquina virtual Java (JVM) llamado Scala, mientras que Pyspark es como una API de Python que contiene una biblioteca llamada Py4J. Esto permite una interacción dinámica con los objetos de la JVM.

Instalación en Windows

La instalación que se va a mostrar es para el sistema operativo Windows. Consiste en la instalación de Java con la variable de entorno y Apache Spark con la variable de entorno.

El prerrequisito de instalación recomendado es Python, que se realiza desde aquí.

Instalación de Java

  1. Vaya a Descargar Java JDK.
    Visite el sitio web de Oracle para descargar Java Development Kit(JDK).

  2. Mover a la sección de descarga que consiste en el sistema operativo Windows, y en mi caso, es Windows Offline(64-bit). Se descargará el archivo de instalación. Instalación de Java

  3. Abra el archivo de instalación y comenzará la descarga. Instalación de Java

  4. Vaya a "Símbolo del sistema" y escriba "java -version" para conocer la versión y saber si está instalado o no. Instalación de Java

  5. Añada la ruta de Java Instalación de Java

  6. Vaya a la barra de búsqueda y "EDITAR LAS VARIABLES DE ENTORNO". Instalación de Java
  7. Haga clic en "Variables de entorno" Instalación de Java
  8. Haga clic en "Nuevo" para crear su nueva variable de entorno. Instalación de Java
  9. Utilice como nombre de variable "JAVA_HOME" y como valor de variable "C:\Program Files (x86)\Java\jdk1.8.0_251". Esta es la ubicación del archivo Java. Haga clic en "Aceptar" cuando haya terminado el proceso. Instalación de Java
  10. Vamos a añadir la variable User y seleccionar 'Path' y hacer click en 'New' para crearla. Instalación de Java
  11. Añada el nombre de la variable como 'PATH' y el valor de la ruta como 'C:\program Files (x86)\ Java\jdk1.8.0_251\bin', que es la ubicación de su archivo bin de Java. Haga clic en "Aceptar" cuando haya terminado el proceso. Instalación de Java

Nota: Puede localizar su archivo Java accediendo a la unidad C, que es C:\Program Files (x86)\ Java\jdk1.8.0_251' si no ha cambiado de ubicación durante la descarga. Instalación de Java

Instalación de Pyspark

  1. Vaya a la página principal de Spark.

  2. Seleccione la versión de Spark y el tipo de paquete como se indica a continuación y descargue el archivo .tgz.

Instalación de Pyspark Instalación de Pyspark

Puedes crear una nueva carpeta llamada 'spark' en el directorio C y extraer el archivo dado usando 'Winrar', que te será útil después.

Descargar e instalar winutils.exe

Vaya a Winutils elija su versión de Hadoop previamente descargada, luego descargue el archivo winutils.exe entrando en 'bin'. El enlace a mi versión de Hadoop es: https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exe

Crea una nueva carpeta llamada 'winutils' y dentro de ella crea de nuevo una nueva carpeta llamada 'bin'.Entonces pon el archivo recién descargado 'winutils' dentro de ella.

Variables de entorno

  1. Vamos a crear un nuevo entorno donde el nombre de la variable como "hadoop_home" y el valor de la variable para ser la ubicación de winutils, que es "C:\winutils" y haga clic en "Aceptar".
    Variables de entorno
  2. Para spark, también vamos a crear un nuevo entorno donde el nombre de la variable es "Spark_home" y el valor de la variable para ser la ubicación de spark, que es "C:\spark" y haga clic en "Aceptar".
    Variables de entorno
  3. Por último, haga doble clic en la 'ruta' y cambie lo siguiente como se hace a continuación donde se crea una nueva ruta "%Spark_Home%\bin' se añade y haga clic en "Aceptar".
    Variables de entorno

Finalización de la instalación de Pyspark

  1. Abra el símbolo del sistema y escriba el siguiente comando.
    Finalización de la instalación de Pyspark
  2. Una vez que todo se ha realizado con éxito, se obtiene el siguiente mensaje.
    Finalizando la instalación de Pyspark

Instalación de Linux

La instalación que se va a mostrar es para el Sistema Operativo Linux. Consiste en la instalación de Java con la variable de entorno junto con Apache Spark y la variable de entorno.

El prerrequisito de instalación recomendado es Python, que se realiza desde aquí.

Java Installation

  1. Vaya a Descargar Java JDK.
    Visite el sitio web de Oracle para descargar el kit de desarrollo de Java (JDK).

  2. Vaya a la sección de descargas del sistema operativo Linux y descárguelo según los requisitos de su sistema.
    Instalación de Java
  3. Guarde el archivo y haga clic en "Aceptar" para guardarlo en su equipo local.
    Instalación de Java
  4. Vaya a su terminal y compruebe el archivo descargado recientemente mediante el comando 'ls'.
    Instalación de Java
  5. Instale el paquete utilizando el siguiente comando, que instalará el paquete debian de java, recientemente descargado. Instalación de Java
  6. Por último, puede comprobar la versión de Java con el comando 'java --version'.
    Instalación de Java
  7. Para configurar las variables de entorno, abramos el editor de texto 'gedit' utilizando el siguiente comando.
    Instalación de Java
  8. Hagamos el cambio proporcionando la siguiente información donde se especifica la ruta 'Java'.
    Instalación de Java
  9. Para realizar un último cambio, escribamos el siguiente comando. Instalación de Java

Instalación de Spark

  1. Vaya a la página principal de Spark.
  2. Seleccione la versión de Spark y el tipo de paquete como se indica a continuación y descargue el archivo .tgz. Instalación de Spark
    Instalación de Spark
  3. Guarde el archivo en su equipo local y haga clic en "Aceptar".
    Instalación de Spark
  4. Abra su terminal y vaya al archivo recién descargado.
    Instalación de Spark
  5. Vamos a extraer el archivo utilizando el siguiente comando.
    Instalación de Spark
  6. Tras extraer el archivo, se crea el nuevo archivo y se muestra mediante el comando list('ls').
    Instalación de Spark

Configuración de variables de entorno en Linux

  1. Abramos el archivo 'bashrc' usando el 'editor vim' con el comando 'vim ~/.bashrc'.
    Configurando la Variable de Entorno en Linux
  2. Proporcione la siguiente información de acuerdo con la ruta adecuada en su ordenador. En mi caso, las siguientes fueron las rutas requeridas para mi ubicación de Spark, Python y Java. Además, primero pulse 'Esc' y luego escriba ":wq" para guardar y salir de vim.
    Configuración de la variable de entorno en Linux
  3. Para realizar un cambio final, guarde y salga. Esto da como resultado el acceso al comando pyspark en cualquier parte del directorio. Configuración de la variable de entorno en Linux
  4. Abra pyspark usando el comando 'pyspark', y el mensaje final se mostrará como se muestra a continuación. de la variable de entorno en Linux Configuración Configuración de la variable de entorno en Linux

Instalación en Mac

La instalación que se va a mostrar es para el sistema operativo Mac. Consiste en la instalación de Java con la variable de entorno junto con Apache Spark y la variable de entorno.

El prerrequisito de instalación recomendado es Python, que se realiza desde aquí.

Java Installation

  1. Vaya a Descargar Java JDK.
    Visite el sitio web de Oracle para descargar el kit de desarrollo de Java (JDK).

  2. Mover a la sección de descarga que consiste en el sistema operativo Linux y descargar de acuerdo a su requisito del sistema.
    Instalación de Java
  3. La instalación de Java puede confirmarse utilizando $java --showversion en el Terminal.

Instalación de Apache Spark

  1. Vaya a la página principal de Spark.
  2. Seleccione la versión de Spark y el tipo de paquete como se indica a continuación y descargue el archivo .tgz. Instalación de
    Instalación de Apache Spark
  3. Guarde el archivo en su equipo local y haga clic en "Aceptar".
  4. Vamos a extraer el archivo utilizando el siguiente comando.
    $ tar -xzf spark-2.4.6-bin-hadoop2.7.tgz

Configuración de variables de entorno para Apache Spark y Python

Tienes que abrir el archivo ~/.bashrc o ~/.zshrc dependiendo de la versión actual de tu Mac.

export SPARK_HOME="/Downloads/spark"
export PATH=$SPARK_HOME/bin:$PATH
export PYSPARK_PYTHON=python3

Abra pyspark utilizando el comando 'pyspark', y el mensaje final se mostrará como se muestra a continuación. Configuración de la variable de entorno para Apache Spark y Python

Enhorabuena

Enhorabuena, has llegado al final de este tutorial.

En este tutorial, has aprendido acerca de la instalación de Pyspark, el inicio de la instalación de Java junto con Apache Spark y la gestión de las variables de entorno en Windows, Linux y Mac Sistema Operativo.

Si desea obtener más información sobre Pyspark, realice la Introducción a Pyspark de DataCamp.

Consulte nuestro tutorial sobre Apache Spark en : ML con PySpark.

Temas

Cursos de PySpark

Course

Introduction to PySpark

4 hr
134.1K
Learn to implement distributed data management and machine learning in Spark using the PySpark package.
See DetailsRight Arrow
Start Course
Ver másRight Arrow
Relacionado

tutorial

Cómo recortar una cadena en Python: Tres métodos diferentes

Aprenda los fundamentos del recorte de caracteres iniciales y finales de una cadena en Python.

Adel Nehme

5 min

tutorial

Pandas Profiling (ydata-profiling) en Python: Guía para principiantes

Aprenda a utilizar la biblioteca ydata-profiling en Python para generar informes detallados de conjuntos de datos con muchas características.
Satyam Tripathi's photo

Satyam Tripathi

9 min

tutorial

Guía completa de listas vacías en Python

Aprenda las principales operaciones con listas y los casos de uso de las listas vacías en Python.
Adel Nehme's photo

Adel Nehme

5 min

tutorial

Programación funcional frente a programación orientada a objetos en el análisis de datos

Explore dos de los paradigmas de programación más utilizados en la ciencia de datos: la programación orientada a objetos y la programación funcional.
Amberle McKee's photo

Amberle McKee

15 min

tutorial

Guía paso a paso para hacer mapas en Python usando la librería Plotly

Haz que tus datos destaquen con impresionantes mapas creados con Plotly en Python
Moez Ali's photo

Moez Ali

7 min

tutorial

Tutorial de Python Seaborn Line Plot: Crear visualizaciones de datos

Descubra cómo utilizar Seaborn, una popular biblioteca de visualización de datos de Python, para crear y personalizar gráficos de líneas en Python.
Elena Kosourova's photo

Elena Kosourova

12 min

See MoreSee More