Últimos videos: Mira todos nuestros videos de tecnología en 4K!

HardwareNoticias

NVIDIA acelera Apache Spark, la principal plataforma líder en el de Análisis de Datos del mundo.

NVIDIA anunció que está colaborando con los líderes de la comunidad de código abierto para incorporar la aceleración por GPU integral a Apache Spark 3.0, un motor de análisis para el procesamiento de big data que utilizan más de 500,000 científicos de datos alrededor de todo el mundo.

Con el lanzamiento anticipado de Spark 3.0 a mediados de la primavera, por primera vez, los científicos de datos y los ingenieros de Machine Learning (ML) podrán aplicar una revolucionaria aceleración del GPU a las cargas de trabajo de procesamiento de datos de ETL (Extraer, Transformar y Cargar) que se llevan a cabo en las operaciones con bases de datos SQL.

Otro aspecto revolucionario es que la capacitación del modelo de IA podrá procesarse en el mismo clúster de Spark, en lugar de ejecutar las cargas de trabajo como procesos separados en una infraestructura separada. Este avance permite el análisis de datos de alto rendimiento en todo el proceso de la Ciencia de Datos (DC), para acelerar desde decenas a miles de terabytes de datos, desde el conjunto de datos hasta el entrenamiento del modelo, sin realizar ningún cambio en el código existente utilizado por las aplicaciones Spark, que se ejecutan en las instalaciones y en la nube.

«El análisis de datos es el mayor desafío informático de alto rendimiento que enfrentan las empresas e investigadores actuales», dijo Manuvir Das, jefe de Informática Empresarial de NVIDIA. «La aceleración del GPU nativa para toda la línea de Spark 3.0, desde ETL hasta capacitación e inferencia, ofrece el rendimiento y la escalabilidad necesarios para finalmente conectar el potencial de big data con el poder de la IA».

Aprovechando su sociedad en IA con NVIDIA, Adobe es una de las primeras compañías  que trabaja con una versión preliminar de Spark 3.0 que se ejecuta en Databricks. Adobe logró siete veces la mejora del rendimiento y un ahorro de costos del 90% en una prueba inicial, utilizando análisis de datos acelerados por GPU para el desarrollo de productos en Adobe Experience Cloud y recursos de soporte que impulsan los negocios digitales.

El avance en el rendimiento en Spark 3.0 mejora la precisión del modelo ya que permite a los científicos entrenar modelos con conjuntos de datos más grandes y repetir los entrenamientos con mayor frecuencia. Esto proporciona nuevas y poderosas capacidades para aquellos que necesitan procesar terabytes de datos nuevos todos los días, como los científicos de datos que respaldan los sistemas recomendados en línea o analizan nuevos datos de investigación. Además, un procesamiento más rápido significa que se necesitan menos recursos de hardware para entregar resultados, lo que proporciona un ahorro de costos significativo.

“Hemos notado un rendimiento mucho más rápido con Spark 3.0 acelerado por NVIDIA, en comparación con la ejecución de Spark en CPU”, dijo William Yan, Director Senior de Machine Learning de Adobe. “Con estos revolucionarios aumentos en el rendimiento del GPU, se abren posibilidades completamente nuevas para integrar características impulsadas por IA en nuestras herramientas de Adobe Experience Cloud de análisis y marketing integradas, que son líderes en la industria”.

Databricks y NVIDIA aportan más velocidad a Spark.

Apache Spark es una creación de los fundadores de Databricks, cuya plataforma de análisis de datos unificada y basada en la nube, se ejecuta en más de un millón de máquinas virtuales cada día. NVIDIA y Databricks también han colaborado para optimizar el conjunto de software RAPIDSTM para Databricks, que ejecuta cargas de trabajo de Ciencia de Datos y Machine Learning para la atención de la salud, las finanzas, la venta minorista y muchas otras industrias.

“Estamos entusiasmados de continuar nuestro trabajo con NVIDIA, para mejorar el rendimiento con optimizaciones RAPIDS para Apache Spark 3.0 y Databricks, que benefician a nuestros clientes conjuntos como Adobe», dijo Matei Zaharia, creador original de Apache Spark y jefe tecnológico en Databricks. “Estas contribuciones aceleran los procesos de datos, la capacitación y la calificación de modelos, lo que implica más avances y conocimientos para nuestra comunidad de ingenieros de datos y científicos de datos.”

Transferencias de datos y ETL más rápidos en Spark con las GPUs de NVIDIA.

NVIDIA aporta un nuevo acelerador de RAPIDS con código abierto para Apache Spark para ayudar a los científicos de datos a aumentar el rendimiento de sus procesos de forma integral. El acelerador intercepta funciones previamente realizadas por las CPUs y en su lugar, utiliza las GPUs para hacer lo siguiente:

  • Acelerar los procesos de ETL en Spark mejorando drásticamente el rendimiento de las operaciones de Spark SQL y DataFrame sin requerir ningún cambio de código.
  • Acelerar la preparación de datos y la capacitación de modelos en el mismo conjunto de infraestructura, donde no se requiere un clúster separado para Machine Learning y Deep Learning.
  • Acelerar el rendimiento de la transferencia de datos a través de nodos en un clúster distribuido de Spark. Estas bibliotecas aprovechan el marco de trabajo de código abierto UCX (Unified Communication X) y minimizan la latencia, ya que permiten que los datos se muevan directamente entre la memoria de la GPU.

Una versión previa de Spark 3.0 ya está disponible a través de Apache Software Foundation. Se espera que la versión para el público en general esté disponible en los próximos meses. Para obtener más información, visita www.nvidia.com/spark.

Autor

Entusiasta del hardware, apasionada de los videojuegos y la actualidad tecnológica. Principiante en streaming con aspiraciones a crecer en la comunidad gamer.
    Publicaciones relacionadas
    Noticias

    UNRAILED 2: BACK ON TRACK ANUNCIA FIN DE SEMANA GRATUITO

    Noticias

    Overwatch 2 y World of Warcraft se unen en un evento crossover

    Noticias

    Copa City presenta a David Luiz del Club Flamengo en el nuevo capítulo de su video podcast

    Noticias

    Ya está disponible la Temporada 6 de Call of Duty: Modern Warfare III y Warzone