Estudos e projetos feitos com PySpark.

Last update: Nov 06, 2022

Related tags

Overview

PySpark (Spark com Python)

PySpark é uma biblioteca Spark escrita em Python, e seu objetivo é permitir a análise interativa dos dados em um ambiente distribuído. Seu uso é extremamente importante quando o assunto é grande volume de dados, BigData, por conta do seu processamento eficiente de grandes conjuntos de dados.

Documentação

Data

Os dados para esse tutorial foram obtidos no Kaggle, a base é pequena, então teoricamente utilizar o pyspark nesse caso seria "matar uma mosca com um canhão", mas como o objetivo é explorar as principais funções, esse dataset vai nos atender bem.

Para fazer download desse conjunto de dados você precisa ter uma conta no kaggle.

Tópicos

Vamos explorar as principais funções:

Count
Describe
Select
OrderBy
WithColumnRenamed
WithColumn
When
Drop
Filter
Where
GroupBy

Requisitos

Você precisará de Python 3 e pip. É altamente recomendado utilizar ambientes virtuais com o virtualenv ou com o conda e o arquivo requirements.txt para instalar os pacotes dependências do projeto:

Conda

$ conda create --name nameenv python
$ conda activate nameenv
$ pip install -r requirements.txt

Virtualenv

$ pip3 install virtualenv
$ virtualenv venv -p python3
$ source venv/bin/activate
$ pip install -r requirements.txt

Observação

Para executar o PySpark, você também precisa que o Java seja instalado.

Estudos e projetos feitos com PySpark.

Related tags

Overview

PySpark (Spark com Python)

Data

Para fazer download desse conjunto de dados você precisa ter uma conta no kaggle.

Tópicos

Requisitos

Observação

Owner

Karinne Cristina

Optuna is an automatic hyperparameter optimization software framework, particularly designed for machine learning

Book Recommender System Using Sci-kit learn N-neighbours

Forecasting prices using Facebook/Meta's Prophet model

Responsible Machine Learning with Python

A machine learning toolkit dedicated to time-series data

Backtesting an algorithmic trading strategy using Machine Learning and Sentiment Analysis.

Predict profitability of trades based on indicator buy / sell signals

WAGMA-SGD is a decentralized asynchronous SGD for distributed deep learning training based on model averaging.

Implemented four supervised learning Machine Learning algorithms

My project contrasts K-Nearest Neighbors and Random Forrest Regressors on Real World data

This is an implementation of the proximal policy optimization algorithm for the C++ API of Pytorch

MICOM is a Python package for metabolic modeling of microbial communities

A Python library for choreographing your machine learning research.

GroundSeg Clustering Optimized Kdtree

The Ultimate FREE Machine Learning Study Plan

A toolkit for making real world machine learning and data analysis applications in C++

Auto updating website that tracks closed & open issues/PRs on scikit-learn/scikit-learn.

MBTR is a python package for multivariate boosted tree regressors trained in parameter space.

K-means clustering is a method used for clustering analysis, especially in data mining and statistics.

MLOps pipeline project using Amazon SageMaker Pipelines