# Importing the dataset
from keras.datasets import imdb
import numpy as np
from keras import models, layers, optimizers, metrics
import matplotlib.pyplot as plt

# Importing the IMDB data
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(
num_words=10000)

# PREPARING THE DATA
# Function Vectorizing the the data
def vectorize_sequences(sequences, dimension=10000):
  results = np.zeros((len(sequences), dimension))
  for i, sequence in enumerate(sequences):
    results[i, sequence] = 1.
  return results

# Vectorizing the data using the function above
x_train = vectorize_sequences(train_data)
x_test = vectorize_sequences(test_data)
y_train = np.asarray(train_labels).astype('float32')
y_test = np.asarray(test_labels).astype('float32')

# Holding Out Data For Validation
x_val = x_train[:10000]
partial_x_train = x_train[10000:]
y_val = y_train[:10000]
partial_y_train = y_train[10000:]

# CREATING THE SMALLEST MODEL
# Only 1 Layer model with SIGMOID activation function.
model = models.Sequential()
model.add(layers.Dense(1, activation='sigmoid', input_shape=(10000,)))

# Compiling, Keeping RMSPROP Optimizer, Binary Cross-Entropy Loss-Function
model.compile(optimizer='rmsprop',
loss='binary_crossentropy',
metrics=['accuracy',metrics.Precision(name='precision')])

# Training the Model, Keeping the EPOCHS to 3 and Batch Size to 32
history = model.fit(partial_x_train,
partial_y_train,
epochs=3,
batch_size=32,
validation_data=(x_val, y_val))

Epoch 1/3
469/469 [==============================] - 5s 9ms/step - loss: 0.4795 - accuracy: 0.8355 - precision: 0.8382 - val_loss: 0.3789 - val_accuracy: 0.8709 - val_precision: 0.8576
Epoch 2/3
469/469 [==============================] - 2s 4ms/step - loss: 0.3197 - accuracy: 0.8951 - precision: 0.8883 - val_loss: 0.3176 - val_accuracy: 0.8836 - val_precision: 0.8931
Epoch 3/3
469/469 [==============================] - 2s 4ms/step - loss: 0.2648 - accuracy: 0.9086 - precision: 0.9035 - val_loss: 0.2915 - val_accuracy: 0.8903 - val_precision: 0.8760

# Plotting the Loss for Valiation and Training
history_dict_small = history.history
loss_values = history_dict_small['loss']
val_loss_values = history_dict_small['val_loss']
epochs = range(1, len(loss_values) + 1)
plt.plot(epochs, loss_values, 'bo', label='Training loss')
plt.plot(epochs, val_loss_values, 'b', label='Validation loss')
plt.title('Training and validation loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()
plt.show()

# Plotting the results for Training and Validation Accuracy
plt.clf()
acc = history_dict_small['accuracy']
val_acc = history_dict_small['val_accuracy']
plt.plot(epochs, acc, 'bo', label='Training acc')
plt.plot(epochs, val_acc, 'b', label='Validation acc')
plt.title('Training and validation accuracy')
plt.xlabel('Epochs')
plt.ylabel('Accuracy')
plt.legend()
plt.show()

# Plotting the results of Training and Validation Precision
plt.clf()
prec = history_dict_small['precision'] 
val_prec = history_dict_small['val_precision']
plt.plot(epochs, acc, 'bo', label='Training Precision')
plt.plot(epochs, val_acc, 'b', label='Validation Precision')
plt.title('Training and validation Precision')
plt.xlabel('Epochs')
plt.ylabel('Precision')
plt.legend()
plt.show()

# Creating an overfit model
overfit_model = models.Sequential()
overfit_model.add(layers.Dense(32, activation='relu', input_shape=(10000,)))
overfit_model.add(layers.Dense(32, activation='relu'))
overfit_model.add(layers.Dense(32, activation='relu'))
overfit_model.add(layers.Dense(1, activation='sigmoid'))

# Compiling the Model
overfit_model.compile(optimizer='rmsprop',
loss='binary_crossentropy',
metrics=['accuracy',metrics.Precision(name='precision')])

# Training the Model with 10 Epochs and 512 Batch Size
overfit_history = overfit_model.fit(partial_x_train,
partial_y_train,
epochs=10,
batch_size=512,
validation_data=(x_val, y_val))

Epoch 1/10
30/30 [==============================] - 4s 114ms/step - loss: 0.5235 - accuracy: 0.7491 - precision: 0.7444 - val_loss: 0.3596 - val_accuracy: 0.8684 - val_precision: 0.8583
Epoch 2/10
30/30 [==============================] - 4s 128ms/step - loss: 0.3018 - accuracy: 0.8881 - precision: 0.8821 - val_loss: 0.2937 - val_accuracy: 0.8822 - val_precision: 0.8523
Epoch 3/10
30/30 [==============================] - 2s 79ms/step - loss: 0.2173 - accuracy: 0.9212 - precision: 0.9154 - val_loss: 0.2886 - val_accuracy: 0.8861 - val_precision: 0.9173
Epoch 4/10
30/30 [==============================] - 2s 59ms/step - loss: 0.1767 - accuracy: 0.9343 - precision: 0.9328 - val_loss: 0.2802 - val_accuracy: 0.8871 - val_precision: 0.8881
Epoch 5/10
30/30 [==============================] - 2s 52ms/step - loss: 0.1290 - accuracy: 0.9576 - precision: 0.9560 - val_loss: 0.2979 - val_accuracy: 0.8840 - val_precision: 0.8774
Epoch 6/10
30/30 [==============================] - 1s 46ms/step - loss: 0.1182 - accuracy: 0.9588 - precision: 0.9592 - val_loss: 0.3139 - val_accuracy: 0.8831 - val_precision: 0.8829
Epoch 7/10
30/30 [==============================] - 1s 44ms/step - loss: 0.0779 - accuracy: 0.9748 - precision: 0.9733 - val_loss: 0.3726 - val_accuracy: 0.8777 - val_precision: 0.8412
Epoch 8/10
30/30 [==============================] - 2s 52ms/step - loss: 0.0707 - accuracy: 0.9788 - precision: 0.9779 - val_loss: 0.3701 - val_accuracy: 0.8796 - val_precision: 0.8821
Epoch 9/10
30/30 [==============================] - 2s 73ms/step - loss: 0.0541 - accuracy: 0.9843 - precision: 0.9849 - val_loss: 0.3956 - val_accuracy: 0.8799 - val_precision: 0.8757
Epoch 10/10
30/30 [==============================] - 2s 52ms/step - loss: 0.0479 - accuracy: 0.9849 - precision: 0.9848 - val_loss: 0.4201 - val_accuracy: 0.8766 - val_precision: 0.8755

# Plotting the results of Validation and Training Loss
history_dict_overfit = overfit_history.history
loss_values = history_dict_overfit['loss']
val_loss_values = history_dict_overfit['val_loss']
epochs = range(1, len(loss_values) + 1)
plt.plot(epochs, loss_values, 'bo', label='Training loss')
plt.plot(epochs, val_loss_values, 'b', label='Validation loss')
plt.title('Training and validation loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()
plt.show()

# Plotting the results for Training and Validation Accuracy for the Overfit Model
plt.clf()
acc = history_dict_overfit['accuracy']
val_acc = history_dict_overfit['val_accuracy']
plt.plot(epochs, acc, 'bo', label='Training acc')
plt.plot(epochs, val_acc, 'b', label='Validation acc')
plt.title('Training and validation accuracy')
plt.xlabel('Epochs')
plt.ylabel('Accuracy')
plt.legend()
plt.show()

# Plotting the results for Training and Validation Precision for the Overfit Model
plt.clf()
prec = history_dict_overfit['precision']
val_prec = history_dict_overfit['val_precision']
plt.plot(epochs, acc, 'bo', label='Training Precision')
plt.plot(epochs, val_acc, 'b', label='Validation Precision')
plt.title('Training and validation Precision')
plt.xlabel('Epochs')
plt.ylabel('Precision')
plt.legend()
plt.show()

# STABLE MODEL
stable_model = models.Sequential()
stable_model.add(layers.Dense(16, activation='relu', input_shape=(10000,)))
stable_model.add(layers.Dropout(0.4)) # Drop Out Layer
stable_model.add(layers.Dense(16, activation='relu'))
stable_model.add(layers.Dropout(0.4)) # Drop Out Layer
stable_model.add(layers.Dense(1, activation='sigmoid'))

# Compiling the model and setting the optimizer
stable_model.compile(optimizer="rmsprop",
              loss='binary_crossentropy',
              metrics=['accuracy',metrics.Precision(name='precision')])

# Training the Stable model with 5 Epochs adn 512 batch size
stable_history = stable_model.fit(partial_x_train,
partial_y_train,
epochs = 5,
batch_size=512,
validation_data=(x_val, y_val))

Epoch 1/5
30/30 [==============================] - 3s 68ms/step - loss: 0.6078 - accuracy: 0.6857 - precision: 0.6661 - val_loss: 0.4901 - val_accuracy: 0.8542 - val_precision: 0.8550
Epoch 2/5
30/30 [==============================] - 2s 53ms/step - loss: 0.4666 - accuracy: 0.8151 - precision: 0.7954 - val_loss: 0.3777 - val_accuracy: 0.8726 - val_precision: 0.8488
Epoch 3/5
30/30 [==============================] - 1s 38ms/step - loss: 0.3737 - accuracy: 0.8649 - precision: 0.8527 - val_loss: 0.3362 - val_accuracy: 0.8754 - val_precision: 0.8380
Epoch 4/5
30/30 [==============================] - 1s 38ms/step - loss: 0.3127 - accuracy: 0.8926 - precision: 0.8844 - val_loss: 0.2924 - val_accuracy: 0.8891 - val_precision: 0.8773
Epoch 5/5
30/30 [==============================] - 1s 39ms/step - loss: 0.2688 - accuracy: 0.9134 - precision: 0.9115 - val_loss: 0.2855 - val_accuracy: 0.8833 - val_precision: 0.9153

# Plotting the training and validation Loss results for the stable model
history_dict_stable = stable_history.history
loss_values = history_dict_stable['loss']
val_loss_values = history_dict_stable['val_loss']
epochs = range(1, len(loss_values) + 1)
plt.plot(epochs, loss_values, 'bo', label='Training loss')
plt.plot(epochs, val_loss_values, 'b', label='Validation loss')
plt.title('Training and validation loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()
plt.show()

# Plotting the training and validation accuracy results for the stable model
plt.clf()
acc = history_dict_stable['accuracy']
val_acc = history_dict_stable['val_accuracy']
plt.plot(epochs, acc, 'bo', label='Training acc')
plt.plot(epochs, val_acc, 'b', label='Validation acc')
plt.title('Training and validation accuracy')
plt.xlabel('Epochs')
plt.ylabel('Accuracy')
plt.legend()
plt.show()

#  Plotting the training and validation Precision results for the stable model
plt.clf()
prec = history_dict_stable['precision']
val_prec = history_dict_stable['val_precision']
plt.plot(epochs, acc, 'bo', label='Training Precision')
plt.plot(epochs, val_acc, 'b', label='Validation Precision')
plt.title('Training and validation Precision')
plt.xlabel('Epochs')
plt.ylabel('Precision')
plt.legend()
plt.show()

# FINAL TRAINING ON ALL OF THE DATA
# With 5 Epochs and 512 Batch Size
stable_history_final = stable_model.fit(x_train,
y_train,
epochs = 5,
batch_size=512)

Epoch 1/5
49/49 [==============================] - 2s 30ms/step - loss: 0.2681 - accuracy: 0.9077 - precision: 0.9093
Epoch 2/5
49/49 [==============================] - 1s 29ms/step - loss: 0.2287 - accuracy: 0.9247 - precision: 0.9266
Epoch 3/5
49/49 [==============================] - 1s 30ms/step - loss: 0.2003 - accuracy: 0.9337 - precision: 0.9358
Epoch 4/5
49/49 [==============================] - 2s 34ms/step - loss: 0.1740 - accuracy: 0.9432 - precision: 0.9463
Epoch 5/5
49/49 [==============================] - 1s 30ms/step - loss: 0.1559 - accuracy: 0.9514 - precision: 0.9566

# Evaluating the stable model
results = stable_model.evaluate(x_test, y_test)

782/782 [==============================] - 2s 3ms/step - loss: 0.3300 - accuracy: 0.8840 - precision: 0.8870

# Predicting some values
stable_model.predict(x_test)

782/782 [==============================] - 2s 2ms/step

array([[0.0795797 ],
       [0.99999917],
       [0.9914555 ],
       ...,
       [0.05077999],
       [0.04882602],
       [0.7836425 ]], dtype=float32)

Machine Learning Final Report¶

1. Defining The Problem:¶

2. Measure of Success:¶

3. Evaluation Protocol:¶

4. Preparing the IMDB Data:¶

5. Building a Smallest Model:¶

Model:¶

Settings:¶

Training the model:¶

6. Scaling up - Developing a Model That Overfits:¶

7. Regularizing and Tuning Hyperparameters¶

Testing and Evaluation:¶

Evaluation:¶

References:¶