Trying to fix segmentation fault

ff23a21c · bbauvin · d055976e · ff23a21c · ff23a21c · ff23a21c
Commit ff23a21c authored Sep 15, 2016 by bbauvin
--- a/Code/MonoMutliViewClassifiers/Monoview/ClassifMonoView.py
+++ b/Code/MonoMutliViewClassifiers/Monoview/ClassifMonoView.py
@@ -13,7 +13,6 @@ from sklearn.ensemble import RandomForestClassifier     # RandomForest-Classifie
 import sklearn
 import numpy as np
 import random
-import scipy.sparse
 # Import own modules
@@ -59,14 +58,6 @@ def extractRandomTrainingSet(CLASS_LABELS, LEARNING_RATE, DATASET_LENGTH, NB_CLA
    return trainingExamplesIndices
-def extractSet(X, usedIndices):
-    if scipy.sparse.issparse(X):
-        for index in usedIndices:
-            pass
-    else:
-        return X[usedIndices]
 ##### Generating Test and Train Data
 def calcTrainTestOwn(X,y,split):

--- a/Code/MonoMutliViewClassifiers/Monoview/ExecClassifMonoView.py
+++ b/Code/MonoMutliViewClassifiers/Monoview/ExecClassifMonoView.py
@@ -12,8 +12,7 @@ import operator
 # Import 3rd party modules
 import numpy as np                      # for reading CSV-files and Series
 import pandas as pd                     # for Series and DataFrames
-import logging
+import logging                          # To create Log-Files
-from scipy import sparse # To create Log-Files
 from sklearn import metrics		        # For stastics on classification
 import h5py
@@ -23,7 +22,7 @@ import ExportResults                    # Functions to render results
 import MonoviewClassifiers
 import Metrics
 from analyzeResult import execute
-from utils.Dataset import getV, getValue
+from utils.Dataset import getV, getValue, extractSubset
 # Author-Info
 __author__ 	= "Nikolas Huelsmann, Baptiste BAUVIN"
@@ -72,9 +71,9 @@ def ExecMonoview(X, Y, name, learningRate, nbFolds, nbCores, databaseType, path,
    logging.debug("Start:\t Determine Train/Test split")
    testIndices = ClassifMonoView.splitDataset(Y, nbClass, learningRate, datasetLength)
    trainIndices = [i for i in range(datasetLength) if i not in testIndices]
-    print sparse.eye(347)*X
-    print "poulet"
+    X_train = extractSubset(X,trainIndices) #ClassifMonoView.extractSet(X, trainIndices)
-    X_train = X[trainIndices]#ClassifMonoView.extractSet(X, trainIndices)
+    testIndices = np.arange(100)
    X_test = X[testIndices]#ClassifMonoView.extractSet(X,testIndices)
    y_train = Y[trainIndices]

--- a/Code/MonoMutliViewClassifiers/utils/Dataset.py
+++ b/Code/MonoMutliViewClassifiers/utils/Dataset.py
-import h5py
 from scipy import sparse
+import numpy as np
 def getV(DATASET, viewIndex, usedIndices=None):
@@ -29,3 +29,19 @@ def getValue(DATASET):
                                  DATASET.get("indices").value,
                                  DATASET.get("indptr").value),
                                 shape=DATASET.attrs["shape"])
+def extractSubset(matrix, usedIndices):
+    if sparse.issparse(matrix):
+        newIndptr = np.zeros(len(usedIndices)+1, dtype=np.int16)
+        oldindptr = matrix.indptr
+        for exampleIndexIndex, exampleIndex in enumerate(usedIndices):
+            if exampleIndexIndex>0:
+                newIndptr[exampleIndexIndex] = newIndptr[exampleIndexIndex-1]+(oldindptr[exampleIndex]-oldindptr[exampleIndex-1])
+        newData = np.ones(newIndptr[-1], dtype=bool)
+        newIndices =  np.zeros(newIndptr[-1], dtype=np.int32)
+        oldIndices = matrix.indices
+        for exampleIndexIndex, exampleIndex in enumerate(usedIndices):
+            newIndices[newIndptr[exampleIndexIndex]:newIndptr[exampleIndexIndex]] = oldIndices[oldindptr[exampleIndex], oldindptr[exampleIndex+1]]
+        return sparse.csr_matrix((newData, newIndices, newIndptr), shape=(len(usedIndices), matrix.shape))
+    else:
+        return matrix[usedIndices]
\ No newline at end of file