adding convertVAX_LOTColumnToUpperCase() in VaersDescrReader

2023-01-27 10:54:48 +01:00
parent 702d48aaf7
commit 68fcb4da40
4 changed files with 8 additions and 74 deletions
--- a/src/HowBadIsMyBatch.ipynb
+++ b/src/HowBadIsMyBatch.ipynb
@@ -182,14 +182,14 @@
  {
   "cell_type": "code",
   "execution_count": null,
-   "id": "fc2c5591",
+   "id": "6e6efc19",
   "metadata": {},
   "outputs": [],
   "source": [
    "from HistogramDescriptionPersister import HistogramDescriptionPersister\n",
    "\n",
    "histogramDescriptionPersister = HistogramDescriptionPersister('../docs/data/histograms')\n",
-    "histogramDescriptionPersister.saveHistogramDescriptionsForBatchcodes(['eh9899'], dictByBatchcodeTable)"
+    "histogramDescriptionPersister.saveHistogramDescriptionsForBatchcodes(batchcodes[:100], dictByBatchcodeTable)"
   ]
  },
  {
@@ -202,33 +202,6 @@
    "batchcodes[:10]"
   ]
  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "id": "ba9f665a",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "from TableByBatchcodeFilter import TableByBatchcodeFilter\n",
-    "filteredTable = TableByBatchcodeFilter.filterTableByBatchcode('<NA>', dictByBatchcodeTable)\n",
-    "filteredTable"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "id": "c7027164",
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "from DictByBatchcodeTable2DictConverter import DictByBatchcodeTable2DictConverter\n",
-    "import json\n",
-    "# FK-TODO: filterTableByBatchcode() und convertDictByBatchcodeTable2Json() für alle Batchcodes aufrufen und jedes Ergebnis in einer Datei batchcode.json speichern.\n",
-    "dict = DictByBatchcodeTable2DictConverter.convertDictByBatchcodeTable2Dict(filteredTable, 'FE6208')\n",
-    "dict\n",
-    "# print(json.dumps(json.loads(jsonActual), indent=2))"
-   ]
-  },
  {
   "cell_type": "code",
   "execution_count": null,
--- a/src/SymptomByBatchcodeTableFactory.py
+++ b/src/SymptomByBatchcodeTableFactory.py
@@ -1,12 +1,10 @@
 import pandas as pd
 import numpy as np
-from DataFrameNormalizer import DataFrameNormalizer

 class SymptomByBatchcodeTableFactory:

    @staticmethod
    def createSymptomByBatchcodeTable(VAERSVAX, VAERSSYMPTOMS):
-        DataFrameNormalizer.convertVAX_LOTColumnToUpperCase(VAERSVAX)
        index_columns = SymptomByBatchcodeTableFactory._getIndexColumns(VAERSVAX)
        symptomColumn = 'SYMPTOM'
        return (pd
--- a/src/SymptomByBatchcodeTableFactoryTest.py
+++ b/src/SymptomByBatchcodeTableFactoryTest.py
@@ -167,45 +167,3 @@ class SymptomByBatchcodeTableFactoryTest(unittest.TestCase):
                index = pd.MultiIndex.from_tuples(
                    names =   ['VAX_LOT1', 'VAX_LOT2'],
                    tuples = [['1808982',  'EW0175']] * 13 + [['EW0167', 'EW0175']] * 10)))
-
-    def test_createSymptomByBatchcodeTable_after_convertVAX_LOTColumnToUpperCase(self):
-        # Given
-        VAX_LOT = 'EW0175'
-        VAX_LOT_lower = VAX_LOT.lower()
-        VAERSVAX = TestHelper.createDataFrame(
-            columns = ['VAX_TYPE', 'VAX_MANU', 'VAX_LOT',     'VAX_DOSE_SERIES'],
-            data = [  ['COVID19',  'JANSSEN',  VAX_LOT,       '1'],
-                      ['COVID19',  'JANSSEN',  VAX_LOT_lower, '1']],
-            index = pd.Index(
-                    name = 'VAERS_ID',
-                    data=[
-                        2547730,
-                        2547731]),
-            dtypes = {
-                'VAX_DOSE_SERIES': 'string',
-                'VAX_LOT': 'string'})
-        VAERSSYMPTOMS = TestHelper.createDataFrame(
-            columns = ['SYMPTOM1',                           'SYMPTOM2', 'SYMPTOM3', 'SYMPTOM4', 'SYMPTOM5'],
-            data = [  ['Blood pressure orthostatic abnormal', np.nan,    np.nan,     np.nan,     np.nan],
-                      ['Blood pressure orthostatic abnormal', np.nan,    np.nan,     np.nan,     np.nan]],
-            index = pd.Index(
-                    name = 'VAERS_ID',
-                    data=[
-                        2547730,
-                        2547731]))
-                
-        # When
-        symptomByBatchcodeTable = SymptomByBatchcodeTableFactory.createSymptomByBatchcodeTable(VAERSVAX, VAERSSYMPTOMS)
-
-        # Then
-        assert_frame_equal(
-            symptomByBatchcodeTable,
-            TestHelper.createDataFrame(
-                columns = ['SYMPTOM'],
-                data = [  ['Blood pressure orthostatic abnormal'],
-                          ['Blood pressure orthostatic abnormal']],
-                index = pd.Index(
-                    name = 'VAX_LOT1',
-                    data = [VAX_LOT,
-                            VAX_LOT])),
-                check_dtype = False)
--- a/src/VaersDescrReader.py
+++ b/src/VaersDescrReader.py
@@ -1,4 +1,6 @@
 import pandas as pd
+from DataFrameNormalizer import DataFrameNormalizer
+

 class VaersDescrReader:
    
@@ -30,7 +32,7 @@ class VaersDescrReader:
            date_parser = lambda dateStr: pd.to_datetime(dateStr, format = "%m/%d/%Y"))

    def _readVAERSVAX(self, file):
-        return self._read_csv(
+        VAERSVAX = self._read_csv(
            file = file,
            usecols = ['VAERS_ID', 'VAX_DOSE_SERIES', 'VAX_TYPE', 'VAX_MANU', 'VAX_LOT'],
            dtype =
@@ -38,6 +40,9 @@ class VaersDescrReader:
                    "VAX_DOSE_SERIES": "string",
                    "VAX_LOT": "string"
                })
+        DataFrameNormalizer.convertVAX_LOTColumnToUpperCase(VAERSVAX)
+        return VAERSVAX
+

    def _readVAERSSYMPTOMS(self, file):
        return self._read_csv(