freelawproject · johnhawkinson · May 18, 2018 · May 16, 2018 · May 16, 2018 · May 16, 2018
diff --git a/juriscraper/pacer/rss_feeds.py b/juriscraper/pacer/rss_feeds.py
@@ -12,6 +12,7 @@
 from ..lib.html_utils import html_unescape
 from ..lib.log_tools import make_default_logger
 from ..lib.string_utils import harmonize, clean_string
+from ..lib.utils import previous_and_next
 
 logger = make_default_logger()
 
@@ -98,19 +99,52 @@ def _parse_text(self, text):
 
     @property
     def data(self):
-        """Override this to create a list of docket-like objects instead of the
-         usual dict that is usually provided by the docket report.
+        """Return a list of docket-like objects instead of the usual dict that
+         is usually provided by the BaseDocketReport superclass.
+
+        When CMECF generates the RSS feed, it breaks up items with
+        multiple consecutive entries into multiple RSS items with
+        identical timestamp/id/title.  We reverse that and recombine
+        those items.
         """
         if self._data is not None:
             return self._data
 
         data_list = []
-        for entry in self.feed.entries:
+        for previous_entry, entry, next_entry in previous_and_next(
+                self.feed.entries):
             data = self.metadata(entry)
+
+            # We are guaranteed to only have a single docket entry for each
+            # RSS item, and thus we use data['docket_entries'][0] below.
+            # Coming up with an alternative data representation here and
+            # then transforming it into what CL expects after we're done
+            # iterating over the list is just not worth the bother.
+            data[u'docket_entries'] = self.docket_entries(entry)
+            # BUT: Guarantee this condition persists into the future:
+            assert len(data[u'docket_entries']) <= 1
+
+            # If this entry and the immediately prior entry match
+            # in metadata, then add the current description to
+            # the previous entry's and continue the loop.
+            if (
+                data_list and data_list[-1][u'docket_entries']
+                and data[u'docket_entries']
+                and entry.title == previous_entry.title
+                and entry.link == previous_entry.link
+                and entry.id == previous_entry.id
+                and entry.published == previous_entry.published
+            ):
+                data_list[-1][u'docket_entries'][0][u'short_description'] += (
+                    ' AND ' +
+                    data[u'docket_entries'][0][u'short_description'])
+                continue
+
             data[u'parties'] = None
             data[u'docket_entries'] = self.docket_entries(entry)
-            if data[u'docket_entries'] and data['docket_number']:
+            if data[u'docket_entries'] and data[u'docket_number']:
                 data_list.append(data)
+
         self._data = data_list
         return data_list
 
@@ -146,7 +180,7 @@ def docket_entries(self, entry):
             u'date_filed': date(*entry.published_parsed[:3]),
             u'document_number': self._get_value(self.document_number_regex,
                                                 entry.summary),
-            u'description': '',
+            u'description': u'',
             u'short_description': html_unescape(
                 self._get_value(self.short_desc_regex, entry.summary)),
         }

diff --git a/tests/examples/pacer/rss_feeds/nysb_1.json b/tests/examples/pacer/rss_feeds/nysb_1.json
@@ -717,34 +717,7 @@
         "description": "", 
         "document_number": "47", 
         "pacer_doc_id": "126018830304", 
-        "short_description": "Motion, Redact (Fee) (NOT to be used for redacting in Transcripts)"
-      }
-    ], 
-    "docket_number": "16-35015", 
-    "jurisdiction": "", 
-    "jury_demand": "", 
-    "nature_of_suit": "", 
-    "pacer_case_id": "263474", 
-    "parties": null, 
-    "referred_to_str": ""
-  }, 
-  {
-    "assigned_to_str": "", 
-    "case_name": "Angela S. Bittencourt", 
-    "cause": "", 
-    "court_id": "nysb", 
-    "date_converted": null, 
-    "date_discharged": null, 
-    "date_filed": null, 
-    "date_terminated": null, 
-    "demand": "", 
-    "docket_entries": [
-      {
-        "date_filed": "2018-04-19", 
-        "description": "", 
-        "document_number": "47", 
-        "pacer_doc_id": "126018830304", 
-        "short_description": "Motion, Redact (Fee) (NOT to be used for redacting in Transcripts)"
+        "short_description": "Motion, Redact (Fee) (NOT to be used for redacting in Transcripts) AND Motion, Redact (Fee) (NOT to be used for redacting in Transcripts)"
       }
     ], 
     "docket_number": "16-35015",