Merge pull request #44 from huridocs/text_extraction

Add text extraction
huridocs · Jul 18, 2024 · 3cb0648 · 3cb0648
2 parents 53b7e17 + 81b1264
commit 3cb0648
Show file tree

Hide file tree

Showing 4 changed files with 62 additions and 0 deletions.
diff --git a/src/app.py b/src/app.py
@@ -9,6 +9,7 @@
 from pdf_layout_analysis.get_xml import get_xml
 from pdf_layout_analysis.run_pdf_layout_analysis import analyze_pdf
 from pdf_layout_analysis.run_pdf_layout_analysis_fast import analyze_pdf_fast
+from text_extraction.get_text_extraction import get_text_extraction
 from toc.get_toc import get_toc
 
 service_logger.info(f"Is PyTorch using GPU: {torch.cuda.is_available()}")
@@ -51,3 +52,9 @@ async def get_xml_by_name(xml_file_name: str):
 @catch_exceptions
 async def get_toc_endpoint(file: UploadFile = File(...), fast: bool = Form(False)):
     return await run_in_threadpool(get_toc, file, fast)
+
+
+@app.post("/text")
+@catch_exceptions
+async def get_text_endpoint(file: UploadFile = File(...), fast: bool = Form(False), types: str = Form("all")):
+    return await run_in_threadpool(get_text_extraction, file, fast, types)
diff --git a/src/test_end_to_end.py b/src/test_end_to_end.py
@@ -178,3 +178,28 @@ def test_toc_fast(self):
             self.assertEqual(response_json[0]["indentation"], 0)
             self.assertEqual(response_json[-1]["label"], "C. TITLE LONGER")
             self.assertEqual(response_json[-1]["indentation"], 2)
+
+    def test_text_extraction(self):
+        with open(f"{ROOT_PATH}/test_pdfs/test.pdf", "rb") as stream:
+            files = {"file": stream}
+
+            response = requests.post(f"{self.service_url}/text", files=files)
+
+            response_json = response.json()
+            self.assertEqual(response.status_code, 200)
+            self.assertEqual(response_json.split()[0], "Document")
+            self.assertEqual(response_json.split()[1], "Big")
+            self.assertEqual(response_json.split()[-1], "TEXT")
+
+    def test_text_extraction_fast(self):
+        with open(f"{ROOT_PATH}/test_pdfs/test.pdf", "rb") as stream:
+            files = {"file": stream}
+            data = {"fast": "True"}
+
+            response = requests.post(f"{self.service_url}/text", files=files, data=data)
+
+            response_json = response.json()
+            self.assertEqual(response.status_code, 200)
+            self.assertEqual(response_json.split()[0], "Document")
+            self.assertEqual(response_json.split()[1], "Big")
+            self.assertEqual(response_json.split()[-1], "TEXT")
diff --git a/src/text_extraction/extract_text.py b/src/text_extraction/extract_text.py
@@ -0,0 +1,14 @@
+from configuration import service_logger
+from pdf_token_type_labels.TokenType import TokenType
+
+
+def extract_text(segment_boxes: list[dict], types: list[TokenType]):
+    service_logger.info(f"Extracted types: {[t.name for t in types]}")
+    text = "\n".join(
+        [
+            segment_box["text"]
+            for segment_box in segment_boxes
+            if TokenType.from_text(segment_box["type"].replace(" ", "_")) in types
+        ]
+    )
+    return text
diff --git a/src/text_extraction/get_text_extraction.py b/src/text_extraction/get_text_extraction.py
@@ -0,0 +1,16 @@
+from fastapi import UploadFile
+from pdf_token_type_labels.TokenType import TokenType
+from pdf_layout_analysis.run_pdf_layout_analysis import analyze_pdf
+from pdf_layout_analysis.run_pdf_layout_analysis_fast import analyze_pdf_fast
+from text_extraction.extract_text import extract_text
+
+
+def get_text_extraction(file: UploadFile, fast: bool, types: str):
+    file_content = file.file.read()
+    if types == "all":
+        token_types: list[TokenType] = [t for t in TokenType]
+    else:
+        token_types = list(set([TokenType.from_text(t.strip().replace(" ", "_")) for t in types.split(",")]))
+    if fast:
+        return extract_text(analyze_pdf_fast(file_content), token_types)
+    return extract_text(analyze_pdf(file_content, ""), token_types)