Seeking guideline to preserve formatting

Question

Hello everyone! Hope everything is fine 
 I am currently working on developing a web app which translates an input file and generates the output target file in sdlxliff format. 
 The problem that I am facing right now is that when text is extracted from the input file, it is being extracted as plain text (Formatting is not preserved) but I want the extracted text to be in the format as the input file and the same text formatting should be applied to the final .sdlxliff output file, I am sharing my text extraction and .sdlxliff generation logic here, it is a python code. 
 I want someone to help me out, to guide me the right text extraction and .sdlxliff creation logic. 
 My current logic for text extraction is 
 
 def extract_text(file_path: str, extension: str) -> List[str]:
&#160; &#160;
&#160; &#160; segments = []
&#160; &#160; if extension == '.docx':
&#160; &#160; &#160; &#160; doc = Document(file_path)
&#160; &#160; &#160; &#160; segments = [para.text.strip() for para in doc.paragraphs if para.text.strip()]
&#160; &#160; elif extension == '.pdf':
&#160; &#160; &#160; &#160; reader = PdfReader(file_path)
&#160; &#160; &#160; &#160; for page in reader.pages:
&#160; &#160; &#160; &#160; &#160; &#160; page_text = page.extract_text()
&#160; &#160; &#160; &#160; &#160; &#160; if page_text:
&#160; &#160; &#160; &#160; &#160; &#160; &#160; &#160; # Split by newlines, filter out empty lines
&#160; &#160; &#160; &#160; &#160; &#160; &#160; &#160; segments.extend(line.strip() for line in page_text.split('
') if line.strip())
&#160; &#160; elif extension == '.xlsx':
&#160; &#160; &#160; &#160; wb = load_workbook(file_path, data_only=True)
&#160; &#160; &#160; &#160; for sheet_name in wb.sheetnames:
&#160; &#160; &#160; &#160; &#160; &#160; ws = wb[sheet_name]
&#160; &#160; &#160; &#160; &#160; &#160; for row in ws.iter_rows(values_only=True):
&#160; &#160; &#160; &#160; &#160; &#160; &#160; &#160; row_text = " ".join(str(cell) if cell is not None else "" for cell in row).strip()
&#160; &#160; &#160; &#160; &#160; &#160; &#160; &#160; if row_text:
&#160; &#160; &#160; &#160; &#160; &#160; &#160; &#160; &#160; &#160; segments.append(row_text)
&#160; &#160; elif extension == '.txt':
&#160; &#160; &#160; &#160; with open(file_path, 'r', encoding='utf-8', errors='ignore') as f:
&#160; &#160; &#160; &#160; &#160; &#160; segments = [line.strip() for line in f if line.strip()]
&#160; &#160; return segments
My .sdlxliff generation logic is
def create_sdlxliff(source_segments: List[str], translated_segments: List[str], original_filename: str,
&#160; &#160; &#160; &#160; &#160; &#160; &#160; &#160; &#160; &#160;file_extension: str, source_lang: str, target_lang: str) -> str:
&#160; &#160; """Create an SDLXLIFF file (unchanged from original)."""
&#160; &#160; ET.register_namespace("", "urn:oasis:names:tc:xliff:document:1.2")
&#160; &#160; ET.register_namespace("sdl", "">sdl.com/.../1.0")

&#160; &#160; root = ET.Element("{urn:oasis:names:tc:xliff:document:1.2}xliff", {
&#160; &#160; &#160; &#160; "version": "1.2",
&#160; &#160; &#160; &#160; "{sdl.com/.../1.0}version": "1.0"
&#160; &#160; })

&#160; &#160; file_elem = ET.SubElement(root, "file", {
&#160; &#160; &#160; &#160; "original": original_filename,
&#160; &#160; &#160; &#160; "source-language": source_lang,
&#160; &#160; &#160; &#160; "target-language": target_lang,
&#160; &#160; &#160; &#160; "datatype": "x-sdlfilterframework2",
&#160; &#160; &#160; &#160; "{sdl.com/.../1.0}doc-id": str(uuid.uuid4()),
&#160; &#160; &#160; &#160; "{sdl.com/.../1.0}lastHash": "0",
&#160; &#160; &#160; &#160; "{sdl.com/.../1.0}logical": "true"
&#160; &#160; })

&#160; &#160; header_elem = ET.SubElement(file_elem, "header")
&#160; &#160; file_type_id = FILE_TYPE_MAP.get(file_extension.lower(), 'Unknown')
&#160; &#160; filetype_info_elem = ET.SubElement(header_elem, "{sdl.com/.../1.0}filetype-info")
&#160; &#160; filetype_id_elem = ET.SubElement(filetype_info_elem, "{sdl.com/.../1.0}filetype-id")
&#160; &#160; filetype_id_elem.text = file_type_id
&#160; &#160; ET.SubElement(header_elem, "{sdl.com/.../1.0}doc-info")
&#160; &#160; ET.SubElement(header_elem, "{sdl.com/.../1.0}seg-defs")

&#160; &#160; body_elem = ET.SubElement(file_elem, "body")
&#160; &#160; for src, tgt in zip(source_segments, translated_segments):
&#160; &#160; &#160; &#160; trans_unit = ET.SubElement(body_elem, "trans-unit", {
&#160; &#160; &#160; &#160; &#160; &#160; "id": str(uuid.uuid4()),
&#160; &#160; &#160; &#160; &#160; &#160; "translate": "yes"
&#160; &#160; &#160; &#160; })
&#160; &#160; &#160; &#160; seg_source_elem = ET.SubElement(trans_unit, "seg-source")
&#160; &#160; &#160; &#160; mrk_source = ET.SubElement(seg_source_elem, "mrk", {"mid": "1", "mtype": "seg"})
&#160; &#160; &#160; &#160; mrk_source.text = saxutils.escape(src)
&#160; &#160; &#160; &#160; target_elem = ET.SubElement(trans_unit, "target")
&#160; &#160; &#160; &#160; mrk_target = ET.SubElement(target_elem, "mrk", {"mid": "1", "mtype": "seg"})
&#160; &#160; &#160; &#160; mrk_target.text = saxutils.escape(tgt)

&#160; &#160; return ET.tostring(root, encoding="utf-8", xml_declaration=True).decode("utf-8") Everything apart from text formatting preservation is perfect.

Trados Studio Developers > Studio Developers Q&A

Seeking guideline to preserve formatting