Php 从pdf文件中提取乌尔都语文本

Php 从pdf文件中提取乌尔都语文本,php,parsing,pdf,text-extraction,urdu,Php,Parsing,Pdf,Text Extraction,Urdu,我正在尝试使用php从pdf文件中提取乌尔都语文本/解析。pdf文件包含乌尔都语和英语的混合语言。我使用了pdf解析器库来提取文本。提取的文本(乌尔都语和英语)格式不好,但被分成随机的字母序列。如果有人能帮我解决这个问题,我非常感激。 代码如下所示 <?php include 'vendor/autoload.php'; $parser = new \Smalot\PdfParser\Parser(); $pdf = $parser->parseFile('sampl

我正在尝试使用php从pdf文件中提取乌尔都语文本/解析。pdf文件包含乌尔都语和英语的混合语言。我使用了pdf解析器库来提取文本。提取的文本(乌尔都语和英语)格式不好,但被分成随机的字母序列。如果有人能帮我解决这个问题,我非常感激。 代码如下所示

<?php
 
include 'vendor/autoload.php';
 
$parser = new \Smalot\PdfParser\Parser();

$pdf    = $parser->parseFile('sample.pdf');
 
$pages  = $pdf->getPages();
 
echo '<pre>';

$uploaded_pay_slip_contents = array();
foreach ($pages as $page)
{
    $uploaded_pay_slip_contents[] = $page->getText();
    //break;
}

print_r($uploaded_pay_slip_contents); 

$details  = $pdf->getDetails();
 
// Loop over each property to extract values (string or array).
foreach ($details as $property => $value) {
    if (is_array($value)) {
        $value = implode(', ', $value);
    }
    echo $property . ' => ' . $value . "<br>";
}

?>

可能使用regexp替换来替换a-Za-z,而不使用任何内容,这会满足您的需要。不过,可能还有更好的选择
PDF generated at 2020-11-02 10:34:28
EMIS Code: 
PMIU-PESRP
School Census F
orm 2020-21 As of 31st October
, 2020 ت
ت ت
ت
اا مم وو ل
ل ع
ع م
م
 یدا یدا نن
ی ی ن
ن
ن
ن
بب
ب ب  کی لو
 کی لو ک
ک س
س Basic Information
 د
د ڈ
ڈ
وو ک
ک
 س س م
م ی
ی
ی ی
ا اا ا کک  لو لو ک
ک س
س EMIS Code
 ما
ما ننن
ن
 ا ا کک  لو لو ک
ک س