ALPHADX Elimden geldiğince yapmaya çalıştım. Siz artık bunu kendinize göre geliştireceksiniz:
libxml_use_internal_errors(true);
$dom = new DomDocument;
$dom->loadHTMLFile("https://news.day.az/azerinews/1462386.html");
$xpath = new DomXPath($dom);
// Burada neyin içine bakacağınızı belirliyorsunuz. Bu aşağıdaki örneğin <html>
// içindeki <body> içindeki tüm boş olmayan <p> elementlerine bakıyor.
// Xpath kullanımı ile ilgili bilgi alacağınız linki en alta yazdım.
$nodes = $xpath->query("/html/body//p[string-length(text())>0]");
$words = [];
// Sadace kelimeleri seç, birden fazla boşlukları kaldır ve kesme işaretine izin ver
$pattern = '/[^\w\s\s+\']+/u';
foreach($nodes as $node) {
if($node->nodeValue) {
$words[] = explode(' ', trim(preg_replace($pattern, "", $node->nodeValue)));
}
}
$words = array_values(
array_unique(
array_filter(Arr::flatten($words))
)
);
Bu $words dizisi şöyle bir şey verecek. Bununla artık istediğiniz işlemi yaparsınız:
[
"Prokurorluq",
"və",
"polis",
"əməkdaşları",
"tərəfindən həyata",
"keçirilən",
"istintaqəməliyyat",
"tədbirləri",
"nəticəsində",
"paytaxtın",
...
]
Xpath kullanımı:
https://devhints.io/xpath