Php разбор xml. Разбор XML-данных. Пример #6 Сравнение элементов и атрибутов с текстом

06.01.2022

Расширяемый язык разметки XML представляет собой набор правил для кодирования документов в машиночитаемой форме. XML является популярным форматом для обмена данными в Интернете. Сайты, которые часто обновляют свой контент, например, новостные сайты или блоги, часто предоставляют XML канал, чтобы внешние программы были в курсе изменений контента. Отправка и разбор XML-данных является общей задачей для приложений с сетевым подключением. Этот урок объясняет, как выполнить разбор XML документов и использовать их данные.

Выбор синтаксического анализатора

Анализ канала

Первым шагом в разборе канала является решение о том, в какие полях данные вы заинтересованы. Анализатор извлекает заданные поля и игнорирует все остальное.

Вот фрагмент канала, который будет разбираться в примере приложения. Каждый пост на StackOverflow.com появляется в канале, как entry тег, который содержит несколько вложенных тегов:

newest questions tagged android - Stack Overflow ... ... http://stackoverflow.com/q/9439999 0 Where is my data file? cliff2310 http://stackoverflow.com/users/1128925 2012-02-25T00:30:54Z 2012-02-25T00:30:54Z

I have an Application that requires a data file...

... ...

Пример приложения извлекает данные из entry тега и его вложенных тегов title , link , и summary .

Создание экземпляра синтаксического анализатора

Следующим шагом является создание экземпляра синтаксического анализатора и запуск процесса разбора. В этом фрагменте анализатор инициализируется так, чтобы не обрабатывать пространства имен, а также использовать предоставленный InputStream в качестве входных данных. Процесс разбора запускается с помощью вызова nextTag() и вызывает readFeed() метод, который извлекает и обрабатывает данные, в которых заинтересовано приложение:

Public class StackOverflowXmlParser { // We don"t use namespaces private static final String ns = null; public List parse(InputStream in) throws XmlPullParserException, IOException { try { XmlPullParser parser = Xml.newPullParser(); parser.setFeature(XmlPullParser.FEATURE_PROCESS_NAMESPACES, false); parser.setInput(in, null); parser.nextTag(); return readFeed(parser); } finally { in.close(); } } ... }

Вычитать канал

readFeed() метод делает фактическую работу по обработке канала. Элементы, помеченные тэгом "entry", являются отправной точкой для рекурсивной обработки канала. Если следующий тег не entry тег, он пропускается. После того, как вся "лента" была рекурсивно обработана, readFeed() возвращает List содержащий записи (в том числе вложенные элементы данных), которые извлекаются из канала. Этот List затем возвращается анализатором.

Private List readFeed(XmlPullParser parser) throws XmlPullParserException, IOException { List entries = new ArrayList (); parser.require(XmlPullParser.START_TAG, ns, "feed"); while (parser.next() != XmlPullParser.END_TAG) { if (parser.getEventType() != XmlPullParser.START_TAG) { continue; } String name = parser.getName(); // Starts by looking for the entry tag if (name.equals("entry")) { entries.add(readEntry(parser)); } else { skip(parser); } } return entries; }

Разбор XML

Шаги для разбора XML канала следующие:

Этот фрагмент показывает, как анализатор анализирует entry, title, link, и summary.

Public static class Entry { public final String title; public final String link; public final String summary; private Entry(String title, String summary, String link) { this.title = title; this.summary = summary; this.link = link; } } // Parses the contents of an entry. If it encounters a title, summary, or link tag, hands them off // to their respective "read" methods for processing. Otherwise, skips the tag. private Entry readEntry(XmlPullParser parser) throws XmlPullParserException, IOException { parser.require(XmlPullParser.START_TAG, ns, "entry"); String title = null; String summary = null; String link = null; while (parser.next() != XmlPullParser.END_TAG) { if (parser.getEventType() != XmlPullParser.START_TAG) { continue; } String name = parser.getName(); if (name.equals("title")) { title = readTitle(parser); } else if (name.equals("summary")) { summary = readSummary(parser); } else if (name.equals("link")) { link = readLink(parser); } else { skip(parser); } } return new Entry(title, summary, link); } // Processes title tags in the feed. private String readTitle(XmlPullParser parser) throws IOException, XmlPullParserException { parser.require(XmlPullParser.START_TAG, ns, "title"); String title = readText(parser); parser.require(XmlPullParser.END_TAG, ns, "title"); return title; } // Processes link tags in the feed. private String readLink(XmlPullParser parser) throws IOException, XmlPullParserException { String link = ""; parser.require(XmlPullParser.START_TAG, ns, "link"); String tag = parser.getName(); String relType = parser.getAttributeValue(null, "rel"); if (tag.equals("link")) { if (relType.equals("alternate")){ link = parser.getAttributeValue(null, "href"); parser.nextTag(); } } parser.require(XmlPullParser.END_TAG, ns, "link"); return link; } // Processes summary tags in the feed. private String readSummary(XmlPullParser parser) throws IOException, XmlPullParserException { parser.require(XmlPullParser.START_TAG, ns, "summary"); String summary = readText(parser); parser.require(XmlPullParser.END_TAG, ns, "summary"); return summary; } // For the tags title and summary, extracts their text values. private String readText(XmlPullParser parser) throws IOException, XmlPullParserException { String result = ""; if (parser.next() == XmlPullParser.TEXT) { result = parser.getText(); parser.nextTag(); } return result; } ... }

Пропуск элементов, который вам не нужны

Одним из шагов XML разбора описанном выше, синтаксический анализатор пропускает теги, в которых мы не заинтересованы. Ниже представлен код синтаксического анализатора skip() метода:

Private void skip(XmlPullParser parser) throws XmlPullParserException, IOException { if (parser.getEventType() != XmlPullParser.START_TAG) { throw new IllegalStateException(); } int depth = 1; while (depth != 0) { switch (parser.next()) { case XmlPullParser.END_TAG: depth--; break; case XmlPullParser.START_TAG: depth++; break; } } }

Вот как это работает:

Метод генерирует исключение, если текущее событие не START_TAG .
Он потребляет START_TAG , и все события, вплоть до END_TAG .
Чтобы убедиться, что он останавливается на правильном END_TAG , а не на первом встречном теге после оригинального START_TAG , он отслеживает глубину вложенности.

Таким образом, если текущий элемент имеет вложенные элементы, значение depth не будет равно 0 пока анализатор не обработает все события между оригинальным START_TAG и его соответствующим END_TAG . Например, рассмотрим как анализатор пропускает элемент, который имеет 2 вложенных элемента, и :

В первый проход по while циклу, следующий тег, который анализатор встречает после это START_TAG для
Во второй проход по while циклу, следующий тег, который встречает анализатор, это END_TAG
В третий проход по while циклу, следующий тег, который встречает анализатор, это START_TAG . Значение depth увеличивается до 2.
В четвертый проход по while циклу, следующий тег, который встречает анализатор, это END_TAG . Значение depth уменьшается до 1.
На пятый и последний проход по while циклу, следующий тег, который встречает анализатор, это END_TAG . Значение depth уменьшается до 0, что указывает на то, что элемент был успешно пропущен.

Обработка XML данных

Пример приложения получает и анализирует XML канал в AsyncTask . Обработка выполняется вне основного потока пользовательского интерфейса. Когда обработка завершена, приложение обновляет пользовательский интерфейс в основной деятельности(NetworkActivity).

Во фрагменте представленном ниже, loadPage() метод делает следующее:

Инициализирует строковую переменную значением URL, указывающим на XML канал.
Если настройки пользователя и подключение к сети позволяют, вызывает new DownloadXmlTask().execute(url) . Это создает новый DownloadXmlTask объект(AsyncTask подкласс) и выполняет его execute() метод, который загружает и анализирует канал и возвращает строковый результат, который будет отображаться в пользовательском интерфейсе.

public class NetworkActivity extends Activity { public static final String WIFI = "Wi-Fi"; public static final String ANY = "Any"; private static final String URL = "http://stackoverflow.com/feeds/tag?tagnames=android&sort=newest"; // Whether there is a Wi-Fi connection. private static boolean wifiConnected = false; // Whether there is a mobile connection. private static boolean mobileConnected = false; // Whether the display should be refreshed. public static boolean refreshDisplay = true; public static String sPref = null; ... // Uses AsyncTask to download the XML feed from stackoverflow.com. public void loadPage() { if((sPref.equals(ANY)) && (wifiConnected || mobileConnected)) { new DownloadXmlTask().execute(URL); } else if ((sPref.equals(WIFI)) && (wifiConnected)) { new DownloadXmlTask().execute(URL); } else { // show error } }

doInBackground() выполняет метод loadXmlFromNetwork() . Он передает URL канала в качестве параметра. Метод loadXmlFromNetwork() получает и обрабатывает канал. Когда он заканчивает обработку, он передает обратно результирующую строку.
onPostExecute() принимает возвращенную строку и отображает её в пользовательском интерфейсе.

// Implementation of AsyncTask used to download XML feed from stackoverflow.com. private class DownloadXmlTask extends AsyncTask { @Override protected String doInBackground(String... urls) { try { return loadXmlFromNetwork(urls); } catch (IOException e) { return getResources().getString(R.string.connection_error); } catch (XmlPullParserException e) { return getResources().getString(R.string.xml_error); } } @Override protected void onPostExecute(String result) { setContentView(R.layout.main); // Displays the HTML string in the UI via a WebView WebView myWebView = (WebView) findViewById(R.id.webview); myWebView.loadData(result, "text/html", null); } }

Ниже приведен метод loadXmlFromNetwork() , который вызывается из DownloadXmlTask . Он делает следующее:

Создает экземпляр StackOverflowXmlParser . Он также создает переменные для List Entry объектов(entries), и title , url , и summary , для хранения значений, извлеченных из XML канала, для этих полей.
Вызывает downloadUrl() , который загружает канал и возвращает его как InputStream .
Использует StackOverflowXmlParser для разбора InputStream . StackOverflowXmlParser заполняет List entries данными из канала.
Обрабатывает entries List , и объединяет в себе данные канала с HTML разметкой.
Возвращает HTML строку, отображаемую в пользовательском интерфейсе главной деятельности, AsyncTask в методе onPostExecute() .

// Uploads XML from stackoverflow.com, parses it, and combines it with // HTML markup. Returns HTML string. private String loadXmlFromNetwork(String urlString) throws XmlPullParserException, IOException { InputStream stream = null; // Instantiate the parser StackOverflowXmlParser stackOverflowXmlParser = new StackOverflowXmlParser(); List entries = null; String title = null; String url = null; String summary = null; Calendar rightNow = Calendar.getInstance(); DateFormat formatter = new SimpleDateFormat("MMM dd h:mmaa"); // Checks whether the user set the preference to include summary text SharedPreferences sharedPrefs = PreferenceManager.getDefaultSharedPreferences(this); boolean pref = sharedPrefs.getBoolean("summaryPref", false); StringBuilder htmlString = new StringBuilder(); htmlString.append("

" + getResources().getString(R.string.page_title) + "

"); htmlString.append("" + getResources().getString(R.string.updated) + " " + formatter.format(rightNow.getTime()) + ""); try { stream = downloadUrl(urlString); entries = stackOverflowXmlParser.parse(stream); // Makes sure that the InputStream is closed after the app is // finished using it. } finally { if (stream != null) { stream.close(); } } // StackOverflowXmlParser returns a List (called "entries") of Entry objects. // Each Entry object represents a single post in the XML feed. // This section processes the entries list to combine each entry with HTML markup. // Each entry is displayed in the UI as a link that optionally includes // a text summary. for (Entry entry: entries) { htmlString.append("

" + entry.title + "

"); // If the user set the preference to include summary text, // adds it to the display. if (pref) { htmlString.append(entry.summary); } } return htmlString.toString(); } // Given a string representation of a URL, sets up a connection and gets // an input stream. private InputStream downloadUrl(String urlString) throws IOException { URL url = new URL(urlString); HttpURLConnection conn = (HttpURLConnection) url.openConnection(); conn.setReadTimeout(10000 /* milliseconds */); conn.setConnectTimeout(15000 /* milliseconds */); conn.setRequestMethod("GET"); conn.setDoInput(true); // Starts the query conn.connect(); return conn.getInputStream(); }

1 этап. Прохождение тестирования(взаимодействие с тестовым контуром ГИС ГМП) #Адрес сервиса ГИС ГМП тестовый:
gisgmp.wsdlLocation=http://213.59.255.182:7777/gateway/services/SID0003663?wsdl
gisgmp.wsdlLocation.endPoint=http://213.59.255.182:7777/gateway/services/SID0003663
Этот адрес прописывается в настройках СП.Дополнительно требуется прописать в файле настроек логгирования, указав значение TRACE. После внесения указанных значений, требуется запустить СП и клиент АЦК (перезапустить, если уже был запущен) Далее, из ЗОР или Заявки БУ/АУ на выплату средств требуется выполнить действие "Создать Сведение о платеже", если будут пройдены системные контроли - то создастся Сведение о платеже. Которое в последствии нужно будет выгрузить.
После выгрузки требуется проверить статус действием "Запрос статуса обработки". После чего ЭД Сведение о платеже переходит на статус "Принят ГИС ГМП" -…

Дано: Таблица MSG (сообщения) с большим количеством записей.
CREATETABLEmsg(idINTEGERNOTNULLPRIMARYKEY,descriptionCHAR(50)NOTNULL, date_createDATE);
Задача:
Необходимо очистить таблицу от данных/
Решение: Для решения данной задачи есть несколько способов. Ниже описание и пример каждого из них.
Самый простой способ (первый вариант ) - выполнение оператора удаления записи. При его выполнении вы будете видеть результат (сколько записей удалено). Удобная штука когда необходимо точно знать и понимать правильные ли данные удалены. НО имеет недостатки перед другими вариантами решения поставленной задачи.

DELETE FROMmsg;--Удалит все строки в таблице--Удалит все строки у которых дата создания "2019.02.01" DELETE FROMmsg WHEREdate_create="2019.02.01";

Второй вариант . Использование оператораDML для очистки всех строк в таблице.
TRUNCATETABLEmsg;
При этом несколько особенностей использования данного оператора:
Его нет в Firebird, поэтому пользуемся первым и третьим вариантом.После выпо…

Актуальные адреса для обращений к ЕСМЭВ 3.0 Напоминаем, что в соответствии с ранее опубликованной информацией на Технологическом портале СМЭВ 3.0 необходимо использовать актуальные адреса размещения Единого электронного сервиса:
адрес единого электронного сервиса среды разработки СМЭВ 3.0, соответствующий схеме 1.1 - http://smev3-d.test.gosuslugi.ru:7500/smev/v1.1/ws?wsdl , при этом сервис будет также доступен по адресу

Некоторые примеры этого руководства включают XML-строку. Вместо того, чтобы повторять ее в каждом примере, положите эту строку в файл, который и включайте в каждом примере. Эта строка приведена в следующем примере. Помимо этого можно создать XML-документ и считывать его функцией simplexml_load_file() .

Пример #1 Файл example.php с XML строкой

$xmlstr = <<

PHP: Появление Парсера

Ms. Coder
Onlivia Actora

Mr. Coder
El ActÓr

Таким образом, это язык. Это все равно язык программирования. Или
это скриптовый язык? Все раскрывается в этом документальном фильме,
похожем на фильм ужасов.

7
5

XML;
?>

SimpleXML пользоваться очень просто! Попробуйте получить какую-нибудь строку или число из базового XML-документа.

Пример #2 Получение части документа

include "example.php" ;

echo $movies -> movie [ 0 ]-> plot ;
?>

Таким образом, это язык. Это все равно язык программирования. Или это скриптовый язык? Все раскрывается в этом документальном фильме, похожем на фильм ужасов.

В PHP получить доступ к элементу в XML документе, содержащим в названии недопустимые символы (например, дефис), можно путем заключения данного имени элемента в фигурные скобки и апострофы.

Пример #3 Получение строки

include "example.php" ;

echo $movies -> movie ->{ "great-lines" }-> line ;
?>

Результат выполнения данного примера:

PHP решает все мои проблемы в вебе

Пример #4 Доступ к неуникальным элементам в SimpleXML

В том случае, если существует несколько экземпляров дочерних элементов в одном родительском элементе, то нужно применять стандартные методы итерации.

include "example.php" ;

$movies = new SimpleXMLElement ($xmlstr );

/* Для каждого узла , мы отдельно выведем имя . */
foreach ($movies -> movie -> characters -> character as $character ) {
echo $character -> name , " играет " , $character -> actor , PHP_EOL ;
}

Результат выполнения данного примера:

Ms. Coder играет Onlivia Actora Mr. Coder играет El ActÓr

Замечание :
Свойства ($movies->movie в предыдущем примере) не являются массивами. Это итерируемый объект в виде массива .

Пример #5 Использование атрибутов

До сих пор мы только получали названия и значения элементов. SimpleXML может также получать доступ к атрибутам элемента. Получить доступ к атрибуту элемента можно так же, как к элементам массива (array ).

include "example.php" ;

$movies = new SimpleXMLElement ($xmlstr );

/* Доступ к узлу первого фильма.
* Так же выведем шкалу оценок. */
foreach ($movies -> movie [ 0 ]-> rating as $rating ) {
switch((string) $rating [ "type" ]) { // Получение атрибутов элемента по индексу
case "thumbs" :
echo $rating , " thumbs up" ;
break;
case "stars" :
echo $rating , " stars" ;
break;
}
}
?>

Результат выполнения данного примера:

7 thumbs up5 stars

Пример #6 Сравнение элементов и атрибутов с текстом

Для сравнения элемента или атрибута со строкой или для передачи в функцию в качестве текста, необходимо привести его к строке, используя (string) . В противном случае, PHP будет рассматривать элемент как объект.

include "example.php" ;

$movies = new SimpleXMLElement ($xmlstr );

if ((string) $movies -> movie -> title == "PHP: Появление Парсера" ) {
print "Мой любимый фильм." ;
}

echo htmlentities ((string) $movies -> movie -> title );
?>

Результат выполнения данного примера:

Мой любимый фильм.PHP: Появление Парсера

Пример #7 Сравнение двух элементов

Два элемента SimpleXMLElements считаются разными, даже если они указывают на один и тот же объект, начиная с PHP 5.2.0.

include "example.php" ;

$movies1 = new SimpleXMLElement ($xmlstr );
$movies2 = new SimpleXMLElement ($xmlstr );
var_dump ($movies1 == $movies2 ); // false начиная с PHP 5.2.0
?>

Результат выполнения данного примера:

Пример #8 Использование XPath

SimpleXML включает в себя встроенную поддержку XPath . Поиск всех элементов :

include "example.php" ;

$movies = new SimpleXMLElement ($xmlstr );

foreach ($movies -> xpath ("//character" ) as $character ) {
echo $character -> name , " играет " , $character -> actor , PHP_EOL ;
}
?>

"// " служит в качестве шаблона. Для указания абсолютного пути, опустите одну из косых черт.

Результат выполнения данного примера:

Ms. Coder играет Onlivia Actora Mr. Coder играет by El ActÓr

Пример #9 Установка значений

Данные в SimpleXML не обязательно должны быть неизменяемыми. Объект позволяет манипулировать всеми элементами.

include "example.php" ;
$movies = new SimpleXMLElement ($xmlstr );

$movies -> movie [ 0 ]-> characters -> character [ 0 ]-> name = "Miss Coder" ;

echo $movies -> asXML ();
?>

Результат выполнения данного примера:

PHP: Появление Парсера Miss Coder Onlivia Actora Mr. Coder El ActÓr 7 5

Пример #10 Добавление элементов и атрибутов

Начиная с PHP 5.1.3, SimpleXML имеет возможность легко добавлять дочерние элементы и атрибуты.

include "example.php" ;
$movies = new SimpleXMLElement ($xmlstr );

$character = $movies -> movie [ 0 ]-> characters -> addChild ("character" );
$character -> addChild ("name" , "Mr. Parser" );
$character -> addChild ("actor" , "John Doe" );

$rating = $movies -> movie [ 0 ]-> addChild ("rating" , "PG" );
$rating -> addAttribute ("type" , "mpaa" );

echo $movies -> asXML ();
?>

Результат выполнения данного примера:

PHP: Появление Парсера Ms. Coder Onlivia Actora Mr. Coder El ActÓr Mr. ParserJohn Doe Таким образом, это язык. Это все равно язык программирования. Или это скриптовый язык? Все раскрывается в этом документальном фильме, похожем на фильм ужасов. PHP решает все мои задачи в web 7 5 PG

Пример #11 Взаимодействие с DOM

PHP может преобразовывать XML-узлы из SimpleXML в формат DOM и наоборот. Этот пример показывает, как можно изменить DOM-элемент в SimpleXML.

$dom = new DOMDocument ;
$dom -> loadXML ("чепуха" );
if (! $dom ) {
echo "Ошибка при разборе документа" ;
exit;
}

$books = simplexml_import_dom ($dom );

echo $books -> book [ 0 ]-> title ;
?>

Результат выполнения данного примера:

4 years ago

There is a common "trick" often proposed to convert a SimpleXML object to an array, by running it through json_encode() and then json_decode(). I"d like to explain why this is a bad idea.

Most simply, because the whole point of SimpleXML is to be easier to use and more powerful than a plain array. For instance, you can write bar -> baz [ "bing" ] ?> and it means the same thing as bar [ 0 ]-> baz [ 0 ][ "bing" ] ?> , regardless of how many bar or baz elements there are in the XML; and if you write bar [ 0 ]-> baz [ 0 ] ?> you get all the string content of that node - including CDATA sections - regardless of whether it also has child elements or attributes. You also have access to namespace information, the ability to make simple edits to the XML, and even the ability to "import" into a DOM object, for much more powerful manipulation. All of this is lost by turning the object into an array rather than reading understanding the examples on this page.

Additionally, because it is not designed for this purpose, the conversion to JSON and back will actually lose information in some situations. For instance, any elements or attributes in a namespace will simply be discarded, and any text content will be discarded if an element also has children or attributes. Sometimes, this won"t matter, but if you get in the habit of converting everything to arrays, it"s going to sting you eventually.

Of course, you could write a smarter conversion, which didn"t have these limitations, but at that point, you are getting no value out of SimpleXML at all, and should just use the lower level XML Parser functions, or the XMLReader class, to create your structure. You still won"t have the extra convenience functionality of SimpleXML, but that"s your loss.

2 years ago

If your xml string contains booleans encoded with "0" and "1", you will run into problems when you cast the element directly to bool:

$xmlstr = <<

1
0

XML;
$values = new SimpleXMLElement($xmlstr);
$truevalue = (bool)$values->truevalue; // true
$falsevalue = (bool)$values->falsevalue; // also true!!!

Instead you need to cast to string or int first:

$truevalue = (bool)(int)$values->truevalue; // true
$falsevalue = (bool)(int)$values->falsevalue; // false

9 years ago

If you need to output valid xml in your response, don"t forget to set your header content type to xml in addition to echoing out the result of asXML():

$xml = simplexml_load_file ("..." );
...
... xml stuff
...

//output xml in your response:
header ("Content-Type: text/xml" );
echo $xml -> asXML ();
?>

9 years ago

From the README file:

SimpleXML is meant to be an easy way to access XML data.

SimpleXML objects follow four basic rules:

1) properties denote element iterators
2) numeric indices denote elements
3) non numeric indices denote attributes
4) string conversion allows to access TEXT data

When iterating properties then the extension always iterates over
all nodes with that element name. Thus method children() must be
called to iterate over subnodes. But also doing the following:
foreach ($obj->node_name as $elem) {
// do something with $elem
}
always results in iteration of "node_name" elements. So no further
check is needed to distinguish the number of nodes of that type.

When an elements TEXT data is being accessed through a property
then the result does not include the TEXT data of subelements.

Known issues
============

Due to engine problems it is currently not possible to access
a subelement by index 0: $object->property.

8 years ago

Using stuff like: is_object($xml->module->admin) to check if there actually is a node called "admin", doesn"t seem to work as expected, since simplexml always returns an object- in that case an empty one - even if a particular node does not exist.
For me good old empty() function seems to work just fine in such cases.

8 years ago

A quick tip on xpath queries and default namespaces. It looks like the XML-system behind SimpleXML has the same workings as I believe the XML-system .NET uses: when one needs to address something in the default namespace, one will have to declare the namespace using registerXPathNamespace and then use its prefix to address the otherwise in the default namespace living element.

$string = <<

Forty What?
Joe
Jane

I know that"s the answer -- but what"s the question?

XML;

$xml = simplexml_load_string ($string );
$xml -> registerXPathNamespace ("def" , "http://www.w3.org/2005/Atom " );

$nodes = $xml -> xpath ("//def:document/def:title" );

9 years ago

While SimpleXMLElement claims to be iterable, it does not seem to implement the standard Iterator interface functions like::next and::reset properly. Therefore while foreach() works, functions like next(), current(), or each() don"t seem to work as you would expect -- the pointer never seems to move or keeps getting reset.

6 years ago

Если кодировка XML-документа отличается от UTF-8, объявление кодировки должно следовать сразу после version="..." и перед standalone="...". Это требование стандарта XML.

If encoding XML-document differs from UTF-8. Encoding declaration should follow immediately after the version = "..." and before standalone = "...". This requirement is standard XML.

Ok

Русский язык. Russian language
Fatal error: Uncaught exception "Exception" with message "String could not be parsed as XML" in...

Сейчас мы с вами изучим работу с XML. XML - это формат для обмена данными между сайтами. Он очень похож на HTML, только в XML разрешены свои теги и атрибуты.

Зачем нужен XML при парсинге? Иногда бывает так, что сайт, который вам нужно спарсить, имеет API, с помощью которого можно получить желаемое, особо не напрягаясь. Поэтому сразу совет - перед тем, как парсить сайт, проверьте, нету ли у него API.

Что такое API? Это набор функций, с помощью которых вы можете слать запрос этому сайту и получать нужный ответ. Вот этот ответ чаще всего приходит в формате XML. Поэтому давайте приступим к его изучению.

Работа с XML в PHP

Пусть у вас есть XML. Он может быть в строке, либо хранится в файле или отдаваться по запросу к определенному URL.

Пусть XML хранится в строке. В этом случае из этой строки нужно создать объект с помощью new SimpleXMLElement :

$str = " Коля 25 1000 "; $xml = new SimpleXMLElement($str);

Сейчас у нас в переменной $xml хранится объект с разобранным XML. Обращаясь к свойствам этого объекта можно получать доступ с содержимому тегов XML. Как именно - разберем чуть ниже.

Если же XML хранится в файле или отдается по обращению к URL (что чаще всего и бывает), то следует использовать функцию simplexml_load_file , которая делает тот же объект $xml :

Коля 25 1000

$xml = simplexml_load_file(путь к файлу или урл);

Приемы работы

В примерах ниже наш XML хранится в файле или по URL.

Пусть дан следующий XML:

Коля 25 1000

Давайте получим имя, возраст и зарплату работника:

$xml = simplexml_load_file(путь к файлу или урл); echo $xml->name; //выведет "Коля" echo $xml->age; //выведет 25 echo $xml->salary; //выведет 1000

Как вы видите, у объекта $xml есть свойства, соответствующие тегам.

Вы может обратили внимание, что тег нигде не фигурирует при обращении. Это потому, что он корневой тег. Можно переименовать его, например, на - и ничего не поменяется:

Коля 25 1000

$xml = simplexml_load_file(путь к файлу или урл); echo $xml->name; //выведет "Коля" echo $xml->age; //выведет 25 echo $xml->salary; //выведет 1000

Корневой тег в XML может быть только один, так же, как и тег в обычном HTML.

Давайте чуть модифицируем наш XML:

Коля 25 1000

В этом случае у нас получится цепочка обращений:

$xml = simplexml_load_file(путь к файлу или урл); echo $xml->worker->name; //выведет "Коля" echo $xml->worker->age; //выведет 25 echo $xml->worker->salary; //выведет 1000

Работа с атрибутами

Пусть некоторые данные хранятся в атрибутах:

Номер 1

$xml = simplexml_load_file(путь к файлу или урл); echo $xml->worker["name"]; //выведет "Коля" echo $xml->worker["age"]; //выведет 25 echo $xml->worker["salary"]; //выведет 1000 echo $xml->worker; //выведет "Номер 1"

Теги с дефисами

В XML разрешены теги (и атрибуты) с дефисом. В этом случае обращение к таким тегам происходит так:

Коля Иванов

$xml = simplexml_load_file(путь к файлу или урл); echo $xml->worker->{first-name}; //выведет "Коля" echo $xml->worker->{last-name}; //выведет "Иванов"

Перебор циклом

Пусть теперь у нас не один работник, а несколько. В этом случае мы можем перебрать наш объект с помощью цикла foreach:

Коля 25 1000 Вася 26 2000 Петя 27 3000

$xml = simplexml_load_file(путь к файлу или урл); foreach ($xml as $worker) { echo $worker->name; //выведет "Коля", "Вася", "Петя" }

Из объекта в нормальный массив

Если вам неудобно работать с объектом, вы можете преобразовать его в нормальный массив PHP с помощью следующего хитрого приема:

$xml = simplexml_load_file(путь к файлу или урл); var_dump(json_decode(json_encode($xml), true));

Больше информации

Парсинг на основе sitemap.xml

Зачастую на сайте есть файл sitemap.xml. В этом файле хранятся ссылки на все страницы сайта для удобства индексации их поисковыми системами (индексация - это по сути и есть парсинг сайта яндексом и гуглом).

В общем-то нас мало должно волновать, зачем нужен этот файл, главное, что если он есть - можно не лазить по страницам сайта какими-либо хитрыми методами, а просто воспользоваться этим файлом.

Как проверить наличие этого файла: пусть мы парсим сайт site.ru, тогда обратитесь в браузере к site.ru/sitemap.xml - если что-то увидите, значит он там есть, а если не увидите - то увы.

Если sitemap есть - то в нем содежатся ссылки на все страницы сайта в формате XML. Спокойно забираете этот XML, парсите его, отделяете ссылки на нужные вам страницы любым удобным вам способом (например, анализом URL, который был описан в методе паука).

В итоге вы получаете список ссылок для парсинга, остается только зайти на них и спарсить нужным вам контент.

Подробнее об устройстве sitemap.xml читайте в википедии .

Что вам делать дальше:

Приступайте к решению задач по следующей ссылке: задачи к уроку .

Когда все решите - переходите к изучению новой темы.

просмотров

Сохранить ВКонтакте

Выбор синтаксического анализатора

Анализ канала

Создание экземпляра синтаксического анализатора

Вычитать канал

Разбор XML

Пропуск элементов, который вам не нужны

Обработка XML данных

" + getResources().getString(R.string.page_title) + "

Работа с XML в PHP

Приемы работы

Работа с атрибутами

Теги с дефисами

Перебор циклом

Из объекта в нормальный массив

Больше информации

Парсинг на основе sitemap.xml

Что вам делать дальше:

Вам также может понравиться