Course మాడ్యూల్ 2: జావా కోర్ - Lecture: XML డేటా ఫార్మాట్

టెక్స్ట్ ఫార్మాట్‌లు ఎందుకు అవసరం?

టెక్స్ట్ ఫార్మాట్‌లు సమాచారాన్ని నిల్వ చేయడానికి సౌకర్యవంతంగా ఉంటాయి, ఎందుకంటే అవి ప్రోగ్రామ్‌లు మరియు మానవులచే సృష్టించబడతాయి మరియు ప్రాసెస్ చేయబడతాయి.

టెక్స్ట్ ఫైల్‌లు (టెక్స్ట్ ఫార్మాట్‌లోని ఫైల్‌లు) అనేక రకాల టెక్స్ట్ ఎడిటర్‌లలో తెరవబడతాయి, చదవబడతాయి మరియు సవరించబడతాయి.

ఫార్మాట్‌లో సంఖ్యలు మరియు బైనరీ (అవును/లేదు) విలువలు ఉన్నప్పటికీ చాలా ప్రోగ్రామ్‌లు టెక్స్ట్-ఆధారిత కాన్ఫిగరేషన్ ఫైల్‌లను ఉపయోగిస్తాయి.

ఇది టెక్స్ట్ నుండి అంతర్గత ఆకృతికి మరియు వైస్ వెర్సాకి మార్చవలసిన అవసరం కారణంగా ప్రోగ్రామ్‌లను కొంత క్లిష్టతరం చేస్తుంది, అయితే ప్రోగ్రామ్‌లోనే కాన్ఫిగరేషన్ సాధనాన్ని ఉపయోగించకుండా కాన్ఫిగరేషన్‌ను మాన్యువల్‌గా సవరించడం సాధ్యం చేస్తుంది.

XML ఇప్పుడు ఎక్కడ ఉపయోగించబడుతుంది?

XML IT యొక్క వివిధ రంగాలలో ఉపయోగించబడుతుంది. ఇది కాన్ఫిగరేషన్ ఫైల్‌లు (ప్రోగ్రామ్ సెట్టింగ్‌లతో) లేదా ప్రోగ్రామ్‌ల మధ్య డేటాను బదిలీ చేయడానికి ఉపయోగించే ఫైల్‌లు కావచ్చు. జావాలో, బిల్డ్ ఆటోమేషన్ సాధనమైన మావెన్‌ను కాన్ఫిగర్ చేయడం అత్యంత సాధారణ వినియోగ సందర్భాలలో ఒకటి.

XML పత్రం యొక్క నిర్మాణం

XML డాక్యుమెంట్ యొక్క భౌతిక మరియు తార్కిక నిర్మాణాలు వేరుగా ఉంచబడతాయి. భౌతిక నిర్మాణం పరంగా, పత్రం ఇతర ఎంటిటీలను సూచించగల ఎంటిటీలను కలిగి ఉంటుంది.

ఏకైక మూల మూలకం డాక్యుమెంట్ ఎంటిటీ. ఎంటిటీ అనేది డాక్యుమెంట్‌లో అతి చిన్న భాగం. అన్ని ఎంటిటీలకు పేరు ఉంటుంది మరియు అక్షరాలు ఉంటాయి.

ప్రతిగా, అక్షరాలు రెండు వర్గాలలో ఒకదానికి చెందినవి: అక్షర డేటా లేదా మార్కప్.

మార్కప్ వీటిని కలిగి ఉంటుంది:

ట్యాగ్‌లు, ఇది మూలకం సరిహద్దులను సూచిస్తుంది;
ప్రకటనలు మరియు ప్రాసెసింగ్ సూచనలు, వాటి లక్షణాలతో సహా;
ఎంటిటీ సూచనలు;
వ్యాఖ్యలు;
CDATA విభాగాలను చుట్టే అక్షర సన్నివేశాలు.

తార్కికంగా, పత్రం అంశాలు, వ్యాఖ్యలు, ప్రకటనలు, ఎంటిటీ సూచనలు మరియు ప్రాసెసింగ్ సూచనలను కలిగి ఉంటుంది. ఈ నిర్మాణాన్ని డాక్యుమెంట్‌లో సృష్టించడానికి మార్కప్ ఉపయోగించబడుతుంది.

పత్రంలోని అన్ని భాగాలను ప్రోలాగ్ మరియు రూట్ ఎలిమెంట్‌గా విభజించారు. రూట్ ఎలిమెంట్ అనేది XML డాక్యుమెంట్ యొక్క తప్పనిసరి, ముఖ్యమైన భాగం, అయితే ప్రోలాగ్ అస్సలు ఉండకపోవచ్చు. మూల మూలకం సమూహ మూలకాలు, అక్షర డేటా మరియు వ్యాఖ్యలను కలిగి ఉంటుంది. పత్రం యొక్క మూలకాలు సరిగ్గా గూడు కట్టబడి ఉండాలి: మరొక మూలకం లోపల ప్రారంభమయ్యే ఏదైనా మూలకం ఆ మూలకం లోపల కూడా ముగియాలి.

మార్కప్ చిహ్నాలు

మార్కప్ ఎల్లప్పుడూ < తో మొదలై > తో ముగుస్తుంది .

< మరియు > (కోణం బ్రాకెట్లు) మరియు & (యాంపర్సండ్) చిహ్నాలు ప్రత్యేక పాత్ర పోషిస్తాయి. కోణ బ్రాకెట్‌లు మూలకాల సరిహద్దులు, ప్రాసెసింగ్ సూచనలు మరియు కొన్ని ఇతర శ్రేణులను సూచిస్తాయి. మరియు వచనాన్ని ఎంటిటీలతో భర్తీ చేయడంలో యాంపర్‌సండ్ మాకు సహాయపడుతుంది.

XML డిక్లరేషన్

XML డిక్లరేషన్ పత్రాన్ని వ్రాయడానికి ఉపయోగించే భాష యొక్క సంస్కరణను నిర్దేశిస్తుంది. XML స్పెసిఫికేషన్ XML డిక్లరేషన్‌తో పత్రాన్ని ప్రారంభించమని చెబుతుంది ఎందుకంటే డాక్యుమెంట్ కంటెంట్‌ల యొక్క సరైన వివరణ భాష యొక్క సంస్కరణపై ఆధారపడి ఉంటుంది.

భాష యొక్క మొదటి సంస్కరణలో (1.0), ఈ ప్రకటన ఐచ్ఛికం, కానీ తరువాతి సంస్కరణల్లో ఇది తప్పనిసరి. తప్పిపోయిన డిక్లరేషన్ అంటే వెర్షన్ 1.0 అని భావించబడుతుంది. డిక్లరేషన్‌లో డాక్యుమెంట్ ఎన్‌కోడింగ్ గురించిన సమాచారం కూడా ఉండవచ్చు.

ఉదాహరణ:

<?XML వెర్షన్="1.1" ఎన్‌కోడింగ్="UTF-8" ?>

టాగ్లు

ట్యాగ్ అనేది మూలకం పేరును కలిగి ఉండే మార్కప్ నిర్మాణం. ప్రారంభ ట్యాగ్‌లు మరియు ముగింపు ట్యాగ్‌లు ఉన్నాయి. ప్రారంభ మరియు ముగింపు మూలకాలను మిళితం చేసే ఖాళీ-మూలకం ట్యాగ్‌లు కూడా ఉన్నాయి.

ఉదాహరణలు:

ప్రారంభ ట్యాగ్: <tag1>
ముగింపు ట్యాగ్: </tag1>
ఖాళీ-మూలకం ట్యాగ్: <empty_tag1 />

గుణాలు

XML మూలకాలలో మరొక భాగం గుణాలు. ఒక మూలకం బహుళ ప్రత్యేక లక్షణాలను కలిగి ఉంటుంది. గుణాలు మూలకం గురించి మరింత సమాచారాన్ని తెలియజేస్తాము. లేదా మరింత ఖచ్చితంగా, గుణాలు మూలకాల లక్షణాలను నిర్వచిస్తాయి.

లక్షణం ఎల్లప్పుడూ పేరు-విలువ జత:

పేరు = "విలువ"

ట్యాగ్‌లోని లక్షణానికి ఉదాహరణ:

<tag1 name = "value">మూలకం</tag1>

లక్షణం యొక్క విలువ తప్పనిసరిగా డబుల్ కోట్‌లు ( " ) లేదా సింగిల్ కోట్‌లు ( ' )తో చుట్టబడి ఉండాలి. లక్షణాలు ప్రారంభ ట్యాగ్‌లు మరియు ఖాళీ-ఎలిమెంట్ ట్యాగ్‌లలో మాత్రమే ఉపయోగించబడతాయి.

ఐదు ప్రత్యేక అక్షరాలు తప్పించుకోవడం (<, >, ', ”, &)

సహజంగానే, అక్షర డేటా మరియు లక్షణ విలువలలో < , > మరియు & చిహ్నాలు ఉపయోగించబడవు. వాటిని సూచించడానికి మీరు ప్రత్యేక ఎస్కేప్ సీక్వెన్స్‌లను కలిగి ఉండాలి. అట్రిబ్యూట్ విలువల లోపల అపాస్ట్రోఫీలు మరియు కొటేషన్ గుర్తులను వ్రాసేటప్పుడు కూడా ప్రత్యేక సీక్వెన్సులు ఉపయోగించబడతాయి:

చిహ్నం	ప్రత్యామ్నాయం
<	<
>	>
&	&
'	'
"	"

అలాగే, \ అక్షరాన్ని వ్రాయడానికి , మీరు \\ ఉపయోగించాలి .

CDATA విభాగం

CDATA విభాగం అనేది టెక్స్ట్ యొక్క లాజికల్ యూనిట్ కాదు. XML సింటాక్స్ పత్రంలో అక్షర డేటాను ఉంచడానికి అనుమతించే చోట ఈ రకమైన విభాగం సంభవించవచ్చు.

విభాగం <![CDATA[ తో మొదలై ]]> తో ముగుస్తుంది . ఈ మార్కప్ బిట్‌ల మధ్య అక్షర డేటా ఉంచబడుతుంది మరియు < , > , మరియు & చిహ్నాలను వాటి ప్రత్యక్ష రూపంలో ఉపయోగించవచ్చు.

వ్యాఖ్యలు

వ్యాఖ్యలు అక్షర డేటాగా పరిగణించబడవు. వ్యాఖ్య  తో ముగుస్తుంది . అక్షర క్రమం -- వ్యాఖ్యలో ఉపయోగించబడదు. అలాగే, వ్యాఖ్య లోపల, యాంపర్సండ్ అక్షరం మార్కప్‌ను సూచించదు.

ఉదాహరణ:

పేర్లు

XMLలో, అన్ని పేర్లు యూనికోడ్ క్యారెక్టర్ టేబుల్, అరబిక్ అంకెలు, పీరియడ్‌లు, కోలన్‌లు, హైఫన్‌లు మరియు అండర్‌స్కోర్‌లలోని అక్షరాలను మాత్రమే కలిగి ఉంటాయి. పేర్లు అక్షరం, కోలన్ లేదా అండర్ స్కోర్‌తో ప్రారంభం కావచ్చు. XML స్ట్రింగ్‌తో పేరు ప్రారంభం కాదని గుర్తుంచుకోండి .

ఉదాహరణ

జావా క్లాస్ మరియు ఆ క్లాస్ యొక్క వస్తువును చూద్దాం. అప్పుడు మేము ఆబ్జెక్ట్‌ను XML ఫార్మాట్‌లో సీరియలైజ్ చేయడానికి ప్రయత్నిస్తాము. తరగతి కోడ్:


public class Book {
   private String title;
   private String author;
   private Integer pageCount;
   private List<String> chapters;

   public Book(String title, String author, Integer pageCount, List<String> chapters) {
       this.title = title;
       this.author = author;
       this.pageCount = pageCount;
       this.chapters = chapters;
   }
// Getters/setters
}

మరియు వస్తువుల సృష్టి:


Book book = new Book("My Favorite Book", "Amigo", 999, Arrays.asList("Chapter 1", "Chapter 2", "Chapter 3", "Chapter 4", "Chapter 5", "Chapter 6"));

4 ఫీల్డ్‌లను కలిగి ఉన్న జావా ఆబ్జెక్ట్ యొక్క చెల్లుబాటు అయ్యే XML ప్రాతినిధ్యం యొక్క ఉదాహరణ ఇక్కడ ఉంది, వాటిలో ఒకటి సేకరణ (పైన ఉన్న జావా కోడ్ చూడండి):

<పుస్తకం>
  <title>నాకు ఇష్టమైన పుస్తకం</title>
  <author>అమిగో</author>
  <pageCount>999</pageCount>
<chapters>
    <chapters>అధ్యాయం 1</ chapters> < chapters
    >అధ్యాయం 2</ chapters>
    < chapters>చాప్టర్ 3</ chapters>
    < chapters>అధ్యాయం 4</ chapters>
    < chapters>అధ్యాయం 5</ chapters> < chapters
    >అధ్యాయం 6</ chapters> </ chapters>
<
/ Book>

XML స్కీమా

XML స్కీమా అనేది XML డాక్యుమెంట్ యొక్క నిర్మాణం యొక్క వివరణ. సంబంధిత స్పెసిఫికేషన్ (XML స్కీమా డెఫినిషన్, లేదా XSD) W3C సిఫార్సు.

XML డాక్యుమెంట్ తప్పనిసరిగా అనుసరించాల్సిన నియమాలను వ్యక్తీకరించడానికి XSD రూపొందించబడింది. కానీ మాకు చాలా ఆసక్తికరమైన విషయం ఏమిటంటే, XML డాక్యుమెంట్‌లను ప్రాసెస్ చేసే సాఫ్ట్‌వేర్‌ను అభివృద్ధి చేసేటప్పుడు ఉపయోగించేందుకు XSD రూపొందించబడింది. ఇది XML డాక్యుమెంట్ యొక్క ఖచ్చితత్వాన్ని ప్రోగ్రామాటిక్‌గా తనిఖీ చేయడానికి అనుమతిస్తుంది.

XML స్కీమాను కలిగి ఉన్న ఫైల్‌లు .xsd పొడిగింపును కలిగి ఉంటాయి. XML స్కీమా రూపకల్పన ఈ పాఠం యొక్క పరిధికి మించినది, కాబట్టి ప్రస్తుతానికి అవకాశం ఉందని తెలుసుకోండి.

﻿XML డేటా ఫార్మాట్