(黑帽SEO技術,網站快速排名,蜘蛛池加速收錄,目錄程序定制)
掃一下添加微信:
站內搜索數據提交流程和格式說明
發布日期:2015-04-07
大綱
站內搜索數據提交流程
站內搜索數據提交包含以下4個步驟:
常見問題:
1 什么是XML數據文件?
單個XML數據格式樣例如下:
<?xml version="1.0" encoding="utf-8"?> |
XML文件需以utf-8編碼 |
<urlset> |
必填,標識整個鏈接集合的開始和結束 |
<url> |
必填,每條數據都用一對<url>標簽標識 |
<loc>http://example.com/.../page1.html</loc> |
必填,頁面地址,長度不得超過256字節 |
<lastmod>2013-08-12</lastmod> |
標識該頁面的最后更新時間 |
<changefreq>daily</changefreq> |
標識此頁面的更新頻率 |
<priority>0.8</priority> |
標識此頁面相對于其他頁面的優先權比值,介于0.0-1.0之間 |
<data> |
必填,標識擴展標簽的開始和結束 |
<display> |
必填,緊鄰<data>,擴展標簽都包含在<display></display>里 |
</display> |
必填,標簽閉合 |
</data> |
必填,標簽閉合 |
</url> |
必填,標簽閉合 |
</urlset> |
必填,標簽閉合 |
上述XML數據文件向百度提交了一個url:http://example.com/.../page1.html。
若有多條url,則按照上述格式重復<url></url>之間的片斷,列明所有url地址,打包到一個XML文件進行提交。
2 什么是sitemap索引文件?
如需提交大量XML數據文件,可以將其列在sitemap索引文件中,然后提交該索引文件,而無需分別提交每個數據文件。索引文件包含的各個字段標簽如下:
<?xml version="1.0" encoding="UTF-8" ?> |
XML文件需以utf-8編碼 |
<sitemapindex> |
必填,標識sitemap索引文件 |
<sitemap> |
必填,每個數據文件都用一對<sitemap>標簽標識 |
<loc>http://example.com/.../aaa.xml</loc> |
必填,標識數據文件的位置 |
<lastmod>2013-08-20</lastmod> |
標識數據文件的最近一次修改時間 |
</sitemap> |
必填,標簽閉合 |
</sitemapindex> |
必填,標簽閉合 |
若有多個XML數據文件,則按照上述格式重復<sitemap></sitemap>之間的片斷,列明所有XML數據文件地址,打包到一個sitemap索引文件進行提交。
3 文件大小的限制?
每個XML數據文件包含的網址不得超過 5 萬個,且單個文件大小不得超過 10 MB。每個sitemap索引文件包含的XML數據文件不得超過5萬個,但是單個索引文件應該小于10MB。這些限制條件有助于避免網絡服務器因傳輸非常大的文件而遇到麻煩。
4 如何設置更新周期?
百度spider會參考設置周期抓取數據,因此請根據數據文件內容的更新情況(比如增加新url)來設置。
請注意若文件內url不變而僅是url對應的頁面內容更新(比如論壇帖子頁有新回復內容),不在此更新范疇內。
5 數據提交后,多久能被百度抓???
數據提交后,一般在1小時內百度會開始處理,處理完成的時間視文件大小而定。
當前默認的抓取速度是10url/s,考慮網速等因素造成的折損,每個站點的天級抓取量可達50萬。
6 提交的數據都會被收錄嗎?
站內搜索將收錄您提交的全部數據;但對于百度網頁搜索來說,是否收錄與頁面質量相關。
站內搜索數據格式說明
數據文件基本結構
站內搜索的XML數據文件由兩部分組成:固定標簽部分和擴展標簽部分。
固定標簽部分
包含<urlset>、<url>、<loc>、<lastmod>、<changefreq>、<priority>、<data>、<display>共8個標簽。雖然未必都要填寫,但是它們是所有數據格式的通用字段。
標簽名稱 |
屬性類型 |
屬性描述 |
優先級 |
標簽限制 |
urlset |
/ |
標記整個文檔的開始和結束 |
必選 |
/ |
url |
/ |
標記每條信息的開始和結束 |
必選 |
1個urlset可以包含很多url |
loc |
url |
該條數據的存放地址 |
必選 |
以"http://"開頭 最大長度256個字符 |
lastmod |
日期 |
該條數據的最新一次更新時間 |
可選 |
格式為YYYY-MM-DD |
changefreq |
字符串 |
該條數據的更新頻率 |
可選 |
有效值為:always、hourly、daily、weekly、monthly、yearly、never |
priority |
小數 |
指定此鏈接相對于其他鏈接的優先權比值 |
可選 |
數值范圍:0.0~1.0 |
data |
/ |
標記擴展數據的開始和結束 |
必選 |
/ |
display |
/ |
標記擴展數據中用作展現的字段的開始和結束 |
必選 |
/ |
注意事項:
XML數據文件必須使用UTF-8編碼。
所有標簽必須按照格式中指定的順序列出,非必選標簽可以不寫,但是不能亂序。
標簽大小寫敏感,請務必細心區分。
url中不能含有中文字符。
lastmod必須嚴格遵守日期格式,2013-08-01是正確的,2013-8-1則是錯誤的。
擴展標簽部分
不同數據格式類型包含的擴展標簽也不同,主要用于標識網頁的正文內容和周邊屬性。通過擴展標簽提交的數據將被用于摘要的特型展現、結果的篩選和排序選項設置,甚至直接影響結果的權重。
數據格式類型
站內搜索將根據站點類型分別制定相應的數據格式,以及給出相應的摘要樣式模板。
站內搜索的數據格式包含以下類型,后續還會根據需要再添加:
小說
音樂(建設中)
商品(建設中)
招聘(建設中)
旅游(建設中)
圖書資料(建設中)
問答(建設中)
溫馨提示: |
---|
由于歷史原因,“通用”類別的數據結構和后續的其他各個類別(如“影視-電影”)表示嵌套數據的方式不太一樣。前者將子標簽包含在父標簽里,后者子標簽獨立存在但嵌套在父標簽中。例如同樣表示演員姓名, |
“通用”類別的表示方法為:<actor name="黃曉明" url="http://example.com/path"/> |
其他類別的表示方法為:<actor><name>黃曉明</name><url>http://example.com/path</url></actor> |
通用類型-百度站內搜索數據提交模板_0
圖1通用類型的摘要示意圖(不代表最終效果)
具體格式說明:
注:“可篩選”“可排序”指的是相應字段在搜索結果頁可展現為篩選選項或排序選項;因為所有字段都可用于展現,所以未單獨標注。具體應用方式可參考《站內搜索外觀和功能設置》。
中文標簽 |
英文標簽 |
子標簽 |
屬性類型 |
屬性描述&舉例 |
優先級 |
個數限制 |
可篩選 |
可排序 |
標題 |
title |
/ |
字符串 |
建議填寫,搜索系統優先選用該title |
可選 |
1 |
|
|
內容 |
content |
/ |
字符串 |
如能提交全文,則不需要spider再抓取,既可以降低站點服務器壓力,提升收錄效率,也可以避免搜索系統解析誤差 |
可選 |
1 |
|
|
標簽 |
tag |
/ |
字符串 |
可以是內容主題、領域、分類等的簡短說明文字;最多可定義20個 |
可選 |
20 |
是 |
|
發布時間 |
pubTime |
/ |
日期 |
格式為YYYY-MM-DDThh:mm:ss 只有提交該字段,“外觀設置”中按時間排序或篩選的功能選項才能正常生效 注意:YYYY-MM-DD和hh:mm:ss中間必須包含“T” |
可選 |
1 |
|
是 |
面包屑 |
breadCrumb |
-- |
/ |
用于標記當前網頁在站點中所處的層級位置,最多可定義4層,且標簽先后順序必須對應層級順序,寫在最前為最高層級 假設一篇文章位于新浪網“體育>NBA>洛杉磯湖人”路徑下,那么可以為這個頁面設置3個breadCrumb標簽 |
可選 |
4 |
|
|
層級名稱 |
title |
字符串 |
常常體現為頻道名或版塊名 前面例子中3個breadCrumb標簽的title分別為“體育”“NBA”“洛杉磯湖人” |
可選 |
1 |
是 |
|
|
層級首頁地址 |
url |
url |
前面例子中title為“NBA”時url為http://sports.sina.com.cn/nba/ |
可選 |
1 |
是 |
|
|
縮略圖 |
thumbnail |
-- |
/ |
支持格式gif、jpg、jpeg、png,主要用于搜索結果的摘要展現 每個網頁最多可以提交10個縮略圖,目前站內搜索僅選用其中的第一個用于摘要展現 |
可選 |
10 |
|
|
縮略圖地址 |
loc |
url |
可選 |
1 |
|
|
||
圖片 |
image |
-- |
/ |
支持格式gif、jpg、jpeg、png 每個網頁最多可以提交100張圖片,目前當thumbnail不存在時,默認選擇image的第一張圖片用于摘要展現 |
可選 |
100 |
|
|
圖片存放地址 |
loc |
url |
可選 |
1 |
|
|
||
圖片標題 |
title |
字符串 |
如果沒有標題,也可用于填寫該圖片的標簽等 |
可選 |
1 |
|
|
|
視頻 |
video |
-- |
/ |
每個網頁最多可提交100個視頻數據。(近期即將支持)當thumbnail和image不存在時,默認選擇video的第一個縮略圖用于摘要展現 |
可選 |
100 |
|
|
視頻地址 |
loc |
url |
包含2種情形:指向實際視頻媒體文件,或者指向特定視頻的播放器 前者例如: http://59.63.171.80/youku/65736E30E1C307CC07EF256D1/0300020E004FCFEC663DA204A5719AA5C2599A -5CDB-D8E5-BEB7-C15C62B686F2.flv 后者例如: http://v.youku.com/v_show/id_XNDA3ODI1MTE2.html |
可選 |
1 |
|
|
|
視頻標題 |
title |
字符串 |
例如上述地址的視頻標題為“考研訪談:名師陳文燈教授數學復習指導答疑” |
可選 |
1 |
|
|
|
視頻縮略圖地址 |
thumbnail_loc |
url |
例如上述視頻的縮略圖地址為 http://g2.ykimg.com/0100641F464FCCBFE9328D04A5719A80053701-E1FA-FF97-B990-39B8B55777EB |
可選 |
1 |
|
|
|
視頻時長 |
duration |
整數 |
單位:秒 |
可選 |
1 |
|
|
|
作者 |
author |
-- |
/ |
常見于web2.0頁面,例如論壇帖子作者、博客作者 |
可選 |
1 |
|
|
作者昵稱 |
nickname |
字符串 |
可選 |
1 |
|
|
||
作者個人首頁地址 |
url |
url |
該url指向的頁面通常提供作者的個人信息介紹 |
可選 |
1 |
|
|
|
作者頭像地址 |
thumbnail |
url |
可選 |
1 |
|
|
||
回復數 |
replyCount |
/ |
整數 |
通常表示論壇貼子回帖數,或博客評論數 |
可選 |
1 |
是 |
是 |
屬性 |
property |
/ |
字符串 |
主要用于帖子,例如精華、熱門、置頂、最新等屬性 ,每個網頁最多可以提交3個內容屬性 |
可選 |
3 |
是 |
|
價格 |
price |
-- |
/ |
可選 |
1 |
|
|
|
現價 |
new |
小數 |
商品價格或打折優惠后的現價 |
可選 |
1 |
是 |
是 |
|
原價 |
old |
小數 |
打折優惠前的價格,如果有的話 |
可選 |
1 |
是 |
是 |
|
折扣 |
discount |
-- |
/ |
折扣優惠信息 |
可選 |
1 |
|
|
折扣值 |
value |
小數 |
折扣值 |
可選 |
1 |
是 |
是 |
|
折扣描述 |
description |
字符串 |
折扣優惠介紹 |
可選 |
1 |
|
|
|
評價 |
review |
-- |
/ |
評價信息 常用于商品、活動、影視著作等對象 |
可選 |
1 |
|
|
評分值 |
rating |
小數 |
可選 |
1 |
是 |
是 |
||
評分基數 |
rating_base |
小數 |
評分的基數值或“滿分”值 各網站采用的評分制不盡相同,例如最典型的5分制(0分-5分),還有10分制(0分-10分),或者用百分比來表示,滿分為100%(0%-100%) 站長可根據實際情況來填寫,或者保持不填;只填寫rating_base而不填rating是沒有意義的 |
可選 |
1 |
|
|
|
評分人數 |
count |
整數 |
評分人數 |
可選 |
1 |
是 |
是 |
|
位置 |
location |
-- |
/ |
常用于標識機構、商品或者活動 |
可選 |
1 |
|
|
地址 |
address |
字符串 |
可選 |
1 |
|
|
||
電話 |
tel |
字符串 |
可選 |
1 |
|
|
||
地域 |
area |
字符串 |
地域范圍 例如“北京市”“海淀區”“王府井” 主要用于地域篩選 |
可選 |
1 |
是 |
|
|
坐標 |
coordinate |
字符串 |
坐標 采用WGS84標準。格式為:緯度,經度。北緯+,南緯-,東經+,西經-。小數點后最多保留6位。例如“+40.783333,-73.966667”是紐約中央公園的坐標 |
可選 |
1 |
|
|
|
時間 |
time |
-- |
/ |
通常用于標識活動;區別于網頁內容發布時間 |
可選 |
1 |
|
|
開始時間 |
startDate |
日期 |
開始時間 格式為YYYY-MM-DDThh:mm:ss |
可選 |
1 |
|
是 |
|
結束時間 |
endDate |
日期 |
結束時間 格式為YYYY-MM-DDThh:mm:ss |
可選 |
1 |
|
是 |
數據標記示例:
<?xml version="1.0"encoding="UTF-8"?>
<urlset>
<url>
<loc>http://ky.kaoyan.com/04/467393/</loc>
<lastmod>2013-04-10</lastmod>
<changefreq>always</changefreq>
<priority>0.5</priority>
<data>
<display>
<title>【寫給即將上戰場的你們】努力為王,心態為皇</title>
<content>略</content>
<tag>考研復習</tag><tag>經驗</tag>
<pubTime>2012-12-04T11:20:13</pubTime>
<breadCrumb title="考研加油站" url="http://ky.kaoyan.com/"/>
<breadCrumb title="考研政治" url="http://www.kaoyan.com/s/zhengzhi"/>
<thumbnailloc="http://docs.kaoyan.com/jpg/12/1204dde3cd949ccc.jpg"/>
<imageloc="http://docs.kaoyan.com/jpg/12/12048543278e760d.jpg" title="七個最常用的泰勒展開式"/>
<videoloc="http://v.youku.com/v_show/id_XNDA3ODI1MTE2.html" title="考研訪談:名師陳文燈教授數學復習指導答疑 "thumbnail_loc="http://g2.ykimg.com/0100641F464FCCBFE9328D04A5719A80053701-E1FA-FF97-B990-39B8B55777EB"duration="217509"/>
<!-- 視頻非實際頁面內數據,為示意而構造 -->
</display>
</data>
</url>
<url>
…
</url>
</urlset>
小說類型:
具體格式說明:
中文屬性標簽 | 英文屬性標簽 | 屬性類型 | 需求對應 | 優先級 | 重復次數 | 舉例 |
作品名字 | name | Text | 作品的名字 | 必選字段 | 1 | 半夢半醒 |
作者 | author | Person | 作品的作者 | 必選字段 | 1 | 作者字段,包含3部分,具體見下方。 |
作品配圖 | image | URL | 展現的時候會用到 | 強烈建議 | 不限 | |
作品簡介 | description | Text | 一般的文本 | 強烈建議 | 1 | 小說故事發生于2005年,跨度六年,講述了主人公朱亞楠一次去北京參加頒獎大會,結識一號女主角王文靜。兩人開始朦朦朧朧的愛戀。由于不在同一城市生活,兩人只能艱難的異地戀。種種陰差陽錯導致他們分分離離,其間又交叉了二號女主角蘇揚和三號女主角劉琳。朱亞楠游離在三個美貌女孩之間,最終他會選擇和誰終生廝守?他們的愛情又會有什么樣的波折?敬請期待! |
分類 | genre | Text | 作品的分類,方便書籍間的類聚 | 必選字段 | 1 | 言情 |
完成字數 | wordCount | Number | 作品的總完成字數 | 強烈建議 | 1 | 19221 |
閱讀鏈接 | url | URL | 作品的閱讀鏈接 | 必選字段 | 1 | http://www.rongshuxia.com/chapter/bookid-5304284-chapterid-99069.html |
更新狀態 | updateStatus | Text | 完結還是更新中 | 必選字段 | 1 | 已完結 |
閱讀費用 | trialStatus | Text | 免費或者是前多少章免費,或收費 | 必選字段 | 1 | 免費 |
周點擊 | weeklyClick | Number | 最近一周的點擊數量 | 強烈建議 | 1 | 50000 |
月點擊 | monthlyClick | Number | 最近一個月的點擊數量 | 強烈建議 | 1 | 150000 |
總點擊 | totalClick | Number | 作品的總點擊數量 | 必選字段 | 1 | 3197509 |
最新章節 | newestChapter | Chapter | 作品的最新章節 | 必選字段 | 1 | |
章節 | chapter | Chapter | 作品的章節 | 必選字段 | 不限 | |
更新時間 | dateModified | Date | 作品的更新時間 | 必選字段 | 1 | 2012/10/5 |
作者 - author | ||||||
作者名稱 | name | Text | 作者的名稱,可能是姓名、筆名或ID | 必選字段 | 1 | zhujiaguo1986 |
作者簡介 | description | Text | 作者的簡介 | 強烈建議 | 1 | 朱家果,男,80后知名作家、詩人。 |
網頁鏈接 | url | URL | 作者的網頁鏈接,可能是博客或者個人主頁 | 可選字段 | 1 | http://blog.sina.com.cn/zhujiaguo2007 |
最新章節 - newestChapter | ||||||
所屬小說名稱 | articleSection | Text | 章節所屬的小說名稱 | 必選字段 | 1 | 半夢半醒 |
最新章節標題 | headline | Text | 最新章節的標題 | 必選字段 | 1 | 未名湖畔 |
最新章節鏈接 | url | URL | 最新章節頁面的URL鏈接 | 必選字段 | 1 | http://www.rongshuxia.com/chapter/bookid-5304284-chapterid-99144.html |
更新時間 | dateModified | Date | 最新章節的更新時間 | 必選字段 | 1 | 2012/10/5 |
章節 - chapter | ||||||
所屬小說名稱 | articleSection | Text | 章節所屬的小說名稱 | 必選字段 | 1 | 半夢半醒 |
章節標題 | headline | Text | 章節的標題 | 必選字段 | 1 | 歡暢一日 |
章節內容 | acticleBody | Text | 給用戶展現最新內容 | 強烈建議 | 1 | 剛出朝陽賓館,王文靜就嚷嚷著要去對面的桌球館里打桌球。王文靜挽著朱亞楠的手進了桌球館,在窗口處領了桌號,要了球桿。許妮一聲不響地跟在后面,一臉失落落的樣子。服務生剛把桌上的球仔擺好,王文靜便樂此不彼地打開了。 |
章節鏈接 | url | URL | 章節的URL鏈接 | 必選字段 | 1 | http://www.rongshuxia.com/chapter/bookid-5304284-chapterid-99076.html |
更新時間 | dateModified | Date | 章節的更新時間 | 強烈建議 | 1 |
電影類型:
圖2影視-電影類的摘要示意圖(不代表最終效果)
具體格式說明:
“屬性類型”說明
1. 含有子標簽的屬性類型:Person、AggregateRating、VideoObject、InTheaters。子標簽內容詳見下方各個分支說明。
2. 時間相關的屬性類型:Date支持YYYY-MM-DD格式,或者YYYY-MM,或YYYY;Duration支持P[n]Y[n]M[n]DT[n]H[n]M[n]S格式,例如“P3Y6M4DT12H30M5S”表示“3年6個月4天12小時30分5秒”。時間格式說明詳見:ISO8601。
3. Number支持各種數字類型,例如整數和小數。
“出現次數”說明
1. 不限次數的情況下,用多組同名標簽來表達多個值,例如:<genre>愛情</genre><genre>青春</genre>。
No. |
中文標簽 |
英文標簽 |
屬性類型 |
屬性描述 |
優先級 |
出現次數 |
舉例 |
可展現 |
可篩選 |
可排序 |
1 |
名稱 |
name |
Text |
電影名稱 |
必選 |
1 |
<name>中國合伙人</name> |
是 |
|
|
2 |
別名 |
alias |
Text |
電影別名 |
可選 |
不限 |
<alias>中國先生</alias> |
是 |
|
|
3 |
海報 |
image |
URL |
電影海報的鏈接 |
強烈建議 |
不限 |
<image>http://img31.mtime.cn/mt/2013/05/03/163203.48183969_96X128.jpg</image> |
是 |
|
|
4 |
描述 |
description |
Text |
作品的簡介 |
必選 |
1 |
<description>從1980年代到21世紀,30年的大變革背景下,三個好友為了改變自身命運,創辦英語培訓學校,最終實現“中國式夢想”。</description> |
是 |
|
|
5 |
類型 |
genre |
Text |
通常指作品本身的分類屬性 |
必選 |
不限 |
<genre>喜劇</genre> |
是 |
是 |
|
6 |
演員 |
actor |
Person |
演員或動畫片中的配音演員 |
必選 |
不限 |
<actor> |
是 |
|
|
7 |
導演 |
director |
Person |
電影導演,包括執行導演等 |
必選 |
不限 |
<director> |
是 |
|
|
8 |
編劇 |
author |
Person |
電影等的編劇 |
可選 |
不限 |
<author> |
是 |
|
|
9 |
內容語言 |
inLanguage |
Text |
電影對白主題語言 |
必選 |
1 |
<inLanguage>中文</inLanguage> |
是 |
|
|
10 |
地區 |
contentLocation |
Text |
影片的制作地區 |
必選 |
不限 |
<contentLocation>中國</contentLocation> |
是 |
是 |
|
11 |
上映信息 |
premiere |
PremiereInfo |
電影上映的有關信息 |
必選 |
不限 |
<premiere> <datePublished>2013-05-17</datePublished> <publishLocation>中國</publishLocation><duration>PT112M</duration> </premiere> |
是 |
是 |
是 |
12 |
摘要 |
abstract |
Text |
顯示在網頁中的摘要數據 |
強烈建議 |
1 |
略 |
|
|
|
13 |
綜合評價 |
aggregateRating |
AggregateRating |
用戶綜合評價 |
必選 |
1 |
<aggregateRating> |
是 |
|
是 |
14 |
預告片 |
trailer |
VideoObject |
預告片信息 |
強烈建議 |
不限 |
<trailer> |
|
|
|
15 |
評論數量 |
commentNum |
Number |
用戶評論、意見的數量,表達自己的觀點,不一定和作品相關 |
強烈建議 |
1 |
<commentNum>23</commentNum> |
是 |
||
16 |
獲獎信息 |
awards |
Text |
電影的獲獎信息 |
強烈建議 |
不限 |
<adwards>金馬獎XXX</adwards> |
是 |
|
|
演員 - actor |
|
|
|
|||||||
1 |
演員姓名 |
name |
Text |
演員的姓名 |
必選 |
1 |
<name>鄧超</name> |
是 |
|
|
2 |
頁面鏈接 |
url |
URL |
演員頁面的URL鏈接 |
強烈建議 |
1 |
<url>http://people.mtime.com/1256584/</url> |
|
|
|
3 |
角色名稱 |
role |
Text |
角色的姓 智能小程序 投訴平臺 百度統計 百度智能云 百度云加速 百度安全 百度大腦 百度保障 百度開發者中心 聯系我們 微信公眾號 ?2021 Baidu 使用百度前必讀 京ICP證030173號 |
專注于SEO培訓,快速排名黑帽SEO https://www.heimao.wiki