博客园win8客户端开发记录3 -博客新闻列表html数据获取和解析

wyqj

浏览: 79412 次

最近访客更多访客>>

贫僧稽首了

likunran521

wxn_yxm

yangyi336

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

我的技术资料收集

javascript win8 metro

原帖地址：http://www.cnblogs.com/leonwang/archive/2013/05/31/metro-cnblogs-parsehtmllist.html

昨天晚上完成了数据源获取方式的迁移工作，所有列表和详情数据都从开放的博客园wcf服务获得，删除了旧的javascript解析html提取数据的代码，删除之前保存了一个副本，毕竟也是测试过的，浪费过时间的东西，现记录下来，以下方法在当前博客园界面改版前是可以工作的，当然如果界面改版了，大家都懂得，javascript代码如下：

// 解析博客列表，新闻列表 ，提取出json 格式数据
function parseHtml( html )
        {
var page = document.createElement( 'div' );
//metro app 方法：  WinJS.Utilities.setInnerHTML( page, toStaticHTML( html ) );
            page.innerHTML = html;

var titleLinks = page.getElementsByClassName( 'titlelnk' ),
                   summaries = page.getElementsByClassName( 'post_item_summary' ),
                   post = page.getElementsByClassName( 'post_item_foot' ),
                   comments = page.getElementsByClassName( 'article_comment' ),
                   reads = page.getElementsByClassName( 'article_view' ),
                   items = [],
                   item,
                   img = [],
                   postLinks = [],
                   regx = /\d+/,
                   count = titleLinks.length,
                   dateRegx = /\d{4}-\d{1,2}-\d{1,2}\s+\d{1,2}:\d{1,2}/,
// used for key generating
                   nowticks = new Date().getTime();

if ( summaries.length === count
&& comments.length === count
&& post.length === count
&& comments.length === count
&& reads.length === count )
            {
for ( var i = 0; i < count; i++ )
                {

                    item = {};
                    item.key = nowticks++;
// title & url
                    item.title = titleLinks[i].innerText || '';
                    item.url = titleLinks[i].getAttribute( 'href' ) || '#';
// summary & img
                    item.summary = summaries[i].innerText;
                    img = summaries[i].getElementsByTagName( 'img' );

if ( img.length > 0 )
                    {
                        item.picture = img[0].getAttribute( 'src' );
                    } else
                    {
                        item.picture = 'images/cnblogs.png';
                    }

// postBy & postDate & comment & read
                    postLinks = post[i].getElementsByTagName( 'a' );
if ( postLinks.length === 3 )
                    {
                        item.postBy = postLinks[0].innerText;
var postDate = dateRegx.exec( postLinks[0].nextSibling.textContent );
if ( postDate && postDate[0] )
                        {
                            item.postDate = postDate[0];
var p = Date.parse( item.postDate.replace( /-/g, '/' ) );
var c = new Date().getTime(),
                            passedSec = ( c - p ) / 1000, // sec
                            passedMin = passedSec / 60, // min
                            passedHour = passedMin / 60, // hour
                            passedDay = passedHour / 24; // day

if ( passedSec < 60 )
                            {
                                item.postDate = passedSec.toFixed( 0 ) + '秒前';
                            }
else if ( passedMin < 60 )
                            {
                                item.postDate = passedMin.toFixed( 0 ) + '分钟前';
                            }
else if ( passedHour < 24 )
                            {
                                item.postDate = passedHour.toFixed( 0 ) + '小时前';
                            }
else if ( passedDay < 4 )
                            {
// passed less than 4 day
                                item.postDate = passedDay.toFixed( 0 ) + '天前';
                            }
else
                            {

                            }
                        }
else
                        {
                            item.postDate = '';
                        }

// comment
                        item.comment = regx.exec( postLinks[1].innerText );

if ( item.comment && item.comment.length > 0 )
                        {
                            item.comment = item.comment[0];
                        }

// read
                        item.read = regx.exec( postLinks[2].innerText );

if ( item.read && item.read.length > 0 )
                        {
                            item.read = item.read[0];
                        }
                    }

                    items.push( item );
                }
            }
else
            {
// error 
            }

return items;
        };

下面测试博客列表，这里我们提取博客园首页栏目第一页html，从fiddler 或chrome工具栏可以很方便得到相关url

可以看到url和相关参数，我试了下get请求，博客园也正常返回 : http://www.cnblogs.com/mvc/AggSite/PostList.aspx?CategoryType=SiteHome&ParentCategoryId=0&CategoryId=808&ItemListActionName=PostList&PageIndex=1 ,

得到列表html后，测试解析函数

 window.onload = function ()
        {
var blogsHtml = document.getElementById( 'homepage' ).innerHTML;
var blogs = parseHtml( blogsHtml );
            console.log( blogs );
        };

结果如下：

同理，得到新闻页列表第一页 http://www.cnblogs.com/news/1/

  window.onload = function ()
        {var newsHtml = document.getElementById( 'post_list' ).innerHTML;
var news = parseHtml( newsHtml );
            console.log( news );
        };

运行结果：

大家可能觉得js处理效率有问题，比较慢，其实不然，至少从感官而言，迁移前后并未感觉加载列表速度有什么不同，看来IE10的js引擎也不是盖的 ,以上测试源码如下：

解析博客园文章列表.zip

本文链接

分享到：

AzureDirectory Library for Lucene.Net | Ajax,防止重复请求,跨域,本地存贮

2013-05-31 11:50
浏览 946
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

博客园win8客户端开发记录3 -博客新闻列表html数据获取和解析

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

博客园win8客户端开发记录3 -博客新闻列表html数据获取和解析

评论

发表评论

相关推荐

C#WebBrowser控件使用教程与技巧收集--苏飞收集 - sufeinet

我要喷一个自认为很垃圾的网站架构 - 老赵【苏州】

[翻译] Oracle Database 12c 新特性Multitenant - Cheney Shue

memcahd 命令操作详解 - 阿正-WEB

面向过程的代码符合大众的思维方式吗？ - 史蒂芬.王

面向过程的代码符合大众的思维方式吗？ - 史蒂芬.王

RPG游戏之组队测试 - zthua

IT人们给个建议 - SOUTHER

Java向前引用容易出错的地方 - 银河使者

使用Func<T1, T2, TResult> 委托返回匿名对象 - 灰身

【web前端面试题整理03】来看一点CSS相关的吧 - 叶小钗

Windows 8 动手实验系列教程 实验6：设置和首选项 - zigzagPath

闲聊可穿戴设备 - shawn.xie

CentOS下Mysql安装教程 - 小学徒V

vmware安装ubuntu12.04嵌套安装xen server（实现嵌套虚拟化） - skyme

之前专门为IE6、7开发的网站如何迁移到IE10及可能遇到的问题和相应解决方案汇总 - 海之澜

Android学习笔记--解析XML之SAX - 承香墨影

SQL Server 性能优化之——T-SQL TVF和标量函数

Nginx学习笔记（二） Nginx--connection&request

从郭美美霸气侧漏看项目管理之项目经理防身术

最近访客更多访客>>

Windows 8 动手实验系列教程实验6：设置和首选项 - zigzagPath