<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>一花一世界 &#187; Sorting</title>
	<atom:link href="http://www.juliuschen.com/archives/category/algorithm/sorting/feed" rel="self" type="application/rss+xml" />
	<link>http://www.juliuschen.com</link>
	<description></description>
	<lastBuildDate>Mon, 17 Oct 2011 10:30:11 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.2.1</generator>
		<item>
		<title>基数排序</title>
		<link>http://www.juliuschen.com/archives/15.html</link>
		<comments>http://www.juliuschen.com/archives/15.html#comments</comments>
		<pubDate>Fri, 25 Dec 2009 09:54:43 +0000</pubDate>
		<dc:creator>Julius Chen</dc:creator>
				<category><![CDATA[Sorting]]></category>
		<category><![CDATA[基数排序]]></category>
		<category><![CDATA[排序算法]]></category>
		<category><![CDATA[非比较排序]]></category>

		<guid isPermaLink="false">http://www.juliuschen.com/archives/15</guid>
		<description><![CDATA[基数排序和计数排序一样，是非基于比较的排序算法，它借助“分配”和“收集”两种操作对单逻辑关键字进行排序（基于箱/桶排序），它的排序速度很快，时间复杂度为线性，但由于需要的辅助空间太大（n(radix+1)），因此长期无法应用。直到1954年有人提出用“计数”代替“分配”才得以使它能在计算机上实现。此后，又有人提出用链表作为存储数据的结构，这样又能减少一些辅助空间，这也是一种比较好的实现方法（只是算法要较复杂）。 基数排序分为MSD（最高位优先）基数排序和LSD（最低位优先）基数排序，MSD从左到右处理关键字的位数，首先处理最重要的数字。它比较符合常规的思维，所需处理的信息量也较少。但按MSD进行排序，必须将序列逐层分割成若干个子序列，然后对各子序列分别进行排序；而LSD则从右到左先处理最不重要的数字，这样虽然可能花费了一些时间来处理不会影响结果的信息，但它不用分子序列，对每个关键字都是整个序列参加排序，而且对具体的应用还可以对其进行改进。因此在很多排序应用中都选择这种方法。 基数排序（LSD/用计数排序）的C/C++代码实现： 这是以16进制方式对整数进行基数排序，若用十进制方式，则抽取关键字当中某位数字时（即a[j]>>4*i&#038;0xf处）会稍显复杂，效率也稍低。 基数排序的时间复杂度如上面所说是线性的O(n)，由于是非比较排序，所以可以突破比较排序O(n㏒n)的时间复杂度下限。因此通常来说比所有的比较排序都快。但由于计数排序的内部循环中的操作数目比快速排序或归并排序内部循环要多的多，因此这里的线性运行时间可能并不比快速排序的运行时间少很多。 基数排序还有一个问题是它的应用范围并不如比较排序应用的广泛，这主要是因为基数排序基于的关键字抽取算法没有比较排序的比较操作那么普遍。 基数排序是稳定的排序方法。]]></description>
		<wfw:commentRss>http://www.juliuschen.com/archives/15.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>计数排序</title>
		<link>http://www.juliuschen.com/archives/14.html</link>
		<comments>http://www.juliuschen.com/archives/14.html#comments</comments>
		<pubDate>Thu, 24 Dec 2009 10:34:17 +0000</pubDate>
		<dc:creator>Julius Chen</dc:creator>
				<category><![CDATA[Sorting]]></category>
		<category><![CDATA[排序算法]]></category>
		<category><![CDATA[计数排序]]></category>
		<category><![CDATA[非比较排序]]></category>

		<guid isPermaLink="false">http://www.juliuschen.com/archives/14</guid>
		<description><![CDATA[计数排序(Counting Sort)是一种非基于比较的排序方法，它要求所有的待排元素都必须是≥0的整数。它的排序步骤是首先根据数组中最大的元素值加1作为长度来定义一个计数数组C。然后统计待排数组中每个值为i的元素出现的次数，存入C的第i项中。再对所有的计数累加（从C中的第一项开始，每一项和前一项相加）。最后再反向填充辅助数组：将每个元素i放在辅助数组的第C(i)项，每放一个元素就将C(i)减去1。这样完成之后排序就已完毕，有序序列已存储在辅助数组中。如果结果想用原数组输出，则将它们从辅助数组考回到原数组即可。 计数排序的C/C++代码实现： 计数排序是稳定的排序方法，这是它很重要的特性之一，也是为什么要在这里介绍它的原因：因为后面的LSD基数排序会因为它的这个特性而用到它。 计数排序的时间复杂度是O(n)，比之前所讲的所有比较排序算法都快。但由于它的限制条件苛刻，比如所排元素必须是≥0的正整数，并且数据范围和数据元素个数不宜过大等。虽然经过改进可以对数据项较大、包含范围较小的文件进行排序，但应用范围仍然不是很大。]]></description>
		<wfw:commentRss>http://www.juliuschen.com/archives/14.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>归并排序</title>
		<link>http://www.juliuschen.com/archives/13.html</link>
		<comments>http://www.juliuschen.com/archives/13.html#comments</comments>
		<pubDate>Tue, 22 Dec 2009 10:27:11 +0000</pubDate>
		<dc:creator>Julius Chen</dc:creator>
				<category><![CDATA[Sorting]]></category>
		<category><![CDATA[归并排序]]></category>
		<category><![CDATA[排序算法]]></category>

		<guid isPermaLink="false">http://www.juliuschen.com/archives/13</guid>
		<description><![CDATA[归并排序是建立在归并操作（Merging）上的一种排序方法，它是采用分治法的一个非常典型的应用。归并是指将两个或两个以上的有序表合并成一个新的更大的有序表，归并排序则是递归的先将待排序列分割成n个序列，然后从最小的有序序列（只含一个元素）开始不断调用归并操作进行合并直到最后都合并成一个大的完整的有序表为止。 归并排序的C/C++代码实现： 归并排序的时间复杂度是O(n㏒n)，并且和输入数据无关。这点和堆排序一样，是归并排序最吸引人的特性之一（虽然这有时候也可能成为缺点，如在某些特殊的情况下（如已基本有序）连简单的排序方法运行时间也可以为线性，但归并和堆还是只能为O(n㏒n)）。 归并排序还有一个特性是它的执行过程中基本是按顺序访问数据的，这点在某些情况下会很重要。例如，链表排序中只可以按顺序访问数据，这时就可以选用归并排序。 归并排序主要的缺点就是需要与n成比例的额外内存空间。虽然可以克服这个障碍，但通常比较复杂而且花费很大，一般并不值得这么做，特别是还可以选择堆排序时。 归并排序是一种稳定的排序方法，与归并排序竞争的算法，如快速排序和堆排序，是不稳定的。虽然使这些算法也变成稳定有很多方法，但需要额外的内存空间。因此当稳定性是基本的要求时，归并排序中需要额外内存空间这个缺点就变得没那么重要了。 竞争的排序算法 如上所述，和归并排序竞争的是快速排序和堆排序。归并排序和堆排序的时间复杂度一样，它内部循环的长度在快速排序和堆排序之间，因此当运行速度很重要（去堆排序），不能有最坏的运行情况（去快速排序），又有足够的空间可以使用时，可以考虑使用归并排序。]]></description>
		<wfw:commentRss>http://www.juliuschen.com/archives/13.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>堆排序</title>
		<link>http://www.juliuschen.com/archives/12.html</link>
		<comments>http://www.juliuschen.com/archives/12.html#comments</comments>
		<pubDate>Mon, 21 Dec 2009 10:12:45 +0000</pubDate>
		<dc:creator>Julius Chen</dc:creator>
				<category><![CDATA[Sorting]]></category>
		<category><![CDATA[堆排序]]></category>
		<category><![CDATA[排序算法]]></category>
		<category><![CDATA[选择排序]]></category>

		<guid isPermaLink="false">http://www.juliuschen.com/archives/12</guid>
		<description><![CDATA[堆排序是对树形选择排序的改进，它首先将整个待排序列构建成一个堆，然后将堆顶元素与最后一个元素交换，由此得到一个有序元素和一个长度减1的堆。由于交换后新的堆顶元素可能不满足堆的定义，因此需要将新的堆重新进行堆化（堆化无需重新建堆，只需做少许调整），在堆化完成之后再次将堆顶元素与堆的最后一个元素交换，由此再得到一个新的有序元素和一个长度减1的堆。然后再重新进行堆化，再交换。。。这样一直下去，直到整个堆只有一个元素为止。这样也就完成了对序列的排序。由这个排序的过程也可以知道，堆排序和简单选择排序不同，不是从前往后慢慢有序，而是从后往前慢慢有序。 堆排序的C/C++代码实现： 堆排序的平均时间复杂度为O(n㏒n)，并且最差时间复杂度也为O(n㏒n)，而且它仅需要一个记录大小的额外存储空间。这就是说，无论输入什么，它都能保证以与n㏒n成比例的时间把n个元素排好序，没有什么最坏运行时间的输入使得排序运行明显变慢（不像快速排序），也无需巨大的额外辅助空间（不像归并排序）。这两个优点是堆排序有实用意义的两个主要原因。 此外，堆排序对于解决在n个元素中找出第k大元素（或前k个最大元素）也很有用，特别是在k比较小而n比较大的情况。在算法中，我们可以在把第k个元素从堆顶移出时停止其继续运行。 堆排序对于小文件排序时并不值得提倡，但对于较大的文件，堆排序还是很有效的。 竞争的排序算法 堆排序的主要竞争方法是快速排序和归并排序。堆排序和归并排序的选择主要归结于不稳定的排序和需要额外内存的排序之间的选择；堆排序和快速排序的选择归结于平均情况下速度和最坏情况下速度之间的选择。]]></description>
		<wfw:commentRss>http://www.juliuschen.com/archives/12.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>快速排序</title>
		<link>http://www.juliuschen.com/archives/11.html</link>
		<comments>http://www.juliuschen.com/archives/11.html#comments</comments>
		<pubDate>Sun, 20 Dec 2009 07:50:37 +0000</pubDate>
		<dc:creator>Julius Chen</dc:creator>
				<category><![CDATA[Sorting]]></category>
		<category><![CDATA[交换排序]]></category>
		<category><![CDATA[快速排序]]></category>
		<category><![CDATA[排序算法]]></category>

		<guid isPermaLink="false">http://www.juliuschen.com/archives/11</guid>
		<description><![CDATA[快速排序是应用最广泛的排序算法，也是目前认为最好的一种内部排序方法（就平均时间而言）。它采用分治（divide-and-conquer）的策略，通过一趟排序将待排记录分割成独立的两个部分，使其中的一部分记录关键字均比另一部分记录关键字小（大），然后分别对两个部分继续进行排序，以达到整个序列有序。 快速排序的C/C++代码实现： 快速排序的平均时间复杂度为O(n㏒n)，相对于希尔排序，对于大（large）的随机顺序文件，快速排序比希尔排序快将近两倍。对于巨大（huge）文件，快速排序算法的性能是则是希尔排序的5~10倍。 快速排序在空间使用上需要一个小的辅助栈。对于快速排序来说，其最好的情况是每趟排序时都将待排序列均匀地分割成长度相接近的两个子序列，这样排序栈的最大深度将不超过㏒2n+1（完全二叉树深度），且如果都先对长度短的子序列进行排序，那么栈的最大深度还可降为O(㏒n)。但如果碰到最坏的情况，比如文件已经排好序时，那么快速排序所有的划分都将退化，这不仅意味着执行时间上将为n2/2，而且栈所需要的空间也将是n。这对大文件来说是不可接受的，因为它可能使程序因为缺少内存空间而非正常结束。 快速排序对于寻找一些数字的中间数也很有用，寻找一些数字的中间数与排序有关但又不是排序的重要应用。一个解决办法就是先将这些数字排序，再找到中间数。但采用基于快速排序的寻找可以做的更好，它能使所需运行时间达到线性。具体的介绍可以参考《算法I-IV》（Robert Sedgewick著）。 快速排序的改进版本 从C. A. R. Hoare发布快速排序的那一刻起，快速排序的改进版本就不断的涌现。比如对于上面的程序，就还可以再做两点改进：1. 为了避免最坏情况的发生，在选取Pivot元素的时候，可以采用“三者取中法”（median-of-three method），即取待排序列中的最左边元素、中间元素和最右边元素，对这三个数排序，然后取它们的中间元素作为Pivot。2. 由于递归实现中程序多次因为小的子序列而调用自身，这影响程序的运行效率。因此当子序列已经很小时，可以中止递归的执行。在递归完成的最后再统一对它们采取一次插入排序。因为此时的序列已基本有序，因而插入排序效率非常高。对于中止的子序列长度的取法，通常是5~25之间的值，一个比较好的值是9（参考《计算机程序设计艺术》 Donald E. Knuth著）。通常，对这两点的改进就可以有效提高快速排序20%~25%的效率。 竞争的排序算法 快速排序的最直接竞争者是堆排序（Heap Sort）。堆排序通常比快速排序稍微慢，但是最坏情况的执行时间总是O(n㏒n)。快速排序经常比较快，但最坏情况下时间复杂度却为O(n2)。此外快速排序空间的使用O(㏒n)也要比堆排序O(1)要高。 快速排序也与归并排序（Merge Sort）竞争，这是另外一种递归排序算法，它也有最坏情况O(n㏒n)执行时间的优势，并且归并排序是稳定的排序方法。归并排序的主要缺点是在最佳情况下仍需O(n)的额外辅助空间。]]></description>
		<wfw:commentRss>http://www.juliuschen.com/archives/11.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>希尔排序</title>
		<link>http://www.juliuschen.com/archives/10.html</link>
		<comments>http://www.juliuschen.com/archives/10.html#comments</comments>
		<pubDate>Tue, 15 Dec 2009 12:37:25 +0000</pubDate>
		<dc:creator>Julius Chen</dc:creator>
				<category><![CDATA[Sorting]]></category>
		<category><![CDATA[希尔排序]]></category>
		<category><![CDATA[排序算法]]></category>
		<category><![CDATA[插入排序]]></category>

		<guid isPermaLink="false">http://www.juliuschen.com/archives/10</guid>
		<description><![CDATA[希尔排序是插入排序的扩展。希尔排序的一个特点是：子序列的构成不是简单的逐段分割，而是将相隔某个增量的记录组成一个子序列。希尔排序的一个关键是：其步长（也就是增量）的取法，通常认为步长序列中的数字互质很重要。 希尔排序的C/C++代码实现： 和直接插入排序相比，这里的shell_insert只做了两处修改： 1. 前后记录位置的增量不再是1，而是h； 2. sort_array[0]已不能再作为监视哨，而只能作为一个暂存单元，因为式子j -= h并不一定能使j值到达0。因此，这里干脆用一个temp来代替sort_array[0]做为暂存单元，而让sort_array[0]也加入排序，这样的做法也更通用。 关于h，上面程序中，步长序列取的是：1 4 13 40 121 364 1093 3280 9841&#8230;（从1开始，通过乘3加1得到下一个步长），这是由Knuth在1969年提出来的，该方法容易实现，而且即使是对中等大小的文件，效率也相对还可以。其时间复杂度最差时是O(n3/2)。 此外，也还存在效率更好的h序列，如：1 8 23 77 281 1073 4193 16577&#8230; 但这种序列通常也较难实现，而且相对于上面所用的，效率提高上很难超过20%。比如使用 1 8 23&#8230; 这组序列时，时间复杂度最差为O(n4/3)。 另外还有一些取法不好的步长序列，如：1 2 4 8 16 32 64 128 256 &#8230; <a href="http://www.juliuschen.com/archives/10.html">继续阅读 <span class="meta-nav">&#8594;</span></a>]]></description>
		<wfw:commentRss>http://www.juliuschen.com/archives/10.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>简单排序方法</title>
		<link>http://www.juliuschen.com/archives/9.html</link>
		<comments>http://www.juliuschen.com/archives/9.html#comments</comments>
		<pubDate>Mon, 14 Dec 2009 15:03:55 +0000</pubDate>
		<dc:creator>Julius Chen</dc:creator>
				<category><![CDATA[Sorting]]></category>
		<category><![CDATA[交换排序]]></category>
		<category><![CDATA[冒泡排序]]></category>
		<category><![CDATA[排序算法]]></category>
		<category><![CDATA[插入排序]]></category>
		<category><![CDATA[直接插入排序]]></category>
		<category><![CDATA[简单选择排序]]></category>
		<category><![CDATA[选择排序]]></category>

		<guid isPermaLink="false">http://www.juliuschen.com/archives/9</guid>
		<description><![CDATA[简单的排序方法主要是指直接插入排序、冒泡排序和简单选择排序。他们都是稳定的排序方法，平均时间复杂度都为O(n2)，并且空间复杂度都为O(1)。 直接插入排序 直接插入排序（Straight Insertion Sort）是一种最简单的排序方法，它的基本操作是将一个记录插入到已排好序的有序表中，从而得到一个新的、记录数增1的有序表。直接插入排序的运行时间和数据原始排列顺序密切相关。对于已经排好序（或已几乎排好序）的数据，插入排序的效率会比较高。 直接插入排序的C/C++代码实现： 其中第6行在sort_array[0]处设置监视哨，避免在查找插入位置的过程中数组下标出界。 冒泡排序 冒泡排序（Bubble Sort）算法简洁，也很容易理解，因此经常被用来作为介绍排序算法的入门方法。但它对于除少数元素之外的数列排序很没有效率。在这三种简单排序算法当中也是最慢的一种（参考《算法I-IV（C++实现）》Robert Sedgewick著）。而且虽然它可以设置一个标志位以对某种情况下的排序效率进行改进（即判断文件是否已排好序，当其中一步已没有进行任何交换操作，即文件已排好序，就可以中断外部循环。这个改进可以提高冒泡排序对于已排好序的数据的运行效率），但是通常来说它的效率的提高还是比不上能中断内部循环的插入排序。 冒泡排序的C/C++代码实现： 这是已加了标志位的冒泡排序。 简单选择排序 简单选择排序（Simple Selection Sort）的执行过程如下，首先，选出数组中最小的项，将它与数组第一个成员交换位置。然后选出次小的项，将它与数组第二个成员交换位置。按这种方法一直下去，直到整个数组排序完。 简单选择排序有一个缺点就是它的运行时间和文件中已有的排序的关系很少，它对已排好序或各数据项都相同或随机排列的文件排序所花的时间基本相同。但简单选择排序对于某一类重要文件的排序效率要比其他方法好：对数据项比较大，键又比较小的文件。因为对这种文件排序，移动数据所花费的时间要比比较数据的时间大很多，而其他排序算法移动数据的步数都比选择排序要多（选择排序移动数据项的操作是在内部循环外执行的，所以交换的次数至多为n-1次（最后一个成员不需要交换）。但执行时间与n2成正比）。 简单选择排序的C/C++代码实现： 在这三个简单的排序方法当中，对小文件进行操作时，插入排序和选择排序的效率是冒泡排序的两倍。对于巨大的随机排列的文件，这些方法的效率都不高。 当排序文件的比较操作花费较大时，如比较的键是字符串类型，这时插入排序比其他两种方法效率都高，因为它使用的比较操作要少的多。当交换操作花费较大时，则选择排序效率最好。 当排序数据是倒序时，这三种排序算法里面选择排序效率最好。选择排序（n2/2次比较和n次交换，并且和输入数据无关），插入排序（一般情况下n2/4次比较和n2/4次半交换（移动），最坏情况下需要两倍的数量），冒泡排序（一般情况和最坏情况下都是n2/2次比较和n2/2次交换）。]]></description>
		<wfw:commentRss>http://www.juliuschen.com/archives/9.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

<!-- www.000webhost.com Analytics Code -->
<script type="text/javascript" src="http://analytics.hosting24.com/count.php"></script>
<noscript><a href="http://www.hosting24.com/"><img src="http://analytics.hosting24.com/count.php" alt="web hosting" /></a></noscript>
<!-- End Of Analytics Code -->

