]> git.rkrishnan.org Git - tahoe-lafs/tahoe-lafs.git/blob - NEWS
Alter CLI utilities to handle nonexistent aliases better
[tahoe-lafs/tahoe-lafs.git] / NEWS
1 User visible changes in Tahoe-LAFS.  -*- outline -*-
2
3 * Release 1.6.0 (2010-02-01)
4
5 ** New Features
6
7 *** Immutable Directories
8
9 Tahoe-LAFS can now create and handle immutable directories. (#607, #833, #931)
10 These are read just like normal directories, but are "deep-immutable", meaning
11 that all their children (and everything reachable from those children) must be
12 immutable objects (i.e. immutable or literal files, and other immutable
13 directories).
14
15 These directories must be created in a single webapi call that provides all
16 of the children at once. (Since they cannot be changed after creation, the
17 usual create/add/add sequence cannot be used.) They have URIs that start with
18 "URI:DIR2-CHK:" or "URI:DIR2-LIT:", and are described on the human-facing web
19 interface (aka the "WUI") with a "DIR-IMM" abbreviation (as opposed to "DIR"
20 for the usual read-write directories and "DIR-RO" for read-only directories).
21
22 Tahoe-LAFS releases before 1.6.0 cannot read the contents of an immutable
23 directory. 1.5.0 will tolerate their presence in a directory listing (and
24 display it as "unknown"). 1.4.1 and earlier cannot tolerate them: a DIR-IMM
25 child in any directory will prevent the listing of that directory.
26
27 Immutable directories are repairable, just like normal immutable files.
28
29 The webapi "POST t=mkdir-immutable" call is used to create immutable
30 directories. See docs/frontends/webapi.txt for details.
31
32 *** "tahoe backup" now creates immutable directories, backupdb has dircache
33
34 The "tahoe backup" command has been enhanced to create immutable directories
35 (in previous releases, it created read-only mutable directories) (#828). This
36 is significantly faster, since it does not need to create an RSA keypair for
37 each new directory. Also "DIR-IMM" immutable directories are repairable, unlike
38 "DIR-RO" read-only mutable directories at present. (A future Tahoe-LAFS release
39 should also be able to repair DIR-RO.)
40
41 In addition, the backupdb (used by "tahoe backup" to remember what it has
42 already copied) has been enhanced to store information about existing immutable
43 directories. This allows it to re-use directories that have moved but still
44 contain identical contents, or that have been deleted and later replaced. (The
45 1.5.0 "tahoe backup" command could only re-use directories that were in the
46 same place as they were in the immediately previous backup.)  With this change,
47 the backup process no longer needs to read the previous snapshot out of the
48 Tahoe-LAFS grid, reducing the network load considerably. (#606)
49
50 A "null backup" (in which nothing has changed since the previous backup) will
51 require only two Tahoe-side operations: one to add an Archives/$TIMESTAMP
52 entry, and a second to update the Latest/ link. On the local disk side, it
53 will readdir() all your local directories and stat() all your local files.
54
55 If you've been using "tahoe backup" for a while, you will notice that your
56 first use of it after upgrading to 1.6.0 may take a long time: it must create
57 proper immutable versions of all the old read-only mutable directories. This
58 process won't take as long as the initial backup (where all the file contents
59 had to be uploaded too): it will require time proportional to the number and
60 size of your directories. After this initial pass, all subsequent passes
61 should take a tiny fraction of the time.
62
63 As noted above, Tahoe-LAFS versions earlier than 1.5.0 cannot list a directory
64 containing an immutable subdirectory. Tahoe-LAFS versions earlier than 1.6.0
65 cannot read the contents of an immutable directory.
66
67 The "tahoe backup" command has been improved to skip over unreadable objects
68 (like device files, named pipes, and files with permissions that prevent the
69 command from reading their contents), instead of throwing an exception and
70 terminating the backup process. It also skips over symlinks, because these
71 cannot be represented faithfully in the Tahoe-side filesystem. A warning
72 message will be emitted each time something is skipped. (#729, #850, #641)
73
74 *** "create-node" command added, "create-client" now implies --no-storage
75
76 The basic idea behind Tahoe-LAFS's client+server and client-only processes is
77 that you are creating a general-purpose Tahoe-LAFS "node" process, which has
78 several components that can be activated. Storage service is one of these
79 optional components, as is the Helper, FTP server, and SFTP server. Web gateway
80 functionality is nominally on this list, but it is always active; a future
81 release will make it optional. There are three special purpose servers that
82 can't currently be run as a component in a node: introducer, key-generator,
83 and stats-gatherer.
84
85 So now "tahoe create-node" will create a Tahoe-LAFS node process, and after
86 creation you can edit its tahoe.cfg to enable or disable the desired
87 services. It is a more general-purpose replacement for "tahoe create-client".
88 The default configuration has storage service enabled. For convenience, the
89 "--no-storage" argument makes a tahoe.cfg file that disables storage
90 service. (#760)
91
92 "tahoe create-client" has been changed to create a Tahoe-LAFS node without a
93 storage service. It is equivalent to "tahoe create-node --no-storage". This
94 helps to reduce the confusion surrounding the use of a command with "client" in
95 its name to create a storage *server*. Use "tahoe create-client" to create a
96 purely client-side node. If you want to offer storage to the grid, use
97 "tahoe create-node" instead.
98
99 In the future, other services will be added to the node, and they will be
100 controlled through options in tahoe.cfg . The most important of these
101 services may get additional --enable-XYZ or --disable-XYZ arguments to
102 "tahoe create-node".
103
104 ** Performance Improvements
105
106 Download of immutable files begins as soon as the downloader has located the K
107 necessary shares (#928, #287). In both the previous and current releases, a
108 downloader will first issue queries to all storage servers on the grid to
109 locate shares before it begins downloading the shares. In previous releases of
110 Tahoe-LAFS, download would not begin until all storage servers on the grid had
111 replied to the query, at which point K shares would be chosen for download from
112 among the shares that were located. In this release, download begins as soon as
113 any K shares are located. This means that downloads start sooner, which is
114 particularly important if there is a server on the grid that is extremely slow
115 or even hung in such a way that it will never respond. In previous releases
116 such a server would have a negative impact on all downloads from that grid. In
117 this release, such a server will have no impact on downloads, as long as K
118 shares can be found on other, quicker, servers.  This also means that
119 downloads now use the "best-alacrity" servers that they talk to, as measured by
120 how quickly the servers reply to the initial query. This might cause downloads
121 to go faster, especially on grids with heterogeneous servers or geographical
122 dispersion.
123
124 ** Minor Changes
125
126 The webapi acquired a new "t=mkdir-with-children" command, to create and
127 populate a directory in a single call. This is significantly faster than
128 using separate "t=mkdir" and "t=set-children" operations (it uses one
129 gateway-to-grid roundtrip, instead of three or four). (#533)
130
131 The t=set-children (note the hyphen) operation is now documented in
132 docs/frontends/webapi.txt, and is the new preferred spelling of the old
133 t=set_children (with an underscore). The underscore version remains for
134 backwards compatibility. (#381, #927)
135
136 The tracebacks produced by errors in CLI tools should now be in plain text,
137 instead of HTML (which is unreadable outside of a browser). (#646)
138
139 The [storage]reserved_space configuration knob (which causes the storage
140 server to refuse shares when available disk space drops below a threshold)
141 should work on Windows now, not just UNIX. (#637)
142
143 "tahoe cp" should now exit with status "1" if it cannot figure out a suitable
144 target filename, such as when you copy from a bare filecap. (#761)
145
146 "tahoe get" no longer creates a zero-length file upon error. (#121)
147
148 "tahoe ls" can now list single files. (#457)
149
150 "tahoe deep-check --repair" should tolerate repair failures now, instead of
151 halting traversal. (#874, #786)
152
153 "tahoe create-alias" no longer corrupts the aliases file if it had
154 previously been edited to have no trailing newline. (#741)
155
156 Many small packaging improvements were made to facilitate the "tahoe-lafs"
157 package being included in Ubuntu. Several mac/win32 binary libraries were
158 removed, some figleaf code-coverage files were removed, a bundled copy of
159 darcsver-1.2.1 was removed, and additional licensing text was added.
160
161 Several DeprecationWarnings for python2.6 were silenced. (#859)
162
163 The checker --add-lease option would sometimes fail for shares stored
164 on old (Tahoe v1.2.0) servers. (#875)
165
166 The documentation for installing on Windows (docs/install.html) has been
167 improved. (#773)
168
169 For other changes not mentioned here, see
170 <http://allmydata.org/trac/tahoe/query?milestone=1.6.0&keywords=!~news-done>.
171 To include the tickets mentioned above, go to
172 <http://allmydata.org/trac/tahoe/query?milestone=1.6.0>.
173
174
175 * Release 1.5.0 (2009-08-01)
176
177 ** Improvements
178
179 Uploads of immutable files now use pipelined writes, improving upload speed
180 slightly (10%) over high-latency connections. (#392)
181
182 Processing large directories has been sped up, by removing a O(N^2) algorithm
183 from the dirnode decoding path and retaining unmodified encrypted entries.
184 (#750, #752)
185
186 The human-facing web interface (aka the "WUI") received a significant CSS
187 makeover by Kevin Reid, making it much prettier and easier to read. The WUI
188 "check" and "deep-check" forms now include a "Renew Lease" checkbox,
189 mirroring the CLI --add-lease option, so leases can be added or renewed from
190 the web interface.
191
192 The CLI "tahoe mv" command now refuses to overwrite directories. (#705)
193
194 The CLI "tahoe webopen" command, when run without arguments, will now bring
195 up the "Welcome Page" (node status and mkdir/upload forms).
196
197 The 3.5MB limit on mutable files was removed, so it should be possible to
198 upload arbitrarily-sized mutable files. Note, however, that the data format
199 and algorithm remains the same, so using mutable files still requires
200 bandwidth, computation, and RAM in proportion to the size of the mutable file.
201 (#694)
202
203 This version of Tahoe-LAFS will tolerate directory entries that contain filecap
204 formats which it does not recognize: files and directories from the future.
205 This should improve the user experience (for 1.5.0 users) when we add new cap
206 formats in the future. Previous versions would fail badly, preventing the user
207 from seeing or editing anything else in those directories. These unrecognized
208 objects can be renamed and deleted, but obviously not read or written. Also
209 they cannot generally be copied. (#683)
210
211 ** Bugfixes
212
213 deep-check-and-repair now tolerates read-only directories, such as the ones
214 produced by the "tahoe backup" CLI command. Read-only directories and mutable
215 files are checked, but not repaired. Previous versions threw an exception
216 when attempting the repair and failed to process the remaining contents. We
217 cannot yet repair these read-only objects, but at least this version allows
218 the rest of the check+repair to proceed. (#625)
219
220 A bug in 1.4.1 which caused a server to be listed multiple times (and
221 frequently broke all connections to that server) was fixed. (#653)
222
223 The plaintext-hashing code was removed from the Helper interface, removing
224 the Helper's ability to mount a partial-information-guessing attack. (#722)
225
226 ** Platform/packaging changes
227
228 Tahoe-LAFS now runs on NetBSD, OpenBSD, ArchLinux, and NixOS, and on an
229 embedded system based on an ARM CPU running at 266 MHz.
230
231 Unit test timeouts have been raised to allow the tests to complete on
232 extremely slow platforms like embedded ARM-based NAS boxes, which may take
233 several hours to run the test suite. An ARM-specific data-corrupting bug in
234 an older version of Crypto++ (5.5.2) was identified: ARM-users are encouraged
235 to use recent Crypto++/pycryptopp which avoids this problem.
236
237 Tahoe-LAFS now requires a SQLite library, either the sqlite3 that comes
238 built-in with python2.5/2.6, or the add-on pysqlite2 if you're using
239 python2.4. In the previous release, this was only needed for the "tahoe backup"
240 command: now it is mandatory.
241
242 Several minor documentation updates were made.
243
244 To help get Tahoe-LAFS into Linux distributions like Fedora and Debian,
245 packaging improvements are being made in both Tahoe-LAFS and related libraries
246 like pycryptopp and zfec.
247
248 The Crypto++ library included in the pycryptopp package has been upgraded to
249 version 5.6.0 of Crypto++, which includes a more efficient implementation of
250 SHA-256 in assembly for x86 or amd64 architectures.
251
252 ** dependency updates
253
254  foolscap-0.4.1
255  no python-2.4.0 or 2.4.1 (2.4.2 is good)
256   (they contained a bug in base64.b32decode)
257  avoid python-2.6 on windows with mingw: compiler issues
258  python2.4 requires pysqlite2 (2.5,2.6 does not)
259  no python-3.x
260  pycryptopp-0.5.15
261
262
263 * Release 1.4.1 (2009-04-13)
264
265 ** Garbage Collection
266
267 The big feature for this release is the implementation of garbage collection,
268 allowing Tahoe storage servers to delete shares for old deleted files. When
269 enabled, this uses a "mark and sweep" process: clients are responsible for
270 updating the leases on their shares (generally by running "tahoe deep-check
271 --add-lease"), and servers are allowed to delete any share which does not
272 have an up-to-date lease. The process is described in detail in
273 docs/garbage-collection.txt .
274
275 The server must be configured to enable garbage-collection, by adding
276 directives to the [storage] section that define an age limit for shares. The
277 default configuration will not delete any shares.
278
279 Both servers and clients should be upgraded to this release to make the
280 garbage-collection as pleasant as possible. 1.2.0 servers have code to
281 perform the update-lease operation but it suffers from a fatal bug, while
282 1.3.0 servers have update-lease but will return an exception for unknown
283 storage indices, causing clients to emit an Incident for each exception,
284 slowing the add-lease process down to a crawl. 1.1.0 servers did not have the
285 add-lease operation at all.
286
287 ** Security/Usability Problems Fixed
288
289 A super-linear algorithm in the Merkle Tree code was fixed, which previously
290 caused e.g. download of a 10GB file to take several hours before the first
291 byte of plaintext could be produced. The new "alacrity" is about 2 minutes. A
292 future release should reduce this to a few seconds by fixing ticket #442.
293
294 The previous version permitted a small timing attack (due to our use of
295 strcmp) against the write-enabler and lease-renewal/cancel secrets. An
296 attacker who could measure response-time variations of approximatly 3ns
297 against a very noisy background time of about 15ms might be able to guess
298 these secrets. We do not believe this attack was actually feasible. This
299 release closes the attack by first hashing the two strings to be compared
300 with a random secret.
301
302 ** webapi changes
303
304 In most cases, HTML tracebacks will only be sent if an "Accept: text/html"
305 header was provided with the HTTP request. This will generally cause browsers
306 to get an HTMLized traceback but send regular text/plain tracebacks to
307 non-browsers (like the CLI clients). More errors have been mapped to useful
308 HTTP error codes.
309
310 The streaming webapi operations (deep-check and manifest) now have a way to
311 indicate errors (an output line that starts with "ERROR" instead of being
312 legal JSON). See docs/frontends/webapi.txt for details.
313
314 The storage server now has its own status page (at /storage), linked from the
315 Welcome page. This page shows progress and results of the two new
316 share-crawlers: one which merely counts shares (to give an estimate of how
317 many files/directories are being stored in the grid), the other examines
318 leases and reports how much space would be freed if GC were enabled. The page
319 also shows how much disk space is present, used, reserved, and available for
320 the Tahoe server, and whether the server is currently running in "read-write"
321 mode or "read-only" mode.
322
323 When a directory node cannot be read (perhaps because of insufficent shares),
324 a minimal webapi page is created so that the "more-info" links (including a
325 Check/Repair operation) will still be accessible.
326
327 A new "reliability" page was added, with the beginnings of work on a
328 statistical loss model. You can tell this page how many servers you are using
329 and their independent failure probabilities, and it will tell you the
330 likelihood that an arbitrary file will survive each repair period. The
331 "numpy" package must be installed to access this page. A partial paper,
332 written by Shawn Willden, has been added to docs/proposed/lossmodel.lyx .
333
334 ** CLI changes
335
336 "tahoe check" and "tahoe deep-check" now accept an "--add-lease" argument, to
337 update a lease on all shares. This is the "mark" side of garbage collection.
338
339 In many cases, CLI error messages have been improved: the ugly HTMLized
340 traceback has been replaced by a normal python traceback.
341
342 "tahoe deep-check" and "tahoe manifest" now have better error reporting.
343 "tahoe cp" is now non-verbose by default.
344
345 "tahoe backup" now accepts several "--exclude" arguments, to ignore certain
346 files (like editor temporary files and version-control metadata) during
347 backup.
348
349 On windows, the CLI now accepts local paths like "c:\dir\file.txt", which
350 previously was interpreted as a Tahoe path using a "c:" alias.
351
352 The "tahoe restart" command now uses "--force" by default (meaning it will
353 start a node even if it didn't look like there was one already running).
354
355 The "tahoe debug consolidate" command was added. This takes a series of
356 independent timestamped snapshot directories (such as those created by the
357 allmydata.com windows backup program, or a series of "tahoe cp -r" commands)
358 and creates new snapshots that used shared read-only directories whenever
359 possible (like the output of "tahoe backup"). In the most common case (when
360 the snapshots are fairly similar), the result will use significantly fewer
361 directories than the original, allowing "deep-check" and similar tools to run
362 much faster. In some cases, the speedup can be an order of magnitude or more.
363 This tool is still somewhat experimental, and only needs to be run on large
364 backups produced by something other than "tahoe backup", so it was placed
365 under the "debug" category.
366
367 "tahoe cp -r --caps-only tahoe:dir localdir" is a diagnostic tool which,
368 instead of copying the full contents of files into the local directory,
369 merely copies their filecaps. This can be used to verify the results of a
370 "consolidation" operation.
371
372 ** other fixes
373
374 The codebase no longer rauses RuntimeError as a kind of assert(). Specific
375 exception classes were created for each previous instance of RuntimeError.
376
377 Many unit tests were changed to use a non-network test harness, speeding them
378 up considerably.
379
380 Deep-traversal operations (manifest and deep-check) now walk individual
381 directories in alphabetical order. Occasional turn breaks are inserted to
382 prevent a stack overflow when traversing directories with hundreds of
383 entries.
384
385 The experimental SFTP server had its path-handling logic changed slightly, to
386 accomodate more SFTP clients, although there are still issues (#645).
387
388
389 * Release 1.3.0 (2009-02-13)
390
391 ** Checker/Verifier/Repairer
392
393 The primary focus of this release has been writing a checker / verifier /
394 repairer for files and directories.  "Checking" is the act of asking storage
395 servers whether they have a share for the given file or directory: if there
396 are not enough shares available, the file or directory will be
397 unrecoverable. "Verifying" is the act of downloading and cryptographically
398 asserting that the server's share is undamaged: it requires more work
399 (bandwidth and CPU) than checking, but can catch problems that simple
400 checking cannot. "Repair" is the act of replacing missing or damaged shares
401 with new ones.
402
403 This release includes a full checker, a partial verifier, and a partial
404 repairer. The repairer is able to handle missing shares: new shares are
405 generated and uploaded to make up for the missing ones. This is currently the
406 best application of the repairer: to replace shares that were lost because of
407 server departure or permanent drive failure.
408
409 The repairer in this release is somewhat able to handle corrupted shares. The
410 limitations are:
411
412  * Immutable verifier is incomplete: not all shares are used, and not all
413    fields of those shares are verified. Therefore the immutable verifier has
414    only a moderate chance of detecting corrupted shares.
415  * The mutable verifier is mostly complete: all shares are examined, and most
416    fields of the shares are validated.
417  * The storage server protocol offers no way for the repairer to replace or
418    delete immutable shares. If corruption is detected, the repairer will
419    upload replacement shares to other servers, but the corrupted shares will
420    be left in place.
421  * read-only directories and read-only mutable files must be repaired by
422    someone who holds the write-cap: the read-cap is insufficient. Moreover,
423    the deep-check-and-repair operation will halt with an error if it attempts
424    to repair one of these read-only objects.
425  * Some forms of corruption can cause both download and repair operations to
426    fail. A future release will fix this, since download should be tolerant of
427    any corruption as long as there are at least 'k' valid shares, and repair
428    should be able to fix any file that is downloadable.
429
430 If the downloader, verifier, or repairer detects share corruption, the
431 servers which provided the bad shares will be notified (via a file placed in
432 the BASEDIR/storage/corruption-advisories directory) so their operators can
433 manually delete the corrupted shares and investigate the problem. In
434 addition, the "incident gatherer" mechanism will automatically report share
435 corruption to an incident gatherer service, if one is configured. Note that
436 corrupted shares indicate hardware failures, serious software bugs, or malice
437 on the part of the storage server operator, so a corrupted share should be
438 considered highly unusual.
439
440 By periodically checking/repairing all files and directories, objects in the
441 Tahoe filesystem remain resistant to recoverability failures due to missing
442 and/or broken servers.
443
444 This release includes a wapi mechanism to initiate checks on individual
445 files and directories (with or without verification, and with or without
446 automatic repair). A related mechanism is used to initiate a "deep-check" on
447 a directory: recursively traversing the directory and its children, checking
448 (and/or verifying/repairing) everything underneath. Both mechanisms can be
449 run with an "output=JSON" argument, to obtain machine-readable check/repair
450 status results. These results include a copy of the filesystem statistics
451 from the "deep-stats" operation (including total number of files, size
452 histogram, etc). If repair is possible, a "Repair" button will appear on the
453 results page.
454
455 The client web interface now features some extra buttons to initiate check
456 and deep-check operations. When these operations finish, they display a
457 results page that summarizes any problems that were encountered. All
458 long-running deep-traversal operations, including deep-check, use a
459 start-and-poll mechanism, to avoid depending upon a single long-lived HTTP
460 connection. docs/frontends/webapi.txt has details.
461
462 ** Efficient Backup
463
464 The "tahoe backup" command is new in this release, which creates efficient
465 versioned backups of a local directory. Given a local pathname and a target
466 Tahoe directory, this will create a read-only snapshot of the local directory
467 in $target/Archives/$timestamp. It will also create $target/Latest, which is
468 a reference to the latest such snapshot. Each time you run "tahoe backup"
469 with the same source and target, a new $timestamp snapshot will be added.
470 These snapshots will share directories that have not changed since the last
471 backup, to speed up the process and minimize storage requirements. In
472 addition, a small database is used to keep track of which local files have
473 been uploaded already, to avoid uploading them a second time. This
474 drastically reduces the work needed to do a "null backup" (when nothing has
475 changed locally), making "tahoe backup' suitable to run from a daily cronjob.
476
477 Note that the "tahoe backup" CLI command must be used in conjunction with a
478 1.3.0-or-newer Tahoe client node; there was a bug in the 1.2.0 webapi
479 implementation that would prevent the last step (create $target/Latest) from
480 working.
481
482 ** Large Files
483
484 The 12GiB (approximate) immutable-file-size limitation is lifted. This
485 release knows how to handle so-called "v2 immutable shares", which permit
486 immutable files of up to about 18 EiB (about 3*10^14). These v2 shares are
487 created if the file to be uploaded is too large to fit into v1 shares. v1
488 shares are created if the file is small enough to fit into them, so that
489 files created with tahoe-1.3.0 can still be read by earlier versions if they
490 are not too large. Note that storage servers also had to be changed to
491 support larger files, and this release is the first release in which they are
492 able to do that. Clients will detect which servers are capable of supporting
493 large files on upload and will not attempt to upload shares of a large file
494 to a server which doesn't support it.
495
496 ** FTP/SFTP Server
497
498 Tahoe now includes experimental FTP and SFTP servers. When configured with a
499 suitable method to translate username+password into a root directory cap, it
500 provides simple access to the virtual filesystem. Remember that FTP is
501 completely unencrypted: passwords, filenames, and file contents are all sent
502 over the wire in cleartext, so FTP should only be used on a local (127.0.0.1)
503 connection. This feature is still in development: there are no unit tests
504 yet, and behavior with respect to Unicode filenames is uncertain. Please see
505 docs/frontends/FTP-and-SFTP.txt for configuration details. (#512, #531)
506
507 ** CLI Changes
508
509 This release adds the 'tahoe create-alias' command, which is a combination of
510 'tahoe mkdir' and 'tahoe add-alias'. This also allows you to start using a
511 new tahoe directory without exposing its URI in the argv list, which is
512 publicly visible (through the process table) on most unix systems.  Thanks to
513 Kevin Reid for bringing this issue to our attention.
514
515 The single-argument form of "tahoe put" was changed to create an unlinked
516 file. I.e. "tahoe put bar.txt" will take the contents of a local "bar.txt"
517 file, upload them to the grid, and print the resulting read-cap; the file
518 will not be attached to any directories. This seemed a bit more useful than
519 the previous behavior (copy stdin, upload to the grid, attach the resulting
520 file into your default tahoe: alias in a child named 'bar.txt').
521
522 "tahoe put" was also fixed to handle mutable files correctly: "tahoe put
523 bar.txt URI:SSK:..." will read the contents of the local bar.txt and use them
524 to replace the contents of the given mutable file.
525
526 The "tahoe webopen" command was modified to accept aliases. This means "tahoe
527 webopen tahoe:" will cause your web browser to open to a "wui" page that
528 gives access to the directory associated with the default "tahoe:" alias. It
529 should also accept leading slashes, like "tahoe webopen tahoe:/stuff".
530
531 Many esoteric debugging commands were moved down into a "debug" subcommand:
532
533  tahoe debug dump-cap
534  tahoe debug dump-share
535  tahoe debug find-shares
536  tahoe debug catalog-shares
537  tahoe debug corrupt-share
538
539 The last command ("tahoe debug corrupt-share") flips a random bit of the
540 given local sharefile. This is used to test the file verifying/repairing
541 code, and obviously should not be used on user data.
542
543 The cli might not correctly handle arguments which contain non-ascii
544 characters in Tahoe v1.3 (although depending on your platform it
545 might, especially if your platform can be configured to pass such
546 characters on the command-line in utf-8 encoding).  See
547 http://allmydata.org/trac/tahoe/ticket/565 for details.
548
549 ** Web changes
550
551 The "default webapi port", used when creating a new client node (and in the
552 getting-started documentation), was changed from 8123 to 3456, to reduce
553 confusion when Tahoe accessed through a Firefox browser on which the
554 "Torbutton" extension has been installed. Port 8123 is occasionally used as a
555 Tor control port, so Torbutton adds 8123 to Firefox's list of "banned ports"
556 to avoid CSRF attacks against Tor. Once 8123 is banned, it is difficult to
557 diagnose why you can no longer reach a Tahoe node, so the Tahoe default was
558 changed. Note that 3456 is reserved by IANA for the "vat" protocol, but there
559 are argueably more Torbutton+Tahoe users than vat users these days. Note that
560 this will only affect newly-created client nodes. Pre-existing client nodes,
561 created by earlier versions of tahoe, may still be listening on 8123.
562
563 All deep-traversal operations (start-manifest, start-deep-size,
564 start-deep-stats, start-deep-check) now use a start-and-poll approach,
565 instead of using a single (fragile) long-running synchronous HTTP connection.
566 All these "start-" operations use POST instead of GET. The old "GET
567 manifest", "GET deep-size", and "POST deep-check" operations have been
568 removed.
569
570 The new "POST start-manifest" operation, when it finally completes, results
571 in a table of (path,cap), instead of the list of verifycaps produced by the
572 old "GET manifest". The table is available in several formats: use
573 output=html, output=text, or output=json to choose one. The JSON output also
574 includes stats, and a list of verifycaps and storage-index strings.
575
576 The "return_to=" and "when_done=" arguments have been removed from the
577 t=check and deep-check operations.
578
579 The top-level status page (/status) now has a machine-readable form, via
580 "/status/?t=json". This includes information about the currently-active
581 uploads and downloads, which may be useful for frontends that wish to display
582 progress information. There is no easy way to correlate the activities
583 displayed here with recent wapi requests, however.
584
585 Any files in BASEDIR/public_html/ (configurable) will be served in response
586 to requests in the /static/ portion of the URL space. This will simplify the
587 deployment of javascript-based frontends that can still access wapi calls
588 by conforming to the (regrettable) "same-origin policy".
589
590 The welcome page now has a "Report Incident" button, which is tied into the
591 "Incident Gatherer" machinery. If the node is attached to an incident
592 gatherer (via log_gatherer.furl), then pushing this button will cause an
593 Incident to be signalled: this means recent log events are aggregated and
594 sent in a bundle to the gatherer. The user can push this button after
595 something strange takes place (and they can provide a short message to go
596 along with it), and the relevant data will be delivered to a centralized
597 incident-gatherer for later processing by operations staff.
598
599 The "HEAD" method should now work correctly, in addition to the usual "GET",
600 "PUT", and "POST" methods. "HEAD" is supposed to return exactly the same
601 headers as "GET" would, but without any of the actual response body data. For
602 mutable files, this now does a brief mapupdate (to figure out the size of the
603 file that would be returned), without actually retrieving the file's
604 contents.
605
606 The "GET" operation on files can now support the HTTP "Range:" header,
607 allowing requests for partial content. This allows certain media players to
608 correctly stream audio and movies out of a Tahoe grid. The current
609 implementation uses a disk-based cache in BASEDIR/private/cache/download ,
610 which holds the plaintext of the files being downloaded. Future
611 implementations might not use this cache. GET for immutable files now returns
612 an ETag header.
613
614 Each file and directory now has a "Show More Info" web page, which contains
615 much of the information that was crammed into the directory page before. This
616 includes readonly URIs, storage index strings, object type, buttons to
617 control checking/verifying/repairing, and deep-check/deep-stats buttons (for
618 directories). For mutable files, the "replace contents" upload form has been
619 moved here too. As a result, the directory page is now much simpler and
620 cleaner, and several potentially-misleading links (like t=uri) are now gone.
621
622 Slashes are discouraged in Tahoe file/directory names, since they cause
623 problems when accessing the filesystem through the wapi. However, there are
624 a couple of accidental ways to generate such names. This release tries to
625 make it easier to correct such mistakes by escaping slashes in several
626 places, allowing slashes in the t=info and t=delete commands, and in the
627 source (but not the target) of a t=rename command.
628
629 ** Packaging
630
631 Tahoe's dependencies have been extended to require the "[secure_connections]"
632 feature from Foolscap, which will cause pyOpenSSL to be required and/or
633 installed. If OpenSSL and its development headers are already installed on
634 your system, this can occur automatically. Tahoe now uses pollreactor
635 (instead of the default selectreactor) to work around a bug between pyOpenSSL
636 and the most recent release of Twisted (8.1.0). This bug only affects unit
637 tests (hang during shutdown), and should not impact regular use.
638
639 The Tahoe source code tarballs now come in two different forms: regular and
640 "sumo". The regular tarball contains just Tahoe, nothing else. When building
641 from the regular tarball, the build process will download any unmet
642 dependencies from the internet (starting with the index at PyPI) so it can
643 build and install them. The "sumo" tarball contains copies of all the
644 libraries that Tahoe requires (foolscap, twisted, zfec, etc), so using the
645 "sumo" tarball should not require any internet access during the build
646 process. This can be useful if you want to build Tahoe while on an airplane,
647 a desert island, or other bandwidth-limited environments.
648
649 Similarly, allmydata.org now hosts a "tahoe-deps" tarball which contains the
650 latest versions of all these dependencies. This tarball, located at
651 http://allmydata.org/source/tahoe/deps/tahoe-deps.tar.gz, can be unpacked in
652 the tahoe source tree (or in its parent directory), and the build process
653 should satisfy its downloading needs from it instead of reaching out to PyPI.
654 This can be useful if you want to build Tahoe from a darcs checkout while on
655 that airplane or desert island.
656
657 Because of the previous two changes ("sumo" tarballs and the "tahoe-deps"
658 bundle), most of the files have been removed from misc/dependencies/ . This
659 brings the regular Tahoe tarball down to 2MB (compressed), and the darcs
660 checkout (without history) to about 7.6MB. A full darcs checkout will still
661 be fairly large (because of the historical patches which included the
662 dependent libraries), but a 'lazy' one should now be small.
663
664 The default "make" target is now an alias for "setup.py build", which itself
665 is an alias for "setup.py develop --prefix support", with some extra work
666 before and after (see setup.cfg). Most of the complicated platform-dependent
667 code in the Makefile was rewritten in Python and moved into setup.py,
668 simplifying things considerably.
669
670 Likewise, the "make test" target now delegates most of its work to "setup.py
671 test", which takes care of getting PYTHONPATH configured to access the tahoe
672 code (and dependencies) that gets put in support/lib/ by the build_tahoe
673 step. This should allow unit tests to be run even when trial (which is part
674 of Twisted) wasn't already installed (in this case, trial gets installed to
675 support/bin because Twisted is a dependency of Tahoe).
676
677 Tahoe is now compatible with the recently-released Python 2.6 , although it
678 is recommended to use Tahoe on Python 2.5, on which it has received more
679 thorough testing and deployment.
680
681 Tahoe is now compatible with simplejson-2.0.x . The previous release assumed
682 that simplejson.loads always returned unicode strings, which is no longer the
683 case in 2.0.x .
684
685 ** Grid Management Tools
686
687 Several tools have been added or updated in the misc/ directory, mostly munin
688 plugins that can be used to monitor a storage grid.
689
690 The misc/spacetime/ directory contains a "disk watcher" daemon (startable
691 with 'tahoe start'), which can be configured with a set of HTTP URLs
692 (pointing at the wapi '/statistics' page of a bunch of storage servers),
693 and will periodically fetch disk-used/disk-available information from all the
694 servers. It keeps this information in an Axiom database (a sqlite-based
695 library available from divmod.org). The daemon computes time-averaged rates
696 of disk usage, as well as a prediction of how much time is left before the
697 grid is completely full.
698
699 The misc/munin/ directory contains a new set of munin plugins
700 (tahoe_diskleft, tahoe_diskusage, tahoe_doomsday) which talk to the
701 disk-watcher and provide graphs of its calculations.
702
703 To support the disk-watcher, the Tahoe statistics component (visible through
704 the wapi at the /statistics/ URL) now includes disk-used and disk-available
705 information. Both are derived through an equivalent of the unix 'df' command
706 (i.e. they ask the kernel for the number of free blocks on the partition that
707 encloses the BASEDIR/storage directory). In the future, the disk-available
708 number will be further influenced by the local storage policy: if that policy
709 says that the server should refuse new shares when less than 5GB is left on
710 the partition, then "disk-available" will report zero even though the kernel
711 sees 5GB remaining.
712
713 The 'tahoe_overhead' munin plugin interacts with an allmydata.com-specific
714 server which reports the total of the 'deep-size' reports for all active user
715 accounts, compares this with the disk-watcher data, to report on overhead
716 percentages. This provides information on how much space could be recovered
717 once Tahoe implements some form of garbage collection.
718
719 ** Configuration Changes: single INI-format tahoe.cfg file
720
721 The Tahoe node is now configured with a single INI-format file, named
722 "tahoe.cfg", in the node's base directory. Most of the previous
723 multiple-separate-files are still read for backwards compatibility (the
724 embedded SSH debug server and the advertised_ip_addresses files are the
725 exceptions), but new directives will only be added to tahoe.cfg . The "tahoe
726 create-client" command will create a tahoe.cfg for you, with sample values
727 commented out. (ticket #518)
728
729 tahoe.cfg now has controls for the foolscap "keepalive" and "disconnect"
730 timeouts (#521).
731
732 tahoe.cfg now has controls for the encoding parameters: "shares.needed" and
733 "shares.total" in the "[client]" section. The default parameters are still
734 3-of-10.
735
736 The inefficient storage 'sizelimit' control (which established an upper bound
737 on the amount of space that a storage server is allowed to consume) has been
738 replaced by a lightweight 'reserved_space' control (which establishes a lower
739 bound on the amount of remaining space). The storage server will reject all
740 writes that would cause the remaining disk space (as measured by a '/bin/df'
741 equivalent) to drop below this value. The "[storage]reserved_space="
742 tahoe.cfg parameter controls this setting. (note that this only affects
743 immutable shares: it is an outstanding bug that reserved_space does not
744 prevent the allocation of new mutable shares, nor does it prevent the growth
745 of existing mutable shares).
746
747 ** Other Changes
748
749 Clients now declare which versions of the protocols they support. This is
750 part of a new backwards-compatibility system:
751 http://allmydata.org/trac/tahoe/wiki/Versioning .
752
753 The version strings for human inspection (as displayed on the Welcome web
754 page, and included in logs) now includes a platform identifer (frequently
755 including a linux distribution name, processor architecture, etc).
756
757 Several bugs have been fixed, including one that would cause an exception (in
758 the logs) if a wapi download operation was cancelled (by closing the TCP
759 connection, or pushing the "stop" button in a web browser).
760
761 Tahoe now uses Foolscap "Incidents", writing an "incident report" file to
762 logs/incidents/ each time something weird occurs. These reports are available
763 to an "incident gatherer" through the flogtool command. For more details,
764 please see the Foolscap logging documentation. An incident-classifying plugin
765 function is provided in misc/incident-gatherer/classify_tahoe.py .
766
767 If clients detect corruption in shares, they now automatically report it to
768 the server holding that share, if it is new enough to accept the report.
769 These reports are written to files in BASEDIR/storage/corruption-advisories .
770
771 The 'nickname' setting is now defined to be a UTF-8 -encoded string, allowing
772 non-ascii nicknames.
773
774 The 'tahoe start' command will now accept a --syslog argument and pass it
775 through to twistd, making it easier to launch non-Tahoe nodes (like the
776 cpu-watcher) and have them log to syslogd instead of a local file. This is
777 useful when running a Tahoe node out of a USB flash drive.
778
779 The Mac GUI in src/allmydata/gui/ has been improved.
780
781
782 * Release 1.2.0 (2008-07-21)
783
784 ** Security
785
786 This release makes the immutable-file "ciphertext hash tree" mandatory.
787 Previous releases allowed the uploader to decide whether their file would
788 have an integrity check on the ciphertext or not. A malicious uploader could
789 use this to create a readcap that would download as one file or a different
790 one, depending upon which shares the client fetched first, with no errors
791 raised. There are other integrity checks on the shares themselves, preventing
792 a storage server or other party from violating the integrity properties of
793 the read-cap: this failure was only exploitable by the uploader who gives you
794 a carefully constructed read-cap. If you download the file with Tahoe 1.2.0
795 or later, you will not be vulnerable to this problem. #491
796
797 This change does not introduce a compatibility issue, because all existing
798 versions of Tahoe will emit the ciphertext hash tree in their shares.
799
800 ** Dependencies
801
802 Tahoe now requires Foolscap-0.2.9 . It also requires pycryptopp 0.5 or newer,
803 since earlier versions had a bug that interacted with specific compiler
804 versions that could sometimes result in incorrect encryption behavior. Both
805 packages are included in the Tahoe source tarball in misc/dependencies/ , and
806 should be built automatically when necessary.
807
808 ** Web API
809
810 Web API directory pages should now contain properly-slash-terminated links to
811 other directories. They have also stopped using absolute links in forms and
812 pages (which interfered with the use of a front-end load-balancing proxy).
813
814 The behavior of the "Check This File" button changed, in conjunction with
815 larger internal changes to file checking/verification. The button triggers an
816 immediate check as before, but the outcome is shown on its own page, and does
817 not get stored anywhere. As a result, the web directory page no longer shows
818 historical checker results.
819
820 A new "Deep-Check" button has been added, which allows a user to initiate a
821 recursive check of the given directory and all files and directories
822 reachable from it. This can cause quite a bit of work, and has no
823 intermediate progress information or feedback about the process. In addition,
824 the results of the deep-check are extremely limited. A later release will
825 improve this behavior.
826
827 The web server's behavior with respect to non-ASCII (unicode) filenames in
828 the "GET save=true" operation has been improved. To achieve maximum
829 compatibility with variously buggy web browsers, the server does not try to
830 figure out the character set of the inbound filename. It just echoes the same
831 bytes back to the browser in the Content-Disposition header. This seems to
832 make both IE7 and Firefox work correctly.
833
834 ** Checker/Verifier/Repairer
835
836 Tahoe is slowly acquiring convenient tools to check up on file health,
837 examine existing shares for errors, and repair files that are not fully
838 healthy. This release adds a mutable checker/verifier/repairer, although
839 testing is very limited, and there are no web interfaces to trigger repair
840 yet. The "Check" button next to each file or directory on the wapi page
841 will perform a file check, and the "deep check" button on each directory will
842 recursively check all files and directories reachable from there (which may
843 take a very long time).
844
845 Future releases will improve access to this functionality.
846
847 ** Operations/Packaging
848
849 A "check-grid" script has been added, along with a Makefile target. This is
850 intended (with the help of a pre-configured node directory) to check upon the
851 health of a Tahoe grid, uploading and downloading a few files. This can be
852 used as a monitoring tool for a deployed grid, to be run periodically and to
853 signal an error if it ever fails. It also helps with compatibility testing,
854 to verify that the latest Tahoe code is still able to handle files created by
855 an older version.
856
857 The munin plugins from misc/munin/ are now copied into any generated debian
858 packages, and are made executable (and uncompressed) so they can be symlinked
859 directly from /etc/munin/plugins/ .
860
861 Ubuntu "Hardy" was added as a supported debian platform, with a Makefile
862 target to produce hardy .deb packages. Some notes have been added to
863 docs/debian.txt about building Tahoe on a debian/ubuntu system.
864
865 Storage servers now measure operation rates and latency-per-operation, and
866 provides results through the /statistics web page as well as the stats
867 gatherer. Munin plugins have been added to match.
868
869 ** Other
870
871 Tahoe nodes now use Foolscap "incident logging" to record unusual events to
872 their NODEDIR/logs/incidents/ directory. These incident files can be examined
873 by Foolscap logging tools, or delivered to an external log-gatherer for
874 further analysis. Note that Tahoe now requires Foolscap-0.2.9, since 0.2.8
875 had a bug that complained about "OSError: File exists" when trying to create
876 the incidents/ directory for a second time.
877
878 If no servers are available when retrieving a mutable file (like a
879 directory), the node now reports an error instead of hanging forever. Earlier
880 releases would not only hang (causing the wapi directory listing to get
881 stuck half-way through), but the internal dirnode serialization would cause
882 all subsequent attempts to retrieve or modify the same directory to hang as
883 well. #463
884
885 A minor internal exception (reported in logs/twistd.log, in the
886 "stopProducing" method) was fixed, which complained about "self._paused_at
887 not defined" whenever a file download was stopped from the web browser end.
888
889
890 * Release 1.1.0 (2008-06-11)
891
892 ** CLI: new "alias" model
893
894 The new CLI code uses an scp/rsync -like interface, in which directories in
895 the Tahoe storage grid are referenced by a colon-suffixed alias. The new
896 commands look like:
897  tahoe cp local.txt tahoe:virtual.txt
898  tahoe ls work:subdir
899
900 More functionality is available through the CLI: creating unlinked files and
901 directories, recursive copy in or out of the storage grid, hardlinks, and
902 retrieving the raw read- or write- caps through the 'ls' command. Please read
903 docs/CLI.txt for complete details.
904
905 ** wapi: new pages, new commands
906
907 Several new pages were added to the web API:
908
909  /helper_status : to describe what a Helper is doing
910  /statistics : reports node uptime, CPU usage, other stats
911  /file : for easy file-download URLs, see #221
912  /cap == /uri : future compatibility
913
914 The localdir=/localfile= and t=download operations were removed. These
915 required special configuration to enable anyways, but this feature was a
916 security problem, and was mostly obviated by the new "cp -r" command.
917
918 Several new options to the GET command were added:
919
920  t=deep-size : add up the size of all immutable files reachable from the directory
921  t=deep-stats : return a JSON-encoded description of number of files, size
922                 distribution, total size, etc
923
924 POST is now preferred over PUT for most operations which cause side-effects.
925
926 Most wapi calls now accept overwrite=, and default to overwrite=true .
927
928 "POST /uri/DIRCAP/parent/child?t=mkdir" is now the preferred API to create
929 multiple directories at once, rather than ...?t=mkdir-p .
930
931 PUT to a mutable file ("PUT /uri/MUTABLEFILECAP", "PUT /uri/DIRCAP/child")
932 will modify the file in-place.
933
934 ** more munin graphs in misc/munin/
935
936   tahoe-introstats
937   tahoe-rootdir-space
938   tahoe_estimate_files
939   mutable files published/retrieved
940   tahoe_cpu_watcher
941   tahoe_spacetime
942
943 ** New Dependencies
944
945   zfec 1.1.0
946   foolscap 0.2.8
947   pycryptopp 0.5
948   setuptools (now required at runtime)
949
950 ** New Mutable-File Code
951
952 The mutable-file handling code (mostly used for directories) has been
953 completely rewritten. The new scheme has a better API (with a modify()
954 method) and is less likely to lose data when several uncoordinated writers
955 change a file at the same time.
956
957 In addition, a single Tahoe process will coordinate its own writes. If you
958 make two concurrent directory-modifying wapi calls to a single tahoe node,
959 it will internally make one of them wait for the other to complete. This
960 prevents auto-collision (#391).
961
962 The new mutable-file code also detects errors during publish better. Earlier
963 releases might believe that a mutable file was published when in fact it
964 failed.
965
966 ** other features
967
968 The node now monitors its own CPU usage, as a percentage, measured every 60
969 seconds. 1/5/15 minute moving averages are available on the /statistics web
970 page and via the stats-gathering interface.
971
972 Clients now accelerate reconnection to all servers after being offline
973 (#374). When a client is offline for a long time, it scales back reconnection
974 attempts to approximately once per hour, so it may take a while to make the
975 first attempt, but once any attempt succeeds, the other server connections
976 will be retried immediately.
977
978 A new "offloaded KeyGenerator" facility can be configured, to move RSA key
979 generation out from, say, a wapi node, into a separate process. RSA keys
980 can take several seconds to create, and so a wapi node which is being used
981 for directory creation will be unavailable for anything else during this
982 time. The Key Generator process will pre-compute a small pool of keys, to
983 speed things up further. This also takes better advantage of multi-core CPUs,
984 or SMP hosts.
985
986 The node will only use a potentially-slow "du -s" command at startup (to
987 measure how much space has been used) if the "sizelimit" parameter has been
988 configured (to limit how much space is used). Large storage servers should
989 turn off sizelimit until a later release improves the space-management code,
990 since "du -s" on a terabyte filesystem can take hours.
991
992 The Introducer now allows new announcements to replace old ones, to avoid
993 buildups of obsolete announcements.
994
995 Immutable files are limited to about 12GiB (when using the default 3-of-10
996 encoding), because larger files would be corrupted by the four-byte
997 share-size field on the storage servers (#439). A later release will remove
998 this limit. Earlier releases would allow >12GiB uploads, but the resulting
999 file would be unretrievable.
1000
1001 The docs/ directory has been rearranged, with old docs put in
1002 docs/historical/ and not-yet-implemented ones in docs/proposed/ .
1003
1004 The Mac OS-X FUSE plugin has a significant bug fix: earlier versions would
1005 corrupt writes that used seek() instead of writing the file in linear order.
1006 The rsync tool is known to perform writes in this order. This has been fixed.